Nvidia RTX 5090 評測:真正的圖形革命!

期待已久的 NVIDIA 新一代 Blackwell 就來了,以 RTX 5090 為首。在我們的測試中回答。

在經歷了專門致力於降低功耗的 40 代之後,NVIDIA 再次出擊,推出了基於現代人工智慧運算旗艦架構 Blackwell 的全新 50 系列,預計將在轉折點一勞永逸地證明這一點。這個新的、多汁的B2B 市場。這個新系列還標誌DLSS 4 的出現,一套持續讓人們在網路上談論的技術……但它到底是什麼?

拉RTX 5090這款除了省錢之外不做任何犧牲的顯示卡,仍然是 NVIDIA 在所有這些領域的專業技術的最佳代表。因此,現在是充分發揮其潛力、充分發揮其潛力的時候了。這就是我們測試的目標。

價格和供貨情況

我們正在測試的 RTX 5090 Founder's Edition 將於 2025 年 1 月 30 日在法國上市,建議價格為 2349 歐元。請注意,華碩或微星等製造商也會提供自己的這種變體,具有相似的性能但設計不同。

NVIDIA GeForce RTX 5090
圖形處理器布萊克威爾
凹版印刷4奈米
CUDA 心21760
即時浮點運算318 兆次浮點運算
張量頂部第3352章 你有上衣
GDDR顯存32位GDDR7
記憶體總線512 位

與4090相比,這是一個很大的價格上漲上一代的售價為 1949 歐元。毫不妥協的顯示卡價格實惠:90 年代不是為普通人設計的,而是為那些不看銀行帳戶而是看 FPS 櫃檯的富人設計的。而且在這個細分市場沒有任何競爭的情況下,只要有買家買單,NVIDIA 就可以依照自己的意願定價。

這是我們對 RTX 5090 的測試配置:

  • CM : ROG Strix X870-I 遊戲 WiFi
  • CPU:AMD 銳龍 9 9800x3D
  • 散熱:Corsair iCue H100i RGB Elite
  • RAM:2×16 Go Corsair Vengeance DDR5-6000 MHz
  • 固態硬碟:微星 Space M580 PCIe 5.0 2 轉
  • 電源:Corsair SF1000L 80 Plus Gold

另請閱讀——Nvidia GeForce RTX 4090 評測:它是真正的怪物!

設計、消耗和暖氣

今年最大的改變就是比起上一代,RTX 5090 從需要 3 個甚至 4 個插槽的設計轉變為 2 個插槽的設計。是的,所有這些功能現在都包含在一個能夠保持在稱為 SFF(「小外形」)配置的機身中。這簡直是令人印象深刻的工程。說到工程,熱設計也進行了徹底修改,以實現流通氣流和位於設備底部的兩個風扇。在這一點上又回到了 NVIDIA 的傳統。

這效果很好,因為在我們的測試中,RTX 5090 創始人版在空閒時僅保持在 36°C,滿載時最高可達 74°C。但請注意:新型超快 GDDR7 記憶體的發熱程度往往比上一代高得多,並會迅速升至 88°C。紙面上沒有什麼值得擔心的,但這是新一代的顯著特徵。

最重要的是最終它的消費。公佈的功率為 575W,RTX 5090 比當時的 RTX 4090 多消耗 125W (+28%)。儘管提供了適配器,但建議至少使用 1000W 電源並需要 16 針電源連接埠。必須說的是,Blackwell 晶片使 CUDA 核心數量成倍增加,從 16,384 個增加到 21,760 個(+33%),並且所有這些新的小核心都必須擁有良好的動力。不要誤會:兩者之間的聯繫並不那麼容易追踪,但我們稍後會回到這一點。

請注意,在比賽中,40 人知道如何控制自己,RTX 5090 可在 480 至 550W 之間提供最嚴苛的體驗。另一方面,它知道如何在22W閒置時保持冷靜。如果我們希望看到 NVIDIA 繼續走在效率之路上,那麼這代 50 可以說是回到了“以前的標準”,顯卡會毫不猶豫地消耗能量來發送能量。這款 5090 Founder's Edition 往往會發出令人不安的線圈嗚嗚聲,尤其是當它被迫以每秒 100 幀以上的速度擺動時。

NVIDIA 希望讓大家放心的一點是:問題似乎只涉及幾份新聞稿,如果發生嚴重撞擊,這將包含在退出時的保固範圍內。線圈嘯叫問題也有可能透過更新得到解決; NVIDIA 團隊正在努力解決這個問題。

創造性運算和人工智慧

在我們開始電玩測量和 DLSS 4 的解釋之前,讓我們先來看看我們的創意朋友。畢竟,RTX 4090 面向小型企業,這些企業可以受益於大型人工智慧運算或增強的視聽製作渲染能力。值得注意的是,RTX 5090 現在整合了 3 個最新一代 NVENC 編碼器,當然相容於 AV1,並且專注於 4:2:2 的照片和視訊性能,使色彩更加接近現實。

在照片和影片製作領域,第一個結果是…令人沮喪。在照片部分,在最新版本的 Adob​​e Photoshop 和 Lightroom Classic 上進行測試,沒有任何真正的變化。在口袋手帕里,RTX 5090、4090 和 RX 7900 XTX 提供基本相同的效能。在影片部分,這種關係完全改變了,RTX 5090 的性能比上一代提高了 18%,與 AMD 的產品並駕齊驅。在 DaVinci Resolve 上,觀察結果基本上相同,只是略有增加 9.8%,而 RX 7900 XTX 的得分則低得多。

也許在 3D 製作方面,發展仍然是最好的。這裡,怪獸場景的 Blender 渲染效率提高了 25%,此時 Junkshop 成長了 30%,Classroom 成長了 23%。 AMD卡在本次測試中普遍處於劣勢,相較之下仍處於劣勢。

人工智慧運算在這一代非常重要,我們稍後會回到這一點。但是,如果我們的測試工具沒有及時更新以充分利用為 NVIDIA 卡提供最佳結果的 TensorRT,則 WindowsML 分數已經可以很好地表明 RTX 5090 在 Float 32 中的推理計算表現如何,上升了 22。整數得分基本相似。我們在 Float16 上記錄了最大的進化,達到了 +36%。考慮到我們還沒有使用專門為這些卡製作的 TensorRT,這裡記錄的進展已經非常令人滿意。

但還要注意的是,RTX 5090 現在專注於 FP4 運算,被 NVIDIA 評為效能/渲染品質平衡最佳。如果我們的基準測試工具還不允許我們正確地相互比較這些卡,我們可以注意到,在專門為該場合開發的FLUX.1 下生成圖像,在TensorRT 下只需3.945 秒即可生成1024 像素的圖像。感人的。

4K 和 1440p 與 RTX 4090 的測量

讓我們先從理論基準開始:3DMark 測試。為此,我們選擇了 Speed Way,這是一個旨在充分利用 DirectX 12 Ultimate 及其光線追蹤功能的基準測試,以及 Steel Nomad,它專注於最新技術的純光柵化性能。足以對極其強大的卡牌進行現代比較。

爬上台階,它們幾乎是等價的!與 RTX 4090 相比,RTX 5090 效能提升 43%在 Speed Way 基準測試中,這往往證明了這一代光線追蹤核心的巨大演變。在 Steel Nomad 下,我們甚至發現效能提高了 55%,這往往會結束圍繞 NVIDIA 對光柵性能的關注的討論。從紙面上看,這項發展似乎是驚人的。

為了在遊戲中測試它,我們使用了 10 個遊戲:

這些遊戲因不同的原因被選中。《心靈殺手 2》、《黑神話悟空》或《Cyber​​punk 2077》等遊戲甚至將最新的顯示卡推向了極限。 《Marvel Rivals》等其他遊戲是現代競技遊戲的良好指標。但最重要的是,所有這些遊戲都與雙方的絕大多數技術(DLSS 和 FSR)相容。請注意,對於這些比較,選擇了最低公分母:如果遊戲支援 DLSS 幀生成,但不支援 FSR3 幀生成,則在簡單的 DLSS/FSR 中進行測量,以實現相同的比較基礎。光線追蹤總是被推到極限,無論是在可用的路徑追蹤還是同化中。

心靈殺手2

Remedy 的最新遊戲讓所有顯示卡都屈服,並將繼續如此。在啟動光線追蹤的 4k 中,效能提升似乎很小,為 9.9%,在 1440p 中沒有變化。我們在純光柵化中看到了最大的差異,4K 下的性能提高了 26%,1440p 下的性能提高了 21%。

然而,一旦在性能模式下啟動 DLSS2,差異就會擴大,我們可以看到新的張量核心正在發揮作用。 RT 的 4K 中 +19.5%,RT 的 1440p 中 +22%,但光柵上的差異不太明顯,1440p 中僅 +4.2%,4K 中僅 +16%。 CPU似乎稍微放心了一些。

博德之門3

在《博德之門 3》上,我們注意到 4K 下的性能提高了 35%,而 1440p 下的性能提高了 29%。在性能模式下啟動 DLSS 2 後,該卡甚至遠遠超過了 1440p 下 400 FPS 的平均值,而 RTX 4090 非常接近它。

黑神話悟空

《心靈殺手 2》看起來有點慢,但這裡的進展更為明顯。在 4K 光線追蹤模式下 +33%,1440p 下 +24%。在純光柵化中,關係是相反的:4K 中當然增加了 24%,但 1440p 中僅增加了 6%。

啟動 Frame Generation x2 後,我們看到本質上相同的差異。

賽博朋克2077

在《Cyber​​punk 2077》中,這一趨勢得到了證實:4K RT 下的性能提高了 44%,1440p 下的性能提高了 36%。在傳統光柵中,我們仍在經歷巨大的發展:4K 中 +54%,1440p 中 +25%。

啟用 Frame gen x1 後,DLSS3 中的效能會有所提高,差異約為 30%,具體取決於定義。

飛行模擬器 2024

作為一款出色的CPU 密集型遊戲,《模擬飛行2024》並沒有忘記輕輕蠶食RTX 5090。了34.2%。使用 DLSS 時,4K 解析度提高了 15%,而 1440p 解析度提高了 7.4%。

霍格華茲遺產

霍格華茲遺產是我們選擇的最奇怪的遊戲。在啟動光線追蹤的 4K 模式下,它的性能提升了 36%,這非常令人興奮。但在 1440p 下,演變率降至僅 2%。在沒有光線追蹤的 1440p 下也發現了這種行為,其中 RTX 4090 和 5090 基本上是平局,RTX 5090 具有優勢,它保持了 1% 的高低值。霍格華茲遺產真正在 4K 上成功地發揮了新一代的最佳性能。

但最奇怪的是,在性能模式下啟動 DLSS 2...戰鬥不再真正發生。兩種卡的性能基本上相同。這種行為讓我們感到困惑,並讓我們認為遊戲必須進行深度更新才能從新一代中適當地受益。除非這個問題在司機端得到解決。

地平線禁西

4K 下 +21%,1440p 下 +14%,在效能模式下啟動 DLSS3 後 +23/26%。代代相傳的崇高演變,引人注目,但並不令人興奮。

印第安納瓊斯與古老的圈子

這是一款選擇僅使用最新可用技術的遊戲,因此這是我們最期望的地方。毫不令人失望:在 4K 中啟動補丁追蹤後,效能提高了 32.9%,在 1440p 中甚至提高了 24.4%。如果沒有路徑追蹤,我們仍然有權在兩種定義上將效能提高 16% 到 20%。

由於 Frame Gen 在這款遊戲中仍然不穩定,因此我們選擇在效能模式下關注 DLSS 2,這與沒有它時觀察到的發展基本相同。

漫威對手

《Marvel Rivals》可能是我們選擇中最容易分析的:基本上一直是+30%!

《瑞奇與叮噹》裂縫分離

4K 光線追蹤提高 25%,1440p 光線追蹤提高 20%。再一次,光柵化的演變較不明顯:4K 中增加 15%,1440p 中增加 13%。

在性能模式下啟動 DLSS 3 後,差距就會擴大。 RT 的 4K 性能提高了 32.8%,而 1440p 的性能提高了 31.8%。沒有光線追蹤的 4K 和 1440p 下基本上相同,變化超過 30%。

全新 RTX 和 DLSS 4 技術

神經著色器,NVIDIA 的真正革命

現在有這些原始性能測量以及 DLSS 2 甚至 3...RTX 5090 代表未來。Generation 50在NVIDIA眼中不僅僅是一張新卡,而是混合3D渲染和人工智慧新時代的先驅。要知道,以前,製造商的人工智慧是在「後製」中啟動的:例如,DLSS 2 會等待 1080p 影像創建,然後再啟動以將其「提高」到 1440p 或 4K。 NVIDIA所推崇的「神經渲染」的原理是,人工智慧現在也將在「生產階段」被啟動。

例如,像這樣的技術RTX 神經紋理壓縮將壓縮紋理以使用 AI 計算重新創建它們,這將大大釋放 VRAM,而 RTX 神經材質將利用這一原理,相反,透過使用 AI 計算附加屬性來改善多層紋理的渲染。出於同樣的精神,許多其他功能現已推出,並且不僅會使用 CUDA 核心和 RT 核心的運算能力…還會使用 Tensor 核心。

另請閱讀——DLSS:了解徹底改變電玩遊戲的 Nvidia 技術的一切

所以要明白一件事:如果 NVIDIA 賭注成功,未來對於電玩遊戲來說,AI部分的力量將與純粹的圖形力量一樣重要。但請注意重要的一點:不要像圖像生成引擎一樣看待人工智慧,這些引擎從網路上竊取了數據,並大幅增加了全球電力消耗。在這裡,計算是根據遊戲直接提供的數據在顯示卡上本地完成的。這也意味著遊戲不可能因一台電腦而異:一切最終都基於相同的資產。它只是被人工智慧「增強」了。現在...RTX 5090 的發布中缺少充分利用這些技術的遊戲。

真正改善的治療方法?

在談人工智慧的貢獻之前,我們先來說一個比較傳統但同樣優秀的技術:RTX 巨型幾何。如今,對於最近使用虛幻引擎 Nanite 等系統的遊戲來說,光線追蹤計算的成本極其昂貴,該系統在數百萬個三角形上建立模型。在目前的配置檔案中,在每個三角形上計算光線的通過,導致巨大的計算負載,迫使開發人員只專注於用於計算光線追蹤的最低質量模型。

NVIDIA 透過 RTX Mega Geometry 優化了此類操作透過三角形組進行計算來進一步加速它們。足以改善《心靈殺手 2》(Alan Wake 2)等遊戲的渲染效果,這是第一款整合這些樹葉技術的遊戲。之前/之後顯示結果如何發生巨大變化並且更加精確。

但真正的新穎之處在於 DLSS 4,這是所有 RTX 卡所共有的最大進步是一段CNN機器學習模型的經過。不用麻木你的大腦來深入解釋這些事情,只要知道 NVIDIA 用於改善圖像的 AI 中添加了上下文和並行處理的概念,使其現在對它應該做什麼有更清晰的感知顯示/增強。而且這沒有任何顯著的性能成本。

透過例子更容易看出。在《心靈殺手2》上,CNN版DLSS的缺陷再次得到了完美的展現。此處渲染掃過的樹葉會導致不必要的像素痕跡並扭曲底層紋理,而這種情況在 DLSS 的變換版本中會完全消失。一場小革命。

最後,有多幀生成。不再將 OFA 物理整合到 40 系列卡中,該模型現在非常強大,不再需要它們的幫助,甚至能夠為遊戲的最終渲染創建最多 3 個附加幀(您選擇)。框架,它將作為創建由人工智慧創建的3 個新框架的上下文,這些框架的艱鉅任務是必須在上下文和遊戲的運動中保持連貫性,但是:如果。到50系列,它仍然需要一個硬體元件才能正確地整合到每張卡中:一個專用於翻轉測光的晶片,它控制渲染管道中顯示幀的順序和節奏。

比賽結果?幀速率增加 +198.2%,達到出色的流暢度。但要實現這一壯舉,人工智慧創建的圖像仍然必須與傳統 3D 渲染創建的圖像一樣好。這就是我們需要改變遊戲的地方,因為我在《心靈殺手 2》或《心靈殺手 2》上還沒有發現任何人工智慧創建的框架。龍騰世紀面紗衛士此外,儘管戰鬥場面特別激烈。它位於星際大戰亡命之徒我終於能夠看到 Transformer 模型的殘餘物應用於由 AI 創建的用於多幀生成的框架。

當我們逐幀觀看時,有時會看到某些物體的輪廓向前移動的速度比物體本身的速度稍快,這似乎是人工智慧的運動計算錯誤。此錯誤最常見於在複雜照明區域中移動非常輕微的角色周圍。賭注…簡直是難以察覺的。而且由於 Transformer 技術應用於 DLSS 4 才剛開始,所以它是令人眼花撩亂的。多幀生成具有被禁止的黑魔法的效果,但清楚地證明了人工智慧在視頻遊戲渲染中的貢獻。

那麼這一切的延遲呢?

圍繞所謂「假鏡框」的大爭論也可以從使用此類技術引起的延遲方面看出。確實,人工智慧創建的框架逃脫了電子遊戲的邏輯,電子遊戲的邏輯控制著遊戲的世界,從而控制著我們在虛擬空間中進行的互動。為了簡單起見,我們以格鬥遊戲為例。他們的整個前提是在正確的時間按下正確的按鈕來執行組合,一系列相互抵消的攻擊形成完整的攻擊序列。為了讓《街頭霸王》邏輯來確定這一點,它設定為 60 FPS。從那時起,每次攻擊都參考這個邏輯:如果我在60幀中的第6幀大拳頭之後按下中腳,那麼連擊繼續。如果我按得太早或太晚,組合就會失敗。

大多數視訊遊戲都遵循相同的原理,但它們的邏輯會適應您機器上遊戲的性能。您擁有的幀數越多,遊戲邏輯對您的操作的反應速度就越快。這就是為什麼像《反恐精英》、《Valorant》甚至《Apex Legends》這樣的競技遊戲能夠從高刷新率中獲益匪淺:無論你是否射擊在正確的位置,遊戲的邏輯都能夠更有效地進行計算。我們將行動和反應之間的這種差距稱為延遲。

現在…讓我們使用多幀生成來測量《Marvel Rivals》等競技遊戲的系統延遲。

漫威對手電腦延遲
4K/Ultra/DLSS 4 性能無幀生成13毫秒
幀生成 x218毫秒
幀生成 x319 毫秒
幀生成 x421 毫秒
4K/Ultra/DLSS 關閉無幀生成19 毫秒
1080p/Ultra/DLSS 關閉無幀生成17 毫秒

在 4K 中,效能模式下的 DLSS 模式從遊戲的 1080p 渲染開始,然後升級到 4K。此外,遊戲邏輯是在1080p的基礎上計算的,並且由於使用DLSS減少了渲染的其餘部分,因此更加優化。如果沒有 DLSS,遊戲延遲相當於具有幀生成 x3 的 DLSS 模式 4。如果不使用 DLSS,1080p 的延遲會高於效能模式下使用 DLSS 4 的 4K。

“是的,但是以這種方式測量的系統延遲並不一定會轉化為輸入延遲。”非常好:我們還在螢幕上安裝了 LDAT,它使我們能夠測量螢幕上光子轉換的延遲,從點擊到閃光,平均每次測量 100 個鏡頭,通常稱為輸入延遲。 240Hz 的 4K 顯示屏,啟用 VRR(G-Sync),就像職業遊戲玩家一樣。

模式測量的延遲
1080p DLSS 關閉34.9 毫秒
4K DLSS 關閉33.3 毫秒
4K DLSS4 性能 MFG xO22.2 毫秒
4K DLSS4 性能製造 x433,1 毫秒

完全不同的測試,相似的結論:最高等級的多幀生成對應於在沒有 DLSS 或縮放基礎定義的情況下在遊戲中感受到的相同延遲。所以真正重要的是,一如既往,有一個相當令人滿意的平均 FPS 水平作為基礎,這樣遊戲的邏輯才能順利運行。

心靈殺手2電腦延遲
4K/Ultra/DLSS 4 性能無幀生成33毫秒
幀生成 x242 毫秒
幀生成 x344毫秒
幀生成 x447 毫秒
4K/Ultra/DLSS 關閉無幀生成74 毫秒
1080p/Ultra/DLSS 關閉無幀生成28 毫秒

最後,出於好奇,同一張表顯示了《心靈殺手 2》的單人遊戲體驗,其中 4K 下的基本 FPS 低於 100 FPS。對於要求極高的遊戲,此範例是我們能夠測量到的最重的範例。我們還沒有看到 NVIDIA Reflex 2 及其 Frame Warp 發揮作用來進一步優化這一點…