期待已久的 NVIDIA 新一代 Blackwell 就来了,以 RTX 5090 为首。但它真的能满足所有期望吗?在我们的测试中回答。
在经历了专门致力于降低功耗的 40 代之后,NVIDIA 再次出击,推出了基于现代人工智能计算旗舰架构 Blackwell 的全新 50 系列,有望在转折点一劳永逸地证明这一点。 NVIDIA 并没有放弃视频游戏而转向这个新的、多汁的 B2B 市场。这个新系列还标志DLSS 4 的出现,一套持续让人们在互联网上谈论的技术……但它到底是什么?
拉RTX 5090这款除了省钱之外不做任何牺牲的显卡,仍然是 NVIDIA 在所有这些领域的专业技术的最佳代表。因此,现在是充分发挥其潜力、充分发挥其潜力的时候了。这就是我们测试的目标。
价格和供货情况
我们正在测试的 RTX 5090 Founder's Edition 将于 2025 年 1 月 30 日在法国上市,建议价格为 2349 欧元。请注意,华硕或微星等制造商也会提供自己的这种变体,具有相似的性能但设计不同。
NVIDIA GeForce RTX 5090 | |
---|---|
图形处理器 | 布莱克威尔 |
凹版印刷 | 4纳米 |
CUDA 心 | 21760 |
实时浮点运算 | 318 万亿次浮点运算 |
张量顶部 | 第3352章 你有上衣 |
GDDR显存 | 32位GDDR7 |
内存总线 | 512 位 |
与4090相比,这是一个很大的价格上涨上一代的售价为 1949 欧元。毫不妥协的显卡价格实惠:90 年代不是为普通人设计的,而是为那些不看银行账户而是看 FPS 柜台的富人设计的。而且在这个细分市场没有任何竞争的情况下,只要有买家买单,NVIDIA 就可以按照自己的意愿定价。
这是我们对 RTX 5090 的测试配置:
- CM : ROG Strix X870-I 游戏 WiFi
- CPU:AMD 锐龙 9 9800x3D
- 散热:Corsair iCue H100i RGB Elite
- RAM:2×16 Go Corsair Vengeance DDR5-6000 MHz
- 固态硬盘:微星 Space M580 PCIe 5.0 2 转
- 电源:Corsair SF1000L 80 Plus Gold
另请阅读——Nvidia GeForce RTX 4090 评测:它是真正的怪物!
设计、消耗和供暖
今年最大的变化就是相比上一代,RTX 5090 从需要 3 个甚至 4 个插槽的设计转变为 2 个插槽的设计。是的,所有这些功能现在都包含在一个能够保持在称为 SFF(“小外形”)配置的机身中。这简直是令人印象深刻的工程。说到工程,热设计也进行了彻底修改,以实现流通气流和位于设备底部的两个风扇。在这一点上又回到了 NVIDIA 的传统。
这效果很好,因为在我们的测试中,RTX 5090 创始人版在空闲时仅保持在 36°C,满载时最高可达 74°C。但请注意:新型超快 GDDR7 内存的发热程度往往比上一代高得多,并会迅速升至 88°C。纸面上没有什么值得担心的,但这是新一代的显着特征。
最重要的是最终它的消费。公布的功率为 575W,RTX 5090 比当时的 RTX 4090 多消耗 125W (+28%)。尽管提供了适配器,但建议至少使用 1000W 电源并需要 16 针电源端口。必须说的是,Blackwell 芯片使 CUDA 核心数量成倍增加,从 16,384 个增加到 21,760 个(+33%),并且所有这些新的小核心都必须拥有良好的动力。不要误会:两者之间的联系并不那么容易追踪,但我们稍后会回到这一点。
请注意,在比赛中,40 人知道如何控制自己,RTX 5090 可在 480 至 550W 之间提供最苛刻的体验。另一方面,它知道如何在22W闲置时保持冷静。如果我们希望看到 NVIDIA 继续走在效率之路上,那么这代 50 可以说是回到了“以前的标准”,显卡会毫不犹豫地消耗能量来发送能量。这款 5090 Founder's Edition 往往会发出令人不安的线圈呜呜声,尤其是当它被迫以每秒 100 帧以上的速度摆动时。
NVIDIA 希望让大家放心的一点是:问题似乎只涉及几份新闻稿,如果发生严重撞击,这将包含在退出时的保修范围内。线圈啸叫问题也有可能通过更新得到解决; NVIDIA 团队正在努力解决这个问题。
创造性计算和人工智能
在我们开始视频游戏测量和 DLSS 4 的解释之前,让我们先来看看我们的创意朋友们。毕竟,RTX 4090 面向小型企业,这些企业可以受益于大型人工智能计算或增强的视听制作渲染能力。值得注意的是,RTX 5090 现在集成了 3 个最新一代 NVENC 编码器,当然兼容 AV1,并且专注于 4:2:2 的照片和视频性能,使色彩更加接近现实。
在照片和视频制作领域,第一个结果是……令人沮丧。在照片部分,在最新版本的 Adobe Photoshop 和 Lightroom Classic 上进行测试,没有任何真正的变化。在口袋手帕里,RTX 5090、4090 和 RX 7900 XTX 提供基本相同的性能。在视频部分,这种关系完全改变了,RTX 5090 的性能比上一代提高了 18%,与 AMD 的产品并驾齐驱。在 DaVinci Resolve 上,观察结果基本相同,只是略有增加 9.8%,而 RX 7900 XTX 的得分要低得多。
也许在 3D 制作方面,发展仍然是最好的。这里,怪物场景的 Blender 渲染效率提高了 25%,此时 Junkshop 增长了 30%,Classroom 增长了 23%。 AMD卡在本次测试中普遍处于劣势,相比之下仍然处于劣势。
人工智能计算在这一代非常重要,我们稍后会回到这一点。但是,如果我们的测试工具没有及时更新以充分利用为 NVIDIA 卡提供最佳结果的 TensorRT,则 WindowsML 分数已经可以很好地表明 RTX 5090 在 Float 32 中的推理计算表现如何,上升了 22。 %,整数得分基本相似。我们在 Float16 上记录了最大的进化,达到了 +36%。考虑到我们还没有使用专门为这些卡制作的 TensorRT,这里记录的进展已经非常令人满意。
但还需要注意的是,RTX 5090 现在专注于 FP4 计算,被 NVIDIA 评为性能/渲染质量平衡最佳。如果我们的基准测试工具还不允许我们正确地相互比较这些卡,我们可以注意到,在专门为该场合开发的 FLUX.1 下生成图像,在 TensorRT 下只需 3.945 秒即可生成 1024 像素的图像。感人的。
4K 和 1440p 与 RTX 4090 的测量
让我们首先从理论基准开始:3DMark 测试。为此,我们选择了 Speed Way,这是一个旨在充分利用 DirectX 12 Ultimate 及其光线追踪功能的基准测试,以及 Steel Nomad,它专注于最新技术的纯光栅化性能。足以对极其强大的卡牌进行现代比较。
爬上台阶,它们几乎是等价的!与 RTX 4090 相比,RTX 5090 性能提升 43%在 Speed Way 基准测试中,这往往证明了这一代光线追踪核心的巨大演变。在 Steel Nomad 下,我们甚至发现性能提高了 55%,这往往会结束围绕 NVIDIA 对光栅性能的关注的讨论。从纸面上看,这一发展似乎是惊人的。
为了在游戏中测试它,我们使用了 10 个游戏:
- 心灵杀手2
- 博德之门3
- 黑神话悟空
- 赛博朋克2077
- 飞行模拟器 2024
- 霍格沃茨遗产
- 地平线禁西
- 印第安纳琼斯与古老的圈子
- 漫威对手
- 《瑞奇与叮当》裂缝分离
这些游戏因不同的原因被选中。《心灵杀手 2》、《黑神话悟空》或《赛博朋克 2077》等游戏甚至将最新的显卡推向了极限。 《Marvel Rivals》等其他游戏是现代竞技游戏的良好指标。但最重要的是,所有这些游戏都与双方的绝大多数技术(DLSS 和 FSR)兼容。请注意,对于这些比较,选择了最低公分母:如果游戏支持 DLSS 帧生成,但不支持 FSR3 帧生成,则在简单的 DLSS/FSR 中进行测量,以实现相同的比较基础。光线追踪总是被推到极限,无论是在可用的路径追踪还是同化中。
心灵杀手2
Remedy 的最新游戏让所有显卡都屈服,并将继续如此。在激活光线追踪的 4k 中,性能提升似乎很小,为 9.9%,在 1440p 中没有变化。我们在纯光栅化中看到了最大的差异,4K 下的性能提高了 26%,1440p 下的性能提高了 21%。
然而,一旦在性能模式下激活 DLSS2,差异就会扩大,我们可以看到新的张量核心正在发挥作用。 RT 的 4K 中 +19.5%,RT 的 1440p 中 +22%,但光栅上的差异不太明显,1440p 中仅 +4.2%,4K 中仅 +16%。 CPU似乎稍微放心了一些。
博德之门3
在《博德之门 3》上,我们注意到 4K 下的性能提高了 35%,而 1440p 下的性能提高了 29%。在性能模式下激活 DLSS 2 后,该卡甚至远远超过了 1440p 下 400 FPS 的平均值,而 RTX 4090 非常接近它。
黑神话悟空
《心灵杀手 2》看起来有点慢,但这里的进展更为明显。在 4K 光线追踪模式下 +33%,1440p 下 +24%。在纯光栅化中,关系是相反的:4K 中当然增加了 24%,但 1440p 中仅增加了 6%。
激活 Frame Generation x2 后,我们看到本质上相同的差异。
赛博朋克2077
在《赛博朋克 2077》中,这一趋势得到了证实:4K RT 下的性能提高了 44%,1440p 下的性能提高了 36%。在传统光栅中,我们仍在经历巨大的发展:4K 中 +54%,1440p 中 +25%。
启用 Frame gen x1 后,DLSS3 中的性能会有所提高,差异约为 30%,具体取决于定义。
飞行模拟器 2024
作为一款出色的 CPU 密集型游戏,《模拟飞行 2024》并没有忘记轻轻蚕食 RTX 5090。在性能模式下,在没有 DLSS 的情况下,4K 下的性能提高了 22.6%,1440p 下的性能提高了 34.2%。使用 DLSS 时,4K 分辨率提高了 15%,而 1440p 分辨率提高了 7.4%。
霍格沃茨遗产
霍格沃茨遗产是我们选择的最奇怪的游戏。在激活光线追踪的 4K 模式下,它的性能提升了 36%,这非常令人兴奋。但在 1440p 下,演变率降至仅 2%。在没有光线追踪的 1440p 下也发现了这种行为,其中 RTX 4090 和 5090 基本上是平局,RTX 5090 具有优势,它保持了 1% 的高低值。霍格沃茨遗产真正在 4K 上成功地发挥了新一代的最佳性能。
但最奇怪的是,在性能模式下激活 DLSS 2...战斗不再真正发生。两种卡的性能基本相同。这种行为让我们感到困惑,并让我们认为游戏必须进行深度更新才能从新一代中适当受益。除非这个问题在司机端得到解决。
地平线禁西
4K 下 +21%,1440p 下 +14%,在性能模式下激活 DLSS3 后 +23/26%。代代相传的崇高演变,引人注目,但并不令人兴奋。
印第安纳琼斯与古老的圈子
这是一款选择仅使用最新可用技术的游戏,因此这是我们最期望的地方。毫不令人失望:在 4K 中激活补丁追踪后,性能提高了 32.9%,在 1440p 中甚至提高了 24.4%。如果没有路径跟踪,我们仍然有权在两种定义上将性能提高 16% 到 20%。
由于 Frame Gen 在这款游戏中仍然不稳定,因此我们选择在性能模式下关注 DLSS 2,这与没有它时观察到的发展基本相同。
漫威对手
《Marvel Rivals》可能是我们选择中最容易分析的:基本上一直+30%!
《瑞奇与叮当》裂缝分离
4K 光线追踪提高 25%,1440p 光线追踪提高 20%。再一次,光栅化方面的演变不太明显:4K 中增加 15%,1440p 中增加 13%。
在性能模式下激活 DLSS 3 后,差距就会扩大。 RT 的 4K 性能提高了 32.8%,而 1440p 的性能提高了 31.8%。没有光线追踪的 4K 和 1440p 下基本相同,变化超过 30%。
全新 RTX 和 DLSS 4 技术
神经着色器,NVIDIA 的真正革命
现在有这些原始性能测量以及 DLSS 2 甚至 3...RTX 5090 代表着未来。Generation 50在NVIDIA眼中不仅仅是一张新卡,而是混合3D渲染和人工智能新时代的先驱。要知道,以前,制造商的人工智能是在“后期制作”中激活的:例如,DLSS 2 会等待 1080p 图像创建,然后再激活以将其“提高”到 1440p 或 4K。 NVIDIA所推崇的“神经渲染”的原理是,人工智能现在也将在“生产阶段”被激活。
例如,像这样的技术RTX 神经纹理压缩将压缩纹理以使用 AI 计算重新创建它们,这将大大释放 VRAM,而 RTX 神经材质将利用这一原理,相反,通过使用 AI 计算附加属性来改善多层纹理的渲染。出于同样的精神,许多其他功能现已推出,并且不仅会使用 CUDA 核心和 RT 核心的计算能力……还会使用 Tensor 核心。
另请阅读——DLSS:了解彻底改变视频游戏的 Nvidia 技术的一切
所以要明白一件事:如果 NVIDIA 赌注成功,未来对于视频游戏来说,AI部分的力量将与纯粹的图形力量一样重要。但请注意重要的一点:不要像图像生成引擎一样看待人工智能,这些引擎从互联网上窃取了数据,并大幅增加了全球电力消耗。在这里,计算是根据游戏直接提供的数据在显卡上本地完成的。这也意味着游戏不可能因一台电脑而异:一切最终都基于相同的资产。它只是被人工智能“增强”了。现在...RTX 5090 的发布中缺少充分利用这些技术的游戏。
真正改善的治疗方法?
在谈人工智能的贡献之前,我们先来说一个比较传统但同样优秀的技术:RTX 巨型几何。如今,对于最近使用虚幻引擎 Nanite 等系统的游戏来说,光线追踪计算的成本极其昂贵,该系统在数百万个三角形上构建模型。在当前的配置文件中,在每个三角形上计算光线的通过,导致巨大的计算负载,迫使开发人员只关注用于计算光线追踪的最低质量模型。
NVIDIA 通过 RTX Mega Geometry 优化了此类操作通过三角形组进行计算来进一步加速它们。足以改善《心灵杀手 2》(Alan Wake 2)等游戏的渲染效果,这是第一款集成这些树叶技术的游戏。之前/之后显示结果如何发生巨大变化并且更加精确。
但真正的新颖之处在于 DLSS 4,这是所有 RTX 卡所共有的最大进步是一段CNN机器学习模型的经过。不用麻木你的大脑来深入解释这些事情,只要知道 NVIDIA 用于改善图像的 AI 中添加了上下文和并行处理的概念,使其现在对它应该做什么有更清晰的感知显示/增强。而且这没有任何显着的性能成本。
通过例子更容易看出。在《心灵杀手2》上,CNN版DLSS的缺陷再次得到了完美的展现。此处渲染扫过的树叶会导致不必要的像素痕迹并扭曲底层纹理,而这种情况在 DLSS 的变换版本中会完全消失。一场小革命。
最后,有多帧生成。不再将 OFA 物理集成到 40 系列卡中,该模型现在非常强大,不再需要它们的帮助,甚至能够为游戏的最终渲染创建最多 3 个附加帧(您选择)。有一个“自然”创建的框架,它将作为创建由人工智能创建的 3 个新框架的上下文,这些框架的艰巨任务是必须在上下文和游戏的运动中保持连贯性,但是:如果。这项技术仍然是独家的到50系列,它仍然需要一个硬件元件才能正确地集成到每张卡中:一个专用于翻转测光的芯片,它控制渲染管道中显示帧的顺序和节奏。
比赛结果?帧速率增加 +198.2%,实现出色的流畅性。但要实现这一壮举,人工智能创建的图像仍然必须与传统 3D 渲染创建的图像一样好。这就是我们需要改变游戏的地方,因为我在《心灵杀手 2》或《心灵杀手 2》上还没有发现任何人工智能创建的框架。龙腾世纪面纱卫士此外,尽管战斗场面特别激烈。它位于星球大战亡命之徒我终于能够看到 Transformer 模型的残余物应用于由 AI 创建的用于多帧生成的框架。
当我们逐帧观看时,有时会看到某些物体的轮廓向前移动的速度比物体本身的速度稍快,这似乎是人工智能的运动计算错误。此错误最常见于在复杂照明区域中移动非常轻微的角色周围。赌注…简直是难以察觉的。而且由于 Transformer 技术应用于 DLSS 4 才刚刚开始,所以它是令人眼花缭乱的。多帧生成具有被禁止的黑魔法的效果,但清楚地证明了人工智能在视频游戏渲染中的贡献。
那么这一切的延迟呢?
围绕所谓“假镜框”的大争论还可以从使用此类技术引起的延迟方面看出。确实,人工智能创建的框架逃脱了电子游戏的逻辑,电子游戏的逻辑控制着游戏的世界,从而控制着我们在虚拟空间中进行的互动。为了简单起见,我们以格斗游戏为例。他们的整个前提是在正确的时间按下正确的按钮来执行组合,一系列相互抵消的攻击形成完整的攻击序列。为了让《街头霸王》逻辑来确定这一点,它设置为 60 FPS。从那时起,每次攻击都参考这个逻辑:如果我在60帧中的第6帧大拳头之后按下中脚,那么连击继续。如果我按得太早或太晚,组合就会失败。
大多数视频游戏都遵循相同的原理,但它们的逻辑会适应您机器上游戏的性能。您拥有的帧数越多,游戏逻辑对您的操作的响应速度就越快。这就是为什么像《反恐精英》、《Valorant》甚至《Apex Legends》这样的竞技游戏能够从高刷新率中获益匪浅:无论你是否射击在正确的位置,游戏的逻辑都能够更有效地进行计算。我们将行动和反应之间的这种差距称为延迟。
现在……让我们使用多帧生成来测量《Marvel Rivals》等竞技游戏的系统延迟。
漫威对手 | 电脑延迟 | |
---|---|---|
4K/Ultra/DLSS 4 性能 | 无帧生成 | 13毫秒 |
帧生成 x2 | 18毫秒 | |
帧生成 x3 | 19 毫秒 | |
帧生成 x4 | 21 毫秒 | |
4K/Ultra/DLSS 关闭 | 无帧生成 | 19 毫秒 |
1080p/Ultra/DLSS 关闭 | 无帧生成 | 17 毫秒 |
在 4K 中,性能模式下的 DLSS 模式从游戏的 1080p 渲染开始,然后升级到 4K。此外,游戏逻辑是在1080p的基础上计算的,并且由于使用DLSS减少了渲染的其余部分,因此更加优化。如果没有 DLSS,游戏延迟相当于具有帧生成 x3 的 DLSS 模式 4。如果不使用 DLSS,1080p 的延迟会高于性能模式下使用 DLSS 4 的 4K。
“是的,但是以这种方式测量的系统延迟并不一定会转化为输入延迟。”非常好:我们还在屏幕上安装了 LDAT,它使我们能够测量屏幕上光子转换的延迟,从点击到闪光,平均每次测量 100 个镜头,通常称为输入延迟。 240Hz 的 4K 显示屏,启用 VRR(G-Sync),就像职业游戏玩家一样。
模式 | 测量的延迟 |
---|---|
1080p DLSS 关闭 | 34.9 毫秒 |
4K DLSS 关闭 | 33.3 毫秒 |
4K DLSS4 性能 MFG xO | 22.2 毫秒 |
4K DLSS4 性能制造 x4 | 33,1 毫秒 |
完全不同的测试,相似的结论:最高级别的多帧生成对应于在没有 DLSS 或缩放基础定义的情况下在游戏中感受到的相同延迟。所以真正重要的是,一如既往,有一个相当令人满意的平均 FPS 水平作为基础,这样游戏的逻辑才能顺利运行。
心灵杀手2 | 电脑延迟 | |
---|---|---|
4K/Ultra/DLSS 4 性能 | 无帧生成 | 33毫秒 |
帧生成 x2 | 42 毫秒 | |
帧生成 x3 | 44毫秒 | |
帧生成 x4 | 47 毫秒 | |
4K/Ultra/DLSS 关闭 | 无帧生成 | 74 毫秒 |
1080p/Ultra/DLSS 关闭 | 无帧生成 | 28 毫秒 |
最后,出于好奇,同一张表显示了《心灵杀手 2》的单人游戏体验,其中 4K 下的基本 FPS 低于 100 FPS。对于要求极高的游戏,此示例是我们能够测量到的最重的示例。我们还没有看到 NVIDIA Reflex 2 及其 Frame Warp 发挥作用来进一步优化这一点……