您的位置: 硬件 > 显卡 > 新闻详情

NVIDIA RTX 3080首发评测:稳坐王位 再无对手

时间: 2020-09-16 20:08 来源:3dmgame.com 编辑:夕阳月下

[page]安培,一场属于NVIDIA的个人秀[/page]

前言

  两年前的9月份,NVIDIA推出了基于全新一代图灵架构的RTX 20系列显卡,尽管常规性能的提升仍然值得让人兴奋,但对于产品敏感的用户都知道,图灵架构中高性能的SM单元+RT Core+Tensor Core这个组合才是图灵架构最大的亮点。这样一套拥有强悍基础性能、可以渲染实时光线追踪画面、更好支持了人工智能的显卡架构,正是NVIDIA眼中真正意义上可以面向未来的架构,这样三位一体的架构逻辑也奠定了NVIDIA接下来很长一段时间内的显卡架构设计思路。

  在图灵显卡两年的生命周期内,RTX 20系列在经历了短暂的适配尴尬期之后,就进入了快速的发展期。在NVIDIA的大力推广下,大量游戏陆续增加了对实时光线追踪以及DLSS的技术支持,也让光追+DLSS组合几乎成为了未来新游戏的必备选项。特别是今年DLSS 2.0的全面到来,更是又让RTX 20显卡凭空被压榨出了更多的实际性能,也让对手感到了无比的绝望。种种操作下来,NVIDIA彻底完成了新技术的完整布局,而RTX显卡也自然成为了体验新特性的唯一产品,直接从功能性上封死了对手的追赶空间。

  两年后的9月2日凌晨,RTX 30系列显卡横空出世,发布会直接用三个两倍简单明了的讲清了基于NVIDIA Ampere 架构的RTX 30系列显卡的强悍硬实力,1.9倍于图灵架构的每瓦性能让这一代RTX 30系列在性能上横扫了自家上一代的RTX 20系列。当NVIDIA宣布这一代RTX 3070已经拥有了超越RTX 2080 Ti显卡性能的时候,比那些RTX 2080 Ti用户更加受伤和绝望的恐怕还是它的对手。

  尽管RTX 30系列显卡所采用的NVIDIA Ampere 架构拥有比较多的创新,但对性能升级贡献最大的还是核心规格的大幅提升。除此之外,NVIDIA Ampere 架构整体的设计逻辑基本沿用了图灵架构的思路。也正是因为图灵架构两年内打下的厚实基础,让现在的NVIDIA完全掌握了属于自己的产品节奏。而对于像NVIDIA这样的公司一旦走进了自己的节奏,留给对手的生存空间也就不多了。如果说在RTX 20世代之前,显卡市场的竞争还算比较激烈的话,那么来到RTX 30世代,以目前的情况来看,舞台上呈现的几乎就是NVIDIA的一场个人秀了。

[page]安培显卡/架构解析-上[/page]

  一、三星8nm:晶体管数量即正义

  显卡的核心面积不能无限制的扩大,所以在有限的面积内制程和晶体管数量基本上直接挂钩,而晶体管数量也是显卡最终性能的基本保障。NVIDIA之前发布的Tesla A100计算卡上采用的是台积电7nm工艺,来到消费级的安培显卡上,则换用了成本相对更低的三星8nm工艺,和上一代图灵的12nm FNN相比,三星8nm工艺带来了更高的晶体管密度,在相同的核心面积中也得以塞下更多的晶体管。

  从数据上看,安培家族中的GA102核心拥有280亿个晶体管,比起上代安培同级别核心足足多了140亿个晶体管,这些额外的晶体管为安培显卡中各种计算单元都增加了额外的性能,也是让安培显卡性能猛增的重要原因之一。

  二、CUDA数量大幅提升 SM单元架构改变

GA102-200核心(RTX 3080)

  首发的安培三兄弟在纸面参数中的CUDA数量相较于上一代都有了非常夸张的提升,其中RTX 3070拥有5888个CUDA,RTX 3080拥有8704个CUDA,RTX 3090更是直接升级到了10496个CUDA。这样的升级一是得益于三星的8nm工艺,其次就是NVIDIA Ampere 架构重新设计的SM单元。

TU102 SM单元

GA102 SM单元

  在图灵架构下,每一个SM单元内包含了INT32计算单元、FP32计算单元、Tensor Core以及RT Core;而NVIDIA Ampere 架构下可以看到,现在的SM单元变为了INT32+FP32的组合单元、独立FP32单元、Tensor Core以及RT Core的组合。现在的SM分区每个时钟能够执行32个FP32操作,所有四个SM分区组合在一起,每个时钟可执行128 FP32操作,FP32的总吞吐量为上代图灵的两倍。

  从上面的对比图上我们也可以看到,图灵架构下每个SM单元中的Tensor Core的面积实际上变小了,事实也正是如此。NVIDIA Ampere 架构减少了一半的Tensor Core数量,并利用这部分空间放下了更多的CUDA,这样一来,换取了显卡在更多主要使用场景下的性能提升。除了2倍于图灵的FP32算力,NVIDIA Ampere 架构中的L1缓存的带宽速度也提升了2倍,从116GB/s提升到了219GB/s,同时容量提升了三分之一。

  三、RT Core/Tensor Core性能翻倍

  作为第二代RTX显卡,RTX架构中核心的RT Core和Tensor Core也自然得到了升级。NVIDIA Ampere 架构中的RT Core升级到了第二代,而Tensor Core已经来到了第三代。

  首先说RT Core部分的升级。硬件指标上,第二代的RT Core拥有两倍于上代的三角形求交速率。三角形求交的速度直接决定了RT Core在计算光线时的运行效率。Ampere架构的RT Core可达58 RT TFLOPS,而Turing架构仅为34 RT TFLOPS。

  借助着RT算力的提升,NVIDIA Ampere 架构的RT Core还新加入了运动模糊硬件加速。NVIDIA Ampere 架构现在可以执行更多数量的求交判定,所以在光追渲染流程当中通过遍历物体三个基于时间位置插值的运算,就可以实现硬件级别的运动模糊加速,相较于图灵,NVIDIA Ampere 架构在面对运动模糊光追运算部分的性能提升可达最高8倍。

  前面我们说到了,NVIDIA Ampere 架构下Tensor Core的数量其实是不升反降的,每组SM单元中Tensor Core的数量从8个降低到了4个,但这并不意味着性能上开倒车。尽管在算力上GA102仅有GA100的一半,但是对于游戏卡来说也仍然绰绰有余。

  NVIDIA Ampere架构下的第三代Tensor Core硬件处理稀疏网络的速率达到了Turing架构的两倍,并且可以自动识别并忽略次要的DNN权重,可以提供238 TFLOPS的运算性能,远高于上代的89 TFLOPS。

  四、“三核并发”效率猛增

  事实上RT Core和Tensor Core性能翻倍只是NVIDIA Ampere 架构性能大涨的基本条件,而“三核并发”的全新设计才是真正的杀手锏。

加入光追效果后 Pascal架构单帧渲染时间达到了92ms。

  在帕斯卡时代,因为缺少专用的RT Core对光追踪进行处理,所以想要得到光追踪画面就需要把光追踪部分的BVH运算全部甩给CUDA来做,而CUDA本身在做光追踪相关运算的时候效率低下,所以单帧渲染时长是非常难以接受的。

图灵架构中RT Core和着色器并发执行,加入DLSS后渲染时长大幅缩短。

  而到了图灵时代,因为RT Core的加入,在渲染光追画面的时候,Shader和RT Core可以各司其职,做自己更擅长的任务。这样的并发执行就让渲染单帧光追画面的时长大幅缩短。而借助Tensor Core实现的DLSS则可以进一步减少着色器实际渲染的像素数量,在着色器和RT Core完成了基本渲染之后再交给Tensor Core进行处理,又更进一步减少了单帧渲染时长。从结果上看就是性能基本持平,但是画面明显更好了。

NVIDIA Ampere支持着色器、RT Core、Tensor Core并发执行,单帧渲染时长大幅缩减到6.7ms。

  来到全新的NVIDIA Ampere 架构,现在显卡已经可以实现Shader、RT Core以及Tensor Core三个部分同时并发执行了,现在的Tensor Core已经不需要等待着色器和RT Core完成基本计算才能介入,三个不同的部分现在可以同时开工,大幅减少单帧渲染时长,换句话说,游戏帧数也将大幅得到提高。而这才是NVIDIA Ampere 架构最大的改进。

[page]安培显卡/架构解析-下[/page]

  五、全球最快的GDDR6X显存

  为了跟上显卡核心本身的性能提升,安培显卡也升级了全新的GDDR6X显存,其中今天评测的RTX 3080配备了320-bit GDDR6X显存,实现高达19Gbps的数据速率,与Turing相比,提升40%以上。

  GDDR6X显存主要的改进是采用了PAM4信号机制。简单来说,PAM4很像是SLC SSD和MLC SSD的区别,PAM4信号机制以250mV为步进,拥有了4级信号,相比起GDDR6翻了一倍。这样的变化使得相同时间内的数据传输量直接翻倍,所以也实现了超高的等效频率。

  GDDR6X显存在等效带宽提升50%的情况下,能效反而降低了15%,并且GDDR6X也已经可以实现HBM2显存那样的超高带宽,在消费级市场显然竞争力更足。

  从前面讲到的硬件规格全面提升到全新架构技术的引入以及GDDR6X内存的助力,种种进化使得安培显卡拥有了1.9倍于图灵的每瓦性能,实现了一次性能的大跨越。

  六、RTX 30让8K时代近在眼前

  接口调整

  安培显卡今年在接口上的设计非常耐人寻味,首先是NVLink在8系显卡上也被取消,全系只有RTX 3090拥有这个桥接口,这从一定程度上也说明消费级游戏显卡中双卡桥接已经被彻底放弃。另外RTX 30系列显卡也取消了USB Type-C接口,也足见消费级VR领域发展得实在不容乐观。

  HDMI 2.1

  在视频输出接口部分,首发的RTX 30三兄弟不论公版与否,基本都采用了三个DP 1.4a以及一个HDMI 2.1的配置。其中HDMI 2.1接口单口支持到8K@60Hz或者4K@120Hz的视频输出,原来RTX 20系列要想实现这样规格的视频输出还需要多线连接以及复杂的设置。这代RTX 3090显卡在借助即将上线的DLSS 2.1帮助下已经可以提供8K60帧的游戏体验,发布会上NVIDIA也为我们展示了这一点。

  AV1解码

  除了游戏之外,RTX 30系列显卡还升级到了第七代NVIDIA编码器和第五代NVIDIA解码器,这让RTX 30系列显卡完成了对AV1的8K60P硬解码支持,已经不再需要专用的视频加速卡和极为强悍的CPU来完成解码了。可以说RTX 30系列显卡让8K60P的游戏、影视快速走进我们成为了可能。

  七、不止游戏 安培显卡抢了CPU的饭碗?

  安培显卡还有一个非常值得一提的新特性,就是名为RTX IO的全新技术。现在的新游戏容量都越做越大,100GB以上的大作已经成了家常便饭(《使命召唤16:现代战争》后期版本容量高达221GB),所以游戏文件的解压和读取压力逐步增大。

SSD速度虽快,但也会占用到大量CPU资源进行解压缩

  尽管现在已经全方位走进了SSD时代,PCIe 4.0可以拥有极高的读写速度,但是对于游戏场景来说,更快的读取速度也就意味着CPU需要更多资源来对读取到的文件进行解压缩,此时CPU和系统带宽反而成为了瓶颈。在CPU性能进步极为缓慢的情况下,NVIDIA推出的RTX IO将通过绕开CPU的方式解决掉这个瓶颈。

RTX IO直接让显卡读取硬盘内游戏资源,大幅缩减了对CPU资源的占用

减少资源占中的情况下,RTX IO还大幅度减少了游戏加载时间

  RTX IO让显卡拥有了直接与存储设备数据交换的能力,允许通过DirectStorage读取的数据在压缩状态直接交到GPU,这样一来就释放出了大量的CPU资源。并且RTX 30系列显卡本身的解压缩性能充甚至可以支持多个Gen4 SSD,使I/O速率比传统硬盘快100倍,并将CPU利用率降低20倍。只不过这个技术真正发力的时间还要等到微软明年为游戏开发者推出面向 Windows 的 DirectStorage 开发者预览版之后,届时拥有RTX显卡的玩家便可享受到这种技术。

  八、软硬兼施 加速电竞、直播、内容创作

  NVIDIA Reflex

  这个技术主要针对的是竞技类游戏的用户,在这类游戏当中,延迟是玩家们最为敏感的一个问题。这其中的延迟不仅是我们传统观念上的网络延迟,也和显卡性能、系统甚至键鼠的输入延迟都有很大关系。

  NVIDIA Reflex融合GPU和游戏优化,在搭配上支持NVIDIA G-Sync显示器使用的时候可以显著降低游戏中的操作延迟。这个技术目前首发宣布将支持《使命召唤:战区》、《无畏契约》、《APEX英雄》、《命运2》以及《堡垒之夜》这五款游戏。

  NVIDIA Broadcast

  RTX 30系列显卡内置了性能强大的GPU硬件编码器,为用户高质量的直播做好了准备。除了我们熟知的NVECN以外,现在借助NVIDIA Broadcast,用户可以在不使用绿幕的情况下借助AI完成虚拟背景、自动跟镜等操作。

  NVIDIA Studio

  对于内容生产者,NVIDIA Studio平台给予了非常好的支持,在专业驱动、SDK和各种创意应用的帮助下,RTX 30系列显卡能给他们带来更高的创作效率。全新的Omniverse Machinima工具还允许用户轻松制作一个属于自己的3D动画角色,搭配上自己喜爱的场景,开启了创意的无限可能。

 

[page]全新设计 非公版难以超越[/page]

  NVIDIA GeForce RTX 30系列显卡当中最先解禁的是我们今天评测的RTX 3080。8系显卡通常都代表了NVIDIA显卡家族中的旗舰级水准,虽然今年有了定位更高的RTX 3090,但是那款显卡从规格上看明显是用于接替RTX TITAN的,也是为8K游戏需求而生的,所以对于一般玩家来说,RTX 3080完全就是旗舰级的选择。

  在外观部分,可以看到这一代RTX 3080相比起上代的RTX 2080来说整体体积大了不少。公版RTX 3080实体卡看起来金属质感非常强烈,显卡外部为淡金色搭配黑色,比上代卡更为低调。

  这一代显卡完全重新设计了散热模组,尽管单面看起来是单风扇,但实际上这款显卡采用了一种非常独特的双风扇散热布局。RTX 3080才用的独立推拉式风扇,在正常的机箱内,前面的风扇从下方抽如冷空气,再引导到上部排出。这样的设计甚至从一定程度上也进一步增强了机箱内部整体气流的效率;后面的风扇则直接将热量排到机箱之外。

  尽管这一代RTX 3080的显卡体积要大于上一代RTX 2080,但实际上RTX 3080的PCB面积反而有了大幅缩减,采用了更加紧凑的布局,在边缘还采用了异形设计。这个V形缺口对应的就是显卡前侧风扇的区域。配合上混合式均热板和一体式框架,让这代显卡自身的散热能力大大增强。

  实际通过FurMark进行拷机测试,这块显卡最高温度仅为71℃,频率可以保持在1425MHz,整卡功耗在310W左右。此时显卡风扇转速2250RPM左右,但是显卡噪音控制极为出色,我们认为公版的RTX 3080不论是温度还是噪音控制都是非公版比较难以超越的水平。

  显卡后部我们也可以看到一个拥有非常大的出风口。另外这代显卡的接口改为了1x HDMI 2.1加上3x DP 1.4a的组合。NVlink接口则仅在RTX 3090身上才有。

  还有一个改动是,在显卡供电接口部分,RTX 3080采用了全新的12pin设计,这个新的接口尺寸比传统接口更小。显卡包装内也随机附送了一条双8pin转12pin的线材,对于现有的电源也可以直接兼容。

[page]3DMark基准测试[/page]

  在给大家分析完架构改变,展示完显卡之后,下面我们直接进入到实际测试环节,来看看RTX 3080的实际表现到底如何。

  我们使用的测试平台为Intel Core i9-10900K处理器,搭配Z490主板,双通道DDR4-3200内存,主硬盘为希捷FIRECUDA 510。

  本次测试环节,我们也找来了两款RTX 20系列的产品作为对比,分别是RTX 2080 Ti和RTX 2080 SUPER,所以以下的测试结果可能会让这两款显卡的用户感到不适。

  首先我们简单来看一下这三款产品在纸面参数上的差距。可以看到RTX 3080在硬件规格上向上代采用TU102大核的RTX 2080 Ti完全看齐,同时因为更先进的工艺,核心面积有所减少但晶体管数量却猛增。

  和TU102一样,GA102同样为6组GPC单元,一共68组SM单元,所以在纹理单元、RT Core等硬件的数量上完全一致。但是因为FP32和INT32组合单元的引入,所以CUDA数量整整翻了一倍。

  除此之外,由于GDDR6X显存的引入,RTX 3080的显存位宽已经接近了RTX 2080 Ti,而显存带宽已经实现了反超。从纸面参数上来看,这一代的RTX 3080完全算是RTX 2080 Ti的接班人,这也和上代8系显卡没有用上TU102大核心有一定关系。不过比起纸面参数的提升,对老用户来说最扎心的还是5499元的血腥定价。

  看完参数我们直接来看3DMark部分的测试结果。

  3DMark部分我们首先看基准测试部分,在同平台同驱动版本的情况下我们进行测试。从绝对数据上看代表DX11部分性能测试的Fire Strike Extreme项目中,RTX 3080相较于RTX 2080 SUPER来说提升了45%;相较于RTX 2080 Ti提升了19%。

  DX12部分测试项目Time Spy,RTX 3080相较于RTX 2080 SUPER来说提升了52%;相较于RTX 2080 Ti提升了21%。

  最后的光追踪性能测试Port Royal中,RTX 3080相较于RTX 2080 SUPER来说提升了64%;相较于RTX 2080 Ti提升了32%。相较于DX11/12部分的基准性能,我们可以看到在换装了第二代RT Core的RTX 3080在光追踪部分提升更为明显。

[page]基准游戏性能测试[/page]

  从前面的跑分我们可以大致算出,RTX 3080的实际性能大约是RTX 2080 SUPER的1.5倍,RTX 2080 Ti的1.2倍。但是单纯的跑分并不能完整反应出实际用户体验的差距。我们挑选了12款主流的3A大作对这三款显卡进行测试。

  首先我们进行的是1080p、2K和4K分辨率下均不开启光追踪以及DLSS的性能测试。这部分测试可以更加直观的看出显卡基准性能部分的差距。

  首先看1080p分辨率下的表现。在1080p这个分辨率下,其实对于这三块显卡来说都处在一种施展不开拳脚的状态。以为有些游戏内就限制了最高帧数,比如在《飞向月球》、《荒野大镖客》和《战地5》这些游戏当中,三块显卡基本上都可以跑到游戏内限制的最高帧,实际体验也完全拉不开差距。在另外一些没有限制游戏最高帧的游戏当中,我们还是可以看到一些性能差距。不过除了《毁灭战士》中RTX 3080近乎达到了两倍于RTX 2080 SUPER性能之外,其他游戏的帧数表现也基本符合前面3DMark跑分的测试结果。

  2K分辨率下,可以看到成绩差距终于拉得比较明显了除了个别的锁帧游戏之外,三块显卡的成绩表现基本符合前面测试成绩的提升比例。从绝对数据上可以看到,在不开启DXR/DLSS的情况下,RTX 3080提供的性能已经基本能满足2K分辨率下提供144帧甚至更高的水平了,这也正好可以喂饱主流2K分辨率高刷电竞显示器。

  4K分辨率对于显卡来说一直是一道非常高的门槛,因为4K分辨率意味着4倍于1080p的像素数量,在不借助DLSS的帮助下,上代的RTX 2080 SUPER其实也只是勉强合格水平;而借助RTX 3080性能的大幅提升,在4K分辨率下可以看到游戏表现基本都在RTX 2080 SUPER的1.6~1.7倍水平,可以说已经完全啃下了4K游戏这块硬骨头。

[page]光追踪/DLSS性能测试[/page]

  前面我们看完了RTX 3080在游戏常规性能测试中的具体表现,结果上可以看到在2K和4K分辨率下,这块显卡可以完整的发挥出自身强悍的性能。下面我们的测试主要针对的是实时光线追踪和DLSS,也让我们一起看看第二代RT Core和第三代Tensor Core的具体表现到底如何。

  以上9款支持DXR/DLSS的游戏测试结果来看,基本符合我们的预期。其中一部分游戏当中,可以看到开启DLSS之后的性能提升比例是显著高于RTX 20系列的。在Tensor Core整体数量大幅缩减的情况下,最终整体性能不降反升,可见三代Tensor Core的威力。我们的测试全部基于4K分辨率,所以从结果上也可以看到,RTX 3080完全可以保证开启光追踪的情况下仍然有充沛的性能保证体验。

  3DM点评

  RTX 3080是让NVIDIA彻底坐稳王位的一款产品,它巩固了RTX 20时代开启的全新显卡架构,把创新变成了稳定且巨大的优势。实时光线追踪+DLSS这套组合拳的威力也完全展现了出来。

  今年的RTX 3080从规格上看更像是RTX 2080 Ti的接班人,但是却有着比RTX 2080更低的首发价格,并且不论在任何设定下,这块显卡都能保证流畅的4K游戏体验。我们相信借着RTX 3080的东风,4K游戏显示器的普及速度也将明显加快,而4K高刷显示器走进主流价格段也不再是遥不可及的产物了。

 

玩家点评 0人参与,0条评论)

收藏
违法和不良信息举报
分享:

热门评论

全部评论