Matrix 首页推荐

Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章,展示来自用户的最真实的体验和观点。

文章代表作者个人观点,少数派仅对标题和排版略作修改。


9 月 2 日,英伟达在线上举办了 GPU Technology Conference 2020,英伟达 CEO 黄仁勋先生发表主旨演讲,正式公布了 RTX 30 系列显卡,一系列激动人心、划时代的软硬件技术和产品亮相。此前已经有作者针对相关内容做了介绍与点评,本文将站在个人的视角,谈一谈对显卡性能判断的理解,推及对近年英伟达显卡系列的看法,以及由此引发的、关于英伟达部分产品线未来发展的思考,希望能够抛砖引玉。

我们怎么分析显卡性能

在聚焦到特定显卡系列前,我首先想分享的是一些分析显卡性能的方法论。

当我们在选购一台计算机的时候,第一眼就能看到商品名里后缀的一些关键参数,比如这台机器用什么型号的 CPU、内存多少等等,然后大家可能会再去看一看这个 CPU 的核心数、频率是多少;其实这一思路对于看显卡来说同样适用,因为显卡可以被看作一台独立的计算机,它「寄生」于「宿主」计算机体内,协助「宿主」完成计算任务。所以,大致估计一块显卡的性能就和估计一台计算机的性能差不多,首先也是看它的核心、内存。

显卡的核心和计算机的 CPU 类似,都可以从「频率」「核心数」中看出个大概的高下:「频率」代表每个核心每秒能执行的 GPU 指令条数,GPU 的频率越高,一个核心运行同一段计算指令需要的时间就越少;「核心数」代表有多少个不同的核心能一起协作完成这段计算,在计算任务能被均匀分工的情况下,核心数越多,计算所需时间越少。

显卡的核心与计算机的 CPU 不同的是,显卡面对的计算任务相对 CPU 来说较为简单,显卡负责的这部分计算任务往往重复性很高,比如游戏中常用的矩阵运算,这就可以被很平均地分配个多个核心单独计算、最后把答案汇总,所以显卡普遍采用了单个核心构造比 CPU 的简单、核心数很多的设计。

事实上,显卡核心不仅频率比 CPU 慢很多,指令执行效率也有差距:显卡内建的指令比较简单,这也就意味着相同的任务可能需要比 CPU 更多的指令来完成,譬如说,要对缓存中某个数据做修改,显卡上需要多条指令才能完成,在计算机 CPU 上可能一条指令就好了。不过,失之东隅、收之桑榆,显卡在核心数上已经高出 CPU 两个数量级了,计算机 CPU 就好比一台跑车,可以把人飞速地从 A 地运到 B 地,而如果有几十个人都需要从 A 到 B,比起用跑车一趟一趟地运,开个大巴可能更优,慢是慢了点,但一趟就能拉上所有人。

另一个影响 GPU 性能的重大参数就是显存大小了。显存和计算机内存作用类似,用来暂存数据、供核心计算使用。不过,显卡上并没有自己的硬盘,显存里的数据也不是从硬盘直接读取来的,而是由计算机的内存通过 PCIe 总线发送过来的;游戏中,越是复杂的场景、越高的分辨率,所需要的显存就越多,这时候如果显存越大,显卡能暂存的数据就越多,对从计算机内存传输数据的需求也就越少。

看完了通用的技术总结,再回到本文的核心主角——英伟达 10-30 系列显卡,结论就相对简单了。近年来,显卡和核心设计并没有太大变化,英伟达的 CUDA 核心频率从在 10-30 的发展期间就一直维持在约 1.4-1.7GHz 的水准,同时,显卡的计算任务也一直能比较好地被多核心并行计算,所以我们基本不会太关注显卡的频率,主要从显卡的核心数、显存大小就能大致推断显卡的性能水准。

老黄的「刀法」和命名哲学

英伟达新一代显卡的性能一定程度上是可以预测的,近年的新一代一般会出现「越级打怪」的情况,不知是否是有意而为之。简单来说,新一代的「60」会接近上一代的「70」,新一代的「70」会接近于上一代的「80」,在参数上略逊一筹(毕竟你少付了钱),但得益于新的架构和更高速的显存,整体测试性能上会略胜一筹。

坊间常用「老黄刀法」来调侃英伟达黄老板这种精准切出产品细分定位的「神功」,有多少预算、想要什么样的产品,都能在一揽子英伟达显卡里找到心仪的标的,「参数上少一点、性能上多一点」,刀法精准、耐人寻味,给人一种加量不加价的实诚感觉。

回顾 10-30 系列的整个发布历程,可以让我们更透彻地理解如此商法,也对即将到来的 30 系列有更明晰的认知:

GTX 10 系列:树立精准的市场定位

2016 年英伟达显卡进入了「10XX」四位数编号的新时代,在公布 GeForce 10 系列显卡时率先发布了 1060、1070 和 1080 三款,首发公版(Founder Edition)定价分别为 300、450 和 700 美元,这三款产品覆盖了主流玩家对显卡性能的需求,也设置了相对合理的价格梯度。

随后的一年里,英伟达发布了 1070 Ti 和 1080 Ti 作为升级版。1070 Ti 的 CUDA 核心从 1920 增加到了 2432,直逼 1080 的 2560;1080 Ti 更是以 3584 的 CUDA 核心数几乎打平了 Titan X(1200 美元),老黄只是在显存上略砍 1GB 以示尊敬。1080 Ti 就这么以 700 美元的售价成为了当年的良心旗舰卡。一个趣闻是,我在 2016 年 8 月以两百多美元入手了全新非公版 6G 的 1060,后来在 2018 年初,因为比特币挖矿大热导致显卡价格暴涨,我二手卖掉这张显卡时一算,比买入时还多赚了 20 美元。

RTX 20 系列:打破了前一代的命名规则

2018 年 20 系列显卡发布时,虽然挖比特币的热度有所消退,但显卡市场的火热仍在持续,英伟达也趁机抬高了进入显卡加速光线追踪的「门槛要价」。

最初,RTX 2060 并没有首发登场,如果想要第一批体验上 RTX 的光线追踪,至少要花上 500 美元购买 RTX 2070;同一批次发布的还有 RTX 2080、RTX 2080Ti,后者售价 1200 美元,高出前者足足 400 美元。以前,「Ti」后缀一般指向原产品线的小幅升级,例如 GTX 1070 Ti 和 GTX 1080 Ti,比起前一年的 GTX 1070 和 GTX 1080 都是「加量不加价」;虽然 GTX 1050 时出现过 Ti 版、非 Ti 版同时登场的极个别例外,但是其定价上也几乎没有差异。

可能是前一代 GTX 1080 Ti 实在太火,老黄想借着「Ti」的名声来「诈骗」一波,但究其根本,RTX 2080 Ti 的定位已经不再是简单升级,而是一款可以完全替原来「Titan」系列地位的旗舰产品。可能老黄也意识到了,「Ti」的代言意味已经变了味,于是从次年起,小幅升级的显卡均以「Super」来命名了。

RTX 30 系列:诚意十足的升级

今年的 30 系显卡中,老黄在旗舰卡 RTX 3090 上加足了料,CUDA 核心数首次突破了 10000,24GB 的显存与上一代的 Titan 卡一致,与 RTX 3080 的 10G 显存拉开了极远的距离。个人的猜测是,老黄可能觉得如此大的差距要是命名为 3080 Ti 会有失水准、掩盖其真实的能力水准,而Titan 的名字又要为之后显存更大的卡留着,于是乎搬出了尘封的「90」来命名。要知道,上一个拥有「90」称号的显卡还是著名的「690战术核显卡」——GTX 690。本次发布的另外两款显卡 RTX 3080 和 RTX 3070 也是诚意十足,其中 3070 在参数上力压 2080,同样是 8GB 内存,CUDA 核心数是 2080 的两倍多、超过了 2080 Ti。

虽然现在还没有跑分结果,但是根据现有的数据分析,考虑到核心数、显存技术的「大跃进」,这两款显卡仍将符合以往「越级打怪」的规律,并且会以更大的优势超越上一代高一档的显卡,RTX 3070 完全可能「越两级」干掉 RTX 2080 Ti。

30 系列引发的一些思考

本次的新品发布开启了 RTX 的新时代,也带起了我对英伟达部分技术栈、产品线的一些思考,包含了个人多年使用英伟达显卡产品的部分感想,仅供各位读者参考:

NVLink 的门槛逐年提高

NVLink 是英伟达推出的一种高性能运算解决方案,用于 CPU 和 GPU 之间、不同 GPU 之间的点对点数据传输,实现多路交火。这里我们还是把显卡比作一台计算机,那么 NVLink(包括更早的 NVIDIA SLI 技术)就是打通这些计算机的高度通信网络,实现了计算任务分配至多卡协作完成的功能。随着 NVLink 的升级,通信的带宽越来越大,显卡之间合作运算的方式也是越来越灵活,但英伟达为使用 NVLink 设置的门槛也是越来越高,从 1070 到 2080 再到今年的 3090。

其实对于大多数家庭用户来说,多路显卡并非必需品,至少在玩游戏这个需求下,单卡的性价比和兼容性仍是最好的。不过对工作站和实验室而言,NVLink 将是一个达到更多计算核心、更大显存的好途径。或许在未来,NVLink 才是真正能将家用游戏显卡和工作实验室卡区分开来的标准。

Titan 何去何从

Titan 原本主要针对工作站电脑,但在游戏画面标准从 1080P 过渡到 4K 的过程中,它事实上也占住了相当一部分家用电脑的市场;与之相比,Titan RTX 则是以24GB 的超大显存以及 2500 美元的超高定价,几乎完全跳脱出了家用旗舰显卡的定位,真正成为了属于工作站和实验室的配置。今年 RTX 30 系列的 Titan 显卡还没有发布,但是 RTX 3090 的性能和定价已经抵达了曾只属于 Titan 的位置。

个人的猜测是:老黄也许会在今年内推出新一代的 Titan 卡,它也许会拥有 48GB 的显存,定价可能还是会在 2500-3000 美元左右;当然了,Titan 这个产品线也有可能就这么被砍掉,毕竟 RTX 3090 已经是名副其实的 Titan 了,而且如果真就为了 48GB 显存和更多 CUDA 核心,用 NVLink 串两颗 3090 就成了,这样做的成本也才 3000 美元而已;这么一算的话,Titan 的生存空间就愈发狭窄了,再加上 Titan 现在已经完全不走家用条线的定价模式,或许老黄也该把它踢出游戏卡定位的 GeForce、归到专业卡的行列中去了。

光线追踪的逐渐流行

其实,对于当初 RTX 20 系列增加光线追踪功能,我是有些意外的。事实上,想让光影效果更为惊人、画面更显逼真,RTX 这样的硬件光线追踪只是众多技术流派中的一种,不靠特殊硬件、就从软件层面进行模拟也是完全可行的;光线追踪模块的加入颇有一些为用户创造需求的意味,好比 Apple 公司作为行业龙头带头整活、取消 3.5mm 耳机接口,为手机用户造出了使用无线耳机的需求,这不是「自然规律」,而是一次成功的「人工干预」。

同样的道理套过来看,基于特殊硬件模块和 AI 算法的 RTX 光线追踪确实能让游戏画面更加真实,但用户会那么简单就多掏钱支持英伟达树立新标准吗?

所以,站在英伟达的角度,想让远非必需品的 RTX 光线追踪发展成行业生态标准,不仅自己要发力,还需要和游戏开发商强强联合,让开发团队不断产出内容适配 RTX。如此一来,在 RTX 显卡上拥有「独占特效」的游戏,在增加了自身卖点的同时,也可能带动 RTX 显卡的销量,让英伟达和开发商各取所需、实现双赢,这与「主机独占游戏」的商法有异曲同工之妙。

RTX 20 刚刚发布的时候,市面上还只有寥寥几款原生支持 RTX 光线追踪的游戏,用户还有可能会为了更优的帧数、画质而主动选择「RTX OFF」;英伟达自己对刚上市的 RTX 可能也比较心虚,为防用户不买账,同时还推出了不带光线追踪的 16 系列显卡。

为给 RTX「首发护航」,英伟达当时推出过买 RTX 送《战地 5(Battlefield V)》的优惠,希望有更多用户能高保真地接触到自家全新的光线追踪技术,传递良好的第一印象,着手建立起对 RTX 的依赖;转眼到了 RTX 风头愈发强劲的今年,随着英伟达和更多大牌游戏厂商达成合作,大量支持 RTX 光线追踪、不同种类的游戏纷至沓来,英伟达主导的这一光线追踪生态已更趋成型,相信 RTX 30 系列的到来能把生态基础夯得更实在。

结语

最后,我想总结到的是,RTX 20 系列作为英伟达试水硬件光线追踪的第一代产品,其探索的意味更重,本次诚意发布的 RTX 30 系列显然成熟得多,升级幅度相当可观,极富诚意的新一代光线追踪核心、整体性能提升将会为用户带来更好的体验。

英伟达此番大踏步的前进,想必也与宿命的对手之一——AMD 带来的竞争压力密不可分,AMD 今年还没有出手,其将在年底带来拥有全新架构的新显卡。虽然高端市场被英伟达占据,但 AMD 还是凭价格优势、不错的能耗管理,占领了可观的中端市场份额。

上一个「挤牙膏」的工厂,一不留神就被 AMD 逆转、按在地上摩擦了,英伟达此次率先发难,又拉开了一段预防反杀的安全距离,但「红绿」势力的此消彼长还会继续,而这样的良性拉锯也还会继续给用户带来红利,就让我们接着看热闹吧。

(文中图片来自网络,图表为自制)

> 下载少数派 客户端 、关注 少数派公众号 ,了解更妙的数字生活 🍃

> 想申请成为少数派作者?冲!