理解RTX 4070 Ti SUPER与Ada架构老黄的“精准刀法”是如何实现的？_雷竞技须安全稳定

??与一年前发布的RTX?40系同代产品类似，于2024年1月推出的RTX?4070?Ti?SUPER基于NVIDIA?Ada?Lovelace?架构，这一架构采用新型多单元流处理器、第3代?RT?Core和第4代?Tensor?Core。核心基于全新定制台积电4N?制程工艺构建而成，拥有更高运行频率且内建大容量L2缓存，凭借多种能力为用户带来更流畅的光线追踪表现与全新创作方式。

??从GPU-Z显示的参数可以看出，RTX?4070?Ti?SUPER与RTX?4070?Ti不同，基于在RTX?4080与RTX?4090?Laptop中应用的AD103核心，搭载66组多单元流处理器、8448个CUDA核心、264个Tensor核心、66个RT核心。显存规格更为醒目，拥有与RTX?4080近似的16GB?GDDR6X?256bit显存，仅在显存频率与总带宽上略低，以此为基础拥有了4K分辨率游玩3A大作与更多应用的实力。

??对比来看，RTX?4070?Ti?SUPER在核心规格上比RTX?4070?Ti提升约10%，在部分项目例如光栅单元ROPs有20%的提升，显存方面更是拥有跨越式升级。但我们还会产生一个疑问，同样基于AD103核心，它比RTX?4080少了些什么？

??DIY玩家总爱谈到“精准刀法”，但老黄究竟刀在了哪？Ada架构中一些计算单元间的关系能够帮助我们解答此类问题。

??这是一张Ada?Lovelace架构的标准GPC(图形处理簇)图，从中我们可以看出RTX?40系显卡中各式计算单元间的数量与组合关系，例如每个GPC带有16个ROPs(光栅单元);每个TPC(纹理处理簇)包括2组多单元流处理器。

??而从这张更加微观的多单元流处理器架构图中我们可以看到，每组多单元流处理器会带有1个RT核心、4个Tensor核心、4个纹理单元(Tex)、128个CUDA核心等，这是架构本身的特性。

??但我们会注意到，并不是每个GPC中都一定包含6个TPC，例如RTX?4070?SUPER配备有2个5TPC的GPC，桌面端性能相对孱弱的RTX?4060(AD107)核心主要由3个4TPC的GPC组成。一些RTX?40系显卡拥有的TPC数量不是6的倍数，进而使得多单元流处理器数量不是12的倍数，RTX?4070?Ti?SUPER也正属于这种情况。

RTX?4070?SUPER配备的5TPC?GPC

RTX?4060由3个4TPC?GPC组成

??GPU-Z信息告诉我们，RTX?4070?Ti?SUPER拥有96个ROPs，这一点能够看出它采用的AD103核心为96/16=6个GPC，但通过66组多单元流处理器可知，它拥有33个而不是标准的36个TPC。

??接下来，我们就能运用一下自己的想象力，想象出从下图完整的AD103核心中“切”出RTX?4070?Ti?SUPER的样子。

??相似的现象发生在许多NVIDIA显卡，乃至更多类型的芯片产品中。

??例如此前推出的RTX?4080拥有112个ROPs、7个GPC，同时TPC数量也不是标准的42个，而是38个。运用了规格基本完整的AD103核心的RTX?4080?SUPER为40个TPC，可见完整核心也没有那么“完整”。

??本代消费级GPU的霸主RTX?4090，其采用的AD102核心相比完整版也相差甚远。

??通过配备标准与非标准的GPC组合，RTX?40系显卡能够调整不同型号对光栅、光追、FP32/INT32、张量计算等处理性能的倾向性。而读者需要了解的是，ROPs数量与GPC相关，而其它主要衡量RTX?40系显卡规格的参数均与TPC数量相关。

??这可以在一定程度上解答为何RTX?4060在RTX?40系招牌的DLSS?3功能下表现不佳。AD107核心采用3个规模更小的GPC，致使ROPs以外的计算单元规格不完整，因此在诸多应用上性能不足。

??综合以上我们对Ada架构的介绍，以及对RTX?4070?Ti?SUPER等显卡的规格概述，不难看出它们都在某种程度上经受了“精准刀法”，并伴随着L2缓存、媒体引擎、显存、功耗等更多维度的规格调整，使其更加符合NVIDIA的目标定位。而RTX?4070?Ti?SUPER核心、L2缓存、显存等规格有所降低，但保留了更多与通用运算、AI相关的处理单元，也难怪NVIDIA将其定义为更平衡的AI应用选择。

理解RTX 4070 Ti SUPER与Ada架构 老黄的“精准刀法”是如何实现的？

热门标签

理解RTX 4070 Ti SUPER与Ada架构老黄的“精准刀法”是如何实现的？