• 资讯
    • 资讯
    • 视频
    • 图库

NVIDIA帕斯卡(Pascal)架构解析

2016-05-20 10:39:00 来源:泡泡网,超能网bolvar 作者:孙端、孙斌 我要评论:0 点击量:2316

    近日,NVIDIA终于正式发布了旗下最新一代的旗舰级显卡——GTX 1080,而这也是表示着NVIDIA帕斯卡架构(Pascal)正式亮相,在经历了四年给予28nm FinFET制造工艺的核心架构以后,NVIDIA终于将工艺进化到了16nm FinFET,在同样的面积上可以集成更多数量的晶体管,这无疑可以给显卡效能表现带来明显的提升。

   虽然GTX1080采用的是GP104核心,不过帕斯卡架构还有更加专业的GP100核心,接下来我们就通过这两个核心来探讨下帕斯卡架构的那些特点。

NVIDIA帕斯卡(Pascal)架构解析

GP100核心

NVIDIA帕斯卡(Pascal)架构解析

GP104核心

  GP100核心是帕斯卡家族的旗舰核心,预计桌面上的GTX 1080 Ti、新版GTX Titan X、以及定位服务器的旗舰专业图形显卡都会使用它,集成了153亿个晶体管,比麦克斯韦GM200多了超过90%,核心面积达610平方毫米,只比28nm工艺的GM200大了区区9平方毫米。完整的GP100核心拥有60个SM(流式多处理器)单元,每个SM单元内有64个FP32单精度CUDA核心(麦克斯韦、开普勒架构分别有128个、192个),总计3840个,GP100核心的每个SM单元内还有32个FP64双精度CUDA核心,总计1920个,是单精度的1/2,FP64浮点性能可达5.3TFLOPS,远超GK110核心的1.68TFLOPS,不过FP64的计算性能对游戏运行并没有太大用处。

  而GTX 1080采用的GP104核心则定位游戏图形,它内建4组GPC和8个显存控制器,每个GPC包含5个SM,1个SM中集成了128个CUDA单元、8个纹理单元、256KB的二级缓存、96KB的共享储存空间以及48KB的一级缓存。

NVIDIA帕斯卡(Pascal)架构解析

  SM流式多处理器能 够高度协调其中的CUDA核心以及其他功能元件的工作,这20个SM会参与到几乎所有GPU执行的所有命令中。GeForce GTX 1080拥有8个位宽为32bit的显存控制器,每一个显存控制器配有八个ROP单元和256 KB二级缓存。所以,完整GTX 1080的GP104核心共有2560个CUDA单元、256bit显存位宽、64个ROP、160个TMU以及2MB二级缓存。

NVIDIA帕斯卡(Pascal)架构解析

   GP104的核心晶体管数量为7.2b,核心面积为314mm2,远远小于麦克斯韦家族的GM200,甚至比GM204还要小不少。得益于16nm FinFET工艺的应用,每平方毫米的晶体管数量达到了22.9m,远远高于GM200。这也是GP104能耗比如此高效的主要原因之一。此外,CUDA 数量2560个,ROPs数量64个,TMUs数量160个,都介于GTX 980、GTX 980 Ti之间。

NVIDIA帕斯卡(Pascal)架构解析

   NVIDIA将GPU开发工作的重点放在了设计Pascal核心架构的每一个细节中。Pascal之所有能够成为有史以来能效最高的GPU,原因不仅仅 是16nm FinFET带来的制造工艺精进,更得益于持续提高的核心效率。NVIDIA工程团队的一大精力投入重点是GPU核心运行频率,橡木桶定律那样,GPU核 心运行频率是由数以百万计的设计电路中速度最慢的那一路径决定的,所以这一最慢路径的优化对于GPU核心运行频率的提高是至关重要的。经过NVIDIA工 程团队在这一领域的不断钻研,GeForce GTX 1080的核心运行频率要比GTX 980高出40%之多!单靠16nm FinFET的制造工艺,是不能够带来如此高比例的核心频率提升的。

HBM 2和GDDR5X显存解析

NVIDIA帕斯卡(Pascal)架构解析

   与前代显卡相比,帕斯卡架构的显存由GDDR5升级为GDDR5X、甚至HBM 2,这将带来显存带宽的巨大提升。HBM 2显存现在已经被JEDEC吸纳为标准。相比第一代HBM显存,HBM 2显存IO位宽不变,但核心容量从2Gb提升到了8Gb,支持4Hi、8Hi堆栈,频率从1Gbps提升到了2Gbps,带宽从512GB/s提升到了1024GB/s,这也是TB/s带宽的由来。GP100核心使用的应该是SK Hynix的HBM 2显存,每个GP100核心周围堆栈了4颗HBM 2显存,总容量是16GB。

   16GB HBM2显存总量在Tesla及Quadro专业卡中不算第一,但HBM 2显存超高的带宽是GDDR5显存望尘莫及的。不过值得注意的是,在GTC大会上展示的HBM 2显存频率标明是2Gbps的,但NVIDIA的GP100核心目前带宽只有720GB/s,并没有达到之前宣称的TB/s带宽,算下来频率应该只有1.4Gbps左右,这说明GP100核心的HBM 2显存并没有全速运行,不清楚NVIDIA为何留了一手。

   支持HBM显存对NVIDIA来说还有个好处,那就是ECC校验。此前的架构中,NVIDIA Tesla显卡的ECC校验需要占用6.25%的显存空间,这意味着有相当部分的显存要被“浪费”,Tesla K40加速卡的12GB显存中有750MB预留给ECC校验,可用的内存容量就剩下11.25GB,而且这还会影响内存带宽。相比之下,HBM 2显存原生支持ECC校验,不需要额外的内存占用,这不仅提高了显存利用率,带宽也不会受影响。

NVIDIA帕斯卡(Pascal)架构解析

   不过受限于HBM 2显存的成本太高,不太可能立刻大规模使用在所有高端显卡上,所以GTX1080使用的GP104核心使用的是GDDR5X显存,它可以简单理解为在GDDR5技术基础上的一个拓展,其选择采用双管齐下的方式来提升显存带宽,同时,GDDR5X还简单粗暴的将数据预取位宽从8-Bit提升到了16-Bit。得益于256bit显存位宽、10Gbps显存频率规格的GDDR5显存,GeForce GTX 1080的显存带宽要比GTX 980多出了43%,再加上显存压缩架构的改进,GeForce GTX 1080可使用的有效显存带宽是GTX 980的1.7倍!

  经过NVIDIA显存工程师多年的潜心研究,使得GDDR5X显存的运行频率能够达到10Gbps,再加上GDDR5X IO电路的优化以及新的制造工艺,让GDDR5X显存在同样的能源消耗下获得43%的频率提升成为可能。

NVIDIA帕斯卡(Pascal)架构解析

  GPU芯片和显存芯片之间的通路也是提高显存带宽实际效率的重要因素。同样的,二者之间的信息交换速度也是由信号最弱的那条通路所决定,NVIDIA显存工程师将各个通路都进行了细致的调校,尽可能地排除信号的串扰情况和不连续性,以降低通路信号的损耗。

  总而言之,NVIDIA在显存方面的工作成果,不仅是让GDDR5X显存获得了10Gbps的运行速度,而且还从设计上改善了GPU和显存芯片之间的信号通路。

  NVIDIA GeForce GTX 1080的显存子系统使用无损压缩存储技术,可以减少DRAM的带宽需求,该技术可以带来如下几点好处:

  1.减少了写入到显存中的数据量

  2.减少了由显存转入至二级缓存的数据量,换言之就是增加了二级缓存的容量

  3.减少了GPU中各个元件之间的数据传输量

   GPU中的压缩管道有许多不同的压缩算法,GPU可以从中择优作为数据压缩的途径。这些算法中最重要的就是增量颜色压缩。GPU利用增量颜色压缩算法, 计算一个范围里像素之间的差异,然后给这些像素加上基准δ值并存储下来。如果这种算法成功的话,这些数据将以2:1的比例存储下来。存储的数据经过压缩 后,GeForce GTX1080所处理的每一帧画面需要提取的数据量就会显著减少。这样相当于提供了20%的额外显存带宽,再结合上GeForce GTX1080的10 Gbps频率的GDDR5X显存,最终使得GTX1080的有效显存带宽成为GeForce GTX980的1.7倍。

NVLink可支持8路显卡并行

   如果说HBM 2显存是NVIDIA公布的Pascal的第一个关键特性,那么NV Link总线就是另外一个关键了,它同样是NVIDIA针对高性能运算开发的技术,号称速度是PCI-E总线的5-12倍,前面提到的DGX-1深度计算超级计算机就使用了NV Link技术。

NVIDIA帕斯卡(Pascal)架构解析

GP100显卡背后的NV Link接口

   NV Link的优点就是带宽超高,目前PCI-E 3.0 x16带宽不过16GB/s,用在游戏显卡上是足够的,但在超算中就不够看了,新一代的PCI-E 4.0规范又延期了,这就得靠NV Link总线了。NV Link实际上是NVIDIA与IBM合作开发的,每个通道的带宽是40GB/s,GP100核心支持4个NV Link,双向带宽高达160GB/s,而且带宽效率高达94%,这些都要比PCI-E总线更有优势。

   NV Link技术主要是为高性能运算而生的,IBM会在他们的Power 9处理器中使用该技术,Intel就不太可能使用NVIDIA的技术了,他们有自己的并行总线技术。对于普通消费者来说,NV Link意义不大,不过超高的带宽、更低的延迟使得NV Link技术可以支持8路显卡并行,对高玩来说有一定吸引力,不过多卡互联的关键在于目前恐怕没有哪些应用或者游戏能够完美支持8卡运行。