揭秘Hopper GPU：非拼装的800mm2庞然大物

雷电将军 • 2022年4月27日下午1:14 • 资讯 • 阅读 106

在2022年3月NVIDIAGTC大会上，NVIDIA创始人兼CEO黄仁勋介绍基于全新Hopper架构GPU——H100，是英伟达迄今为止，用于加速人工智能(AI)、高性能计算(HPC)和数据分析等任务的最强GPU芯片。这颗芯片以计算科学先驱GraceHopper的姓氏命名。黄仁勋表示：“HopperH100是有史以来最大的代际飞跃。H100具有800亿个晶体管，在性能上堪称NVIDIA的“新核弹…

在2022年3月NVIDIA GTC大会上，NVIDIA创始人兼CEO黄仁勋介绍基于全新Hopper架构GPU——H100，是英伟达迄今为止，用于加速人工智能(AI)、高性能计算(HPC)和数据分析等任务的最强GPU芯片。这颗芯片以计算科学先驱Grace Hopper的姓氏命名。

黄仁勋表示：“Hopper H100是有史以来最大的代际飞跃。H100具有800亿个晶体管，在性能上堪称NVIDIA的“新核弹”。这颗“新核弹”的核心架构是什么样的？

揭秘Hopper GPU：非拼装的800mm2庞然大物

首先是规格方面，NVIDIA Hopper架构的H100芯片采用台积电4nm工艺(N4是台积电N5工艺的优化版)，核心面积为814平方毫米，比A100小14平方毫米。虽然核心面积比A100小14平方毫米，但得益于4nm工艺，晶体管密度数量从542亿提升到800亿。

揭秘Hopper GPU：非拼装的800mm2庞然大物

从核心设计图来看，NVIDIA Hopper架构与苹果UltraFusion相似，但它在本质上还是单独的一颗晶片，而不是苹果M1 Ultra那种将两块芯片桥接起来。顶层拓扑与Ampere架构差别不大，整个Hopper架构GPU由8个图形处理集群(Graphics Processing Cluster，GPC)“拼接”组成，但每4个GPC共享25MB得L2缓存。核心两侧则是HBM3显存，拥有5120 Bit的位宽，最高容量可达80GB。

片上的每个GPC由9个纹理处理集群(Texture Processor Cluster，TPC)组成，由PCIe5或接口进入的计算任务，通过带有多实例GPU(Multi-Instance GPU，MIG)控制的GigaThread引擎分配给各个GPC。GPC通过L2缓存共享中间数据，GPC计算的中间数据通过NVLink与其他GPU互通。每个TPC由2个流式多处理器(Streaming Multiprocessor)组成。

揭秘Hopper GPU：非拼装的800mm2庞然大物

Hopper架构的性能提升和主要变化体现在新型线程块集群技术和新一代的流式多处理器。NVIDIA在Hopper中引入了新的线程块集群机制，可实现跨单元进行协同计算。H100中的线程块集群可在同一GPC内的大量并发运行，对较大的模型具有更好的加速能力。

揭秘Hopper GPU：非拼装的800mm2庞然大物

每个包括128个FP32 CUDA核心、4个第4代张量核心(Tensor Core)。每个单元的指令首先存入L1指令缓存(L1 Instruction Cache)，再分发到L0指令缓存(L1 Instruction Cache)。与L0缓存配套的线程束排序器(Wrap Scheduler，线程束)和调度单元(Dispatch Unit)为CUDA核心和张量核心分配计算任务。通过使用4个特殊函数单元(Special Function Unit，SFU)单元，进行超越函数和插值函数计算。

NVIDIA在Hopper架构中引入新一代流式多处理器的FP8张量核心(Tensor Core)，用来加速AI训练和推理。FP8张量核心支持FP32和FP16累加器以及两种FP8 输入类型(E4M3和E5M2)。与FP16或BF16相比，FP8将数据存储要求减半，吞吐量翻倍。在Transformer引擎的分析中，还会看到使用FP8可自适应地提升Transformer的计算速度。

在GPU中，张量核心AI加速的关键模块，也是Ampere及之后GPU架构与早期GPU的重要区别。张量核心是用于矩阵乘法和矩阵累加 (Matrix Multiply-Accumulate，MMA) 数学运算的专用高性能计算核心，可为AI和HPC应用程序提供突破性的性能加速。

揭秘Hopper GPU：非拼装的800mm2庞然大物

Hopper的张量核心支持FP8、FP16、BF16、TF32、FP64和INT8 MMA数据类型。这一代张量核心的关键点是引入Transformer引擎。Transformer算子是主流的BERT到GPT-3等NLP模型的基础，越来越多地应用于计算机视觉、蛋白质结构预测等不同领域。

与上一代A100相比，新的Transformer引擎与Hopper FP8张量核心相结合，在大型NLP模型上提供高达9倍的AI训练速度和30倍的AI推理速度。为了提升Transformer的计算效率，新Transformer引擎使用混合精度，在计算过程中智能地管理计算精度，在Transformer计算的每一层，根据下一层神经网络层及所需的精度，在FP8和其他浮点格式中进行动态格式转换，充分运用张量核心的算力。

揭秘Hopper GPU：非拼装的800mm2庞然大物

Hopper架构中新增加张量存储加速器 (Tensor Memory Accelerator，TMA) ，以提高张量核心与全局存储和共享存储的数据交换效率。新的TMA使用张量维度和块坐标指定数据传输，而不是简单的按数据地址直接寻址。TMA通过支持不同的张量布局(1D-5D张量)、不同的存储访问模式、显著降低寻址开销并提高了效率。

揭秘Hopper GPU：非拼装的800mm2庞然大物

TMA操作是异步的，多个线程可以共享数据通道，排序完成数据传输。TMA的关键优势是可以在进行数据复制的时候，释放线程的算力来执行其他工作。例如，在A100由线程本身负责生成所有地址执行所有数据复制操作;但Hopper中得TMA来负责生成地址序列(这个思路类似DMA控制器)，接管数据复制任务，让线程去做其他事。

与Ampere A100线相比，基于Hopper架构的H100计算性能提高大约6倍。性能大幅提升的核心原因是NVIDIA引入FP8张量核心和针对NLP任务的Transformer引擎，加上TMA技术减少单元在数据复制时的无用功。

编辑点评：虽然老黄推出Hopper架构GPU，带来大约6倍于上代产品的性能提升。而且架构上也大有向Chiplet(芯粒)的方向发展。按照Hopper核心内部设计，NVIDIA可以轻松的带来更多小芯片产品。在消费其产品上，NVIDIA下代显卡可能是Ada Lovelace，架构与Hopper是否同源目前也不得而知，下代GeForce显卡最快在第三季度发布，也就是RTX 40系列，只是提升会有多少，依然值得关注。

雷电将军

手机低于20％才充电？错误的充电方式比快充给手机带来的损害更大！

上一篇 2022年4月27日下午1:13

戴尔G15高配版有点值？RTX3070Ti 独显，最低10999元

下一篇 2022年4月27日下午1:14

资讯

赛力斯汽车 9 月销量破万同比增长 598.00%(AITO 问界系列 9 月交付量也破万)

10月9日消息，赛力斯集团股份有限公司今日发布9月产销快报，其9月新能源汽车销量达17,596辆，同比增长341.33%；其中，赛力斯汽车9月销量为10,142辆，同比增长598.00%。

2022年10月11日
0390
资讯

杭州中策职高有哪些好的专业（中策职高就业前景如何）

今年9月，杭州市中策职业学校钱塘学校将投入使用，迎来第一批新生。4月中旬，杭州市中策职业学校钱塘学校首批教师已入驻学校，一方面对新校园的建设进行最后的扫尾工作，另一方面，这些老师将承担起招生咨询的工作。“我们是一所全新的

2022年10月10日
0380
资讯

迈巴赫齐柏林62s限量版(迈巴赫62s全球有几辆)

迈巴赫齐柏林起步价超过1000万，比劳斯莱斯幻影还贵，全球限量100台的迈巴赫齐柏林中国大陆有多少辆？分别都在哪些城市？哪个城市最多？一起来看看吧，结果颠覆你的认知，因为有一个城市占了半壁江山。首先上场的是云A063TD迈巴赫57齐柏林，云A是云南省昆明市的车牌代码。北京牌照的迈巴赫57齐柏林，57和62还是有区别的，最大的区别就是车身长度不同，57指的是…

2022年12月7日
0210
资讯

无票收入是什么意思(无票收入是否需要缴税)

无票收入是否需要缴税是财务工作中的常见问题，无票收入指的是不开票的收入，以收款单及履约证明等作为做账依据。本文就针对无票收入是否需要缴税做一个相关介绍，来跟随会计网一起了解下吧! 无票收入需要缴税吗? 答：无票收入是需要缴税的。无票收入指的是不开票收入，一般是付款人不需要发票。缴税一般是因为有了应税收入才要缴税，这个收入并不会因为不开发票就不存在了，也不是…

2023年1月8日
0280
资讯

相机被占用了怎么恢复(oppo手机摄像头被占用怎么解决)

打开手机相机是，提示“相机被其它程序占用”，相信不少朋友都遇过这类问题。这时该怎办？今天我就为大家说道说道。出现这个问题，一般是因为第三方应用强制调用摄像头，导致系统相机无法正常使用。这时我们要这么做： 1、排查应用权限问题，在应用权限管理找到使用摄像头，先将其他程序禁止使用摄像头，然后重启手机，再打开相机查看是否恢复正常； 2、如果是系统程序异常，可先清…

2023年4月18日
0460
资讯

天灾还是人祸？谁最想“炸”掉北溪(冬天来了欧洲“很难过”)

当地时间9月26日，丹麦媒体报道称“北溪-2”和“北溪-1”天然气管道发生泄漏事故，引发全球关注。有不少人质疑，天灾还是人祸？谁最想“炸”掉北溪？这对欧洲影响有多大？冬天来了欧洲应该“很难过”，一起去

2022年10月4日
0520
资讯

一个手机号可以注册几个微信号(微信内测新功能：一个手机号可注册两个微信账号)

近日，有网友反映，微信正在内测开放小号功能，同一个手机可以注册两个微信账号。 7月5日，腾讯内部人士向澎湃新闻记者确认，微信曾小范围灰度测试允许用户使用已绑了手机号的微信申请多一个微信号，但该功能尚未正式上线。如何测试这项新功能？记者了解到，用户可前往切换账号页面查看是否解锁该功能。如果已经获得该功能的内测资格，在切换账号界面会自动出现提醒。选择“注册一…

2022年12月31日
0190
资讯

11月北京环球影城过山车运行吗(北京环球影城过山车多长时间一趟)

要说北京环球影城最受大家喜爱的项目是什么，霸天虎过山车一定会拥有姓名，但由于11月份北京已经进入了北方，所以11月北京环球影城过山车运行吗成了大家最爱问的，下面小编就和大家一起看看北京环球影城过山车多

2022年10月11日
0590
资讯

80后怀旧金曲粤语(盘点80年代经典粤语歌40首)

华语乐坛40年曾涌现出大量的经典歌曲，其中的粤语歌绝对能抵上半边天，今天整理40首80年代的经典粤语歌曲来试试，你都听过没有？李克勤推出极具情感的歌曲《一生不变》浪子王杰发行十大劲歌金曲奖歌曲《谁明浪子心》刚加入保丽金的黄凯芹凭借首张专辑歌曲《伤感的恋人》正式出道华仔发行同名专辑主打歌《情感的禁区》娴公主陈慧娴推出足以传世的佳作《人生何处不相逢》，…

2024年5月24日
030
资讯

大熊猫外形特点（大熊猫的外形特点和生活特征）

大熊猫，通常称熊猫，是属于熊科的一种哺乳动物，体色为黑白两色。熊猫生长于中国中西部四川盆地周边的山区，是中国特有的野生动物，亦为国宝。全世界现存大约1600只左右，又于生育率低，加上对生活环境的要求相当高，是一种濒危动物。

2022年10月23日
0550