揭秘Hopper GPU:非拼装的800mm2庞然大物

在2022年3月NVIDIAGTC大会上,NVIDIA创始人兼CEO黄仁勋介绍基于全新Hopper架构GPU——H100,是英伟达迄今为止,用于加速人工智能(AI)、高性能计算(HPC)和数据分析等任务的最强GPU芯片。这颗芯片以计算科学先驱GraceHopper的姓氏命名。黄仁勋表示:“HopperH100是有史以来最大的代际飞跃。H100具有800亿个晶体管,在性能上堪称NVIDIA的“新核弹…

在2022年3月NVIDIA GTC大会上,NVIDIA创始人兼CEO黄仁勋介绍基于全新Hopper架构GPU——H100,是英伟达迄今为止,用于加速人工智能(AI)、高性能计算(HPC)和数据分析等任务的最强GPU芯片。这颗芯片以计算科学先驱Grace Hopper的姓氏命名。

黄仁勋表示:“Hopper H100是有史以来最大的代际飞跃。H100具有800亿个晶体管,在性能上堪称NVIDIA的“新核弹”。这颗“新核弹”的核心架构是什么样的?

揭秘Hopper GPU:非拼装的800mm2庞然大物

首先是规格方面,NVIDIA Hopper架构的H100芯片采用台积电4nm工艺(N4是台积电N5工艺的优化版),核心面积为814平方毫米,比A100小14平方毫米。虽然核心面积比A100小14平方毫米,但得益于4nm工艺,晶体管密度数量从542亿提升到800亿。

揭秘Hopper GPU:非拼装的800mm2庞然大物

从核心设计图来看,NVIDIA Hopper架构与苹果UltraFusion相似,但它在本质上还是单独的一颗晶片,而不是苹果M1 Ultra那种将两块芯片桥接起来。顶层拓扑与Ampere架构差别不大,整个Hopper架构GPU由8个图形处理集群(Graphics Processing Cluster,GPC)“拼接”组成,但每4个GPC共享25MB得L2缓存。核心两侧则是HBM3显存,拥有5120 Bit的位宽,最高容量可达80GB。

片上的每个GPC由9个纹理处理集群(Texture Processor Cluster,TPC)组成,由PCIe5或接口进入的计算任务,通过带有多实例GPU(Multi-Instance GPU,MIG)控制的GigaThread引擎分配给各个GPC。GPC通过L2缓存共享中间数据,GPC计算的中间数据通过NVLink与其他GPU互通。每个TPC由2个流式多处理器(Streaming Multiprocessor)组成。

揭秘Hopper GPU:非拼装的800mm2庞然大物

Hopper架构的性能提升和主要变化体现在新型线程块集群技术和新一代的流式多处理器。NVIDIA在Hopper中引入了新的线程块集群机制,可实现跨单元进行协同计算。H100中的线程块集群可在同一GPC内的大量并发运行,对较大的模型具有更好的加速能力。

揭秘Hopper GPU:非拼装的800mm2庞然大物

每个包括128个FP32 CUDA核心、4个第4代张量核心(Tensor Core)。每个单元的指令首先存入L1指令缓存(L1 Instruction Cache),再分发到L0指令缓存(L1 Instruction Cache)。与L0缓存配套的线程束排序器(Wrap Scheduler,线程束)和调度单元(Dispatch Unit)为CUDA核心和张量核心分配计算任务。通过使用4个特殊函数单元(Special Function Unit,SFU)单元,进行超越函数和插值函数计算。

NVIDIA在Hopper架构中引入新一代流式多处理器的FP8张量核心(Tensor Core),用来加速AI训练和推理。FP8张量核心支持FP32和FP16累加器以及两种FP8 输入类型(E4M3和E5M2)。与FP16或BF16相比,FP8将数据存储要求减半,吞吐量翻倍。在Transformer引擎的分析中,还会看到使用FP8可自适应地提升Transformer的计算速度。

在GPU中,张量核心AI加速的关键模块,也是Ampere及之后GPU架构与早期GPU的重要区别。张量核心是用于矩阵乘法和矩阵累加 (Matrix Multiply-Accumulate,MMA) 数学运算的专用高性能计算核心,可为AI和HPC应用程序提供突破性的性能加速。

揭秘Hopper GPU:非拼装的800mm2庞然大物

Hopper的张量核心支持FP8、FP16、BF16、TF32、FP64和INT8 MMA数据类型。这一代张量核心的关键点是引入Transformer引擎。Transformer算子是主流的BERT到GPT-3等NLP模型的基础,越来越多地应用于计算机视觉、蛋白质结构预测等不同领域。

与上一代A100相比,新的Transformer引擎与Hopper FP8张量核心相结合,在大型NLP模型上提供高达9倍的AI训练速度和30倍的AI推理速度。为了提升Transformer的计算效率,新Transformer引擎使用混合精度,在计算过程中智能地管理计算精度,在Transformer计算的每一层,根据下一层神经网络层及所需的精度,在FP8和其他浮点格式中进行动态格式转换,充分运用张量核心的算力。

揭秘Hopper GPU:非拼装的800mm2庞然大物

Hopper架构中新增加张量存储加速器 (Tensor Memory Accelerator,TMA) ,以提高张量核心与全局存储和共享存储的数据交换效率。新的TMA使用张量维度和块坐标指定数据传输,而不是简单的按数据地址直接寻址。TMA通过支持不同的张量布局(1D-5D张量)、不同的存储访问模式、显著降低寻址开销并提高了效率。

揭秘Hopper GPU:非拼装的800mm2庞然大物

TMA操作是异步的,多个线程可以共享数据通道,排序完成数据传输。TMA的关键优势是可以在进行数据复制的时候,释放线程的算力来执行其他工作。例如,在A100由线程本身负责生成所有地址执行所有数据复制操作;但Hopper中得TMA来负责生成地址序列(这个思路类似DMA控制器),接管数据复制任务,让线程去做其他事。

与Ampere A100线相比,基于Hopper架构的H100计算性能提高大约6倍。性能大幅提升的核心原因是NVIDIA引入FP8张量核心和针对NLP任务的Transformer引擎,加上TMA技术减少单元在数据复制时的无用功。

编辑点评:虽然老黄推出Hopper架构GPU,带来大约6倍于上代产品的性能提升。而且架构上也大有向Chiplet(芯粒)的方向发展。按照Hopper核心内部设计,NVIDIA可以轻松的带来更多小芯片产品。在消费其产品上,NVIDIA下代显卡可能是Ada Lovelace,架构与Hopper是否同源目前也不得而知,下代GeForce显卡最快在第三季度发布,也就是RTX 40系列,只是提升会有多少,依然值得关注。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

(0)
上一篇 2022年4月27日 下午1:13
下一篇 2022年4月27日 下午1:14

相关推荐

  • 培养下一代宝可梦训练师(要从娃娃抓起)

    本文来自微信公众号:触乐(ID:chuappgame),作者:等等“我们只是希望通过这种方式增进彼此的感情。”地毯上,迈克・布里奇斯(MikeBridges)8个月大的儿子芬恩正朝着3只宝可梦毛绒玩具爬过去,

    2022年10月9日
    450
  • 核磁共振氢谱图怎么看(分析核磁共振氢谱的一般步骤)

    核磁共振氢谱在有机化学中的应用是多方面的。特别是氢谱的测定,已在结构分析工作中成为不可或缺的工具之一,同样,对HNMR谱图的分析在工作中尤为重要。 一般来说,分析HNMR谱图需要以下三个步骤: 首先,看峰的化学位移 确定该峰归属为什么化学基团上的氢,这需要牢记不同基团的化学位移; 其次,看峰积分的大小 通过积分确定各个基团含氢原子的比例。例如,乙基苯中,甲基…

    2023年8月1日
    1820
  • ppt文件太大怎么变小(PPT太大怎么压缩)

    在学习和办公中,我们都需要用到PPT文件,有的时候我们会发现PPT文件太大,占用体积太大,不好传输和存储,会造成很多麻烦,这时就需要将其压缩,很多用户都会在电脑上办公,处理PPT文件。不少用户没有一款好用的电脑压缩工具,不知道从何下手,今天小编为您带来两个简单又好操作的方法,使用到的工具有所不同,但是都是出于新手考虑,为大家选择最合适、易用的工具,用户选择自…

    2023年8月19日
    30
  • 数位板是什么东西(如何选择一款合适自己的手绘板)

    购买理由 手绘板只是我们对它的一个俗称,严格的讲应该是叫做数位板。属于计算机输入设备的一种,通常我们见到的状态是一块板子和一个压感笔组成。本身也是属于非常规的输入产品,使用范围非常的小众,主要面向设计,美术,广告设计或者是 Flash 矢量动画制作者,不过,从2020年开始,随着上网课的需求,手绘板也被广大教育者开始接受使用了。 手绘板本身是没有屏幕的,我们…

    2023年2月7日
    210
  • 如何快速长出眉毛(为什么眉毛不会像头发那样一直生长吗)

    头发会越长越长,而眉毛在达到一定长度后就不再生长了,哪怕是修剪之后,再长出来也不会特别长。这是为什么呢? 人的毛发是由胚胎的外胚层演变而来的,起源于原始上皮胚芽,经过生长和分化过程形成胎毛。胎儿4个月时胎毛开始生长于头发和面部,到了妊娠后期则遍布全身。出生一段时间后,胎毛被毳毛和终毛所代替。毳毛主要生长在面、颈、躯干

    2022年4月27日
    1440
  • 排比的作用是什么(修辞手法“排比”系统学习)

    修辞手法“排比”系统学习 1.定义理解:把三个或以上结构和长度均类似、语气一致、意义相关或相同的句子排列起来构成的句子,使用以上这种方式写作构成的句段我们称之为排比修辞。 2.排比修辞的作用1:能加强语势、语言气氛,使得文章的节奏感加强,有气势,一气呵成等。 作用2:从表达效果方面看,使得文章或段落或句子条理性更好,更利于表达强烈的感情。 3.常用答题格式1…

    2023年2月19日
    160
  • 英雄联盟人物最受欢迎排行榜(英雄联盟人气最高的英雄)

    看似某人的排名飘忽不定,其实是在E来E去。 又到了一年一度的国服英雄联盟年度最受欢迎的英雄评选的环节了,每年这种时候莫名的就会很开心。本次排名是根据2021全年英雄联盟英雄的关键词搜索以及英雄联盟出场率和热度进行汇总计算的,就让我们赶紧一起来看看吧。 第10名 破败之王 佛耶戈 虽然大伙儿老是喜欢嘲笑佛爷的各种小丑行为,但是不得不说佛爷凭借着相当低的入门门槛…

    2022年11月22日
    370
  • gta5线上封号前兆(GTA5R星是怎么误封你们的账号的)

    有很多小伙伴玩gta5,多少会遇到过账号被误封的情况,也许不是自己,可能是身边的朋友,steam里面的论坛看到的。 GTA5其实是可以裸连的,有些网络不好的特殊原因还是要用加速器,不过不要用免费的加速器,据说用某些免费的加速起会引起封号,因为加速器人多同时使用就会IP冲突。 还有说是windows10系统或者win10自带的录制系统导致的,这个我可以澄清,因…

    2023年1月15日
    1030
  • 纯棉和德绒哪个更保暖(保暖内衣什么绒的最好)

    冬天越来越寒冷,为了能够温暖出行,无论男女老少都会囤上几件轻薄保暖的保暖内衣。 理想的保暖内衣应该是这样的:亲肤保暖、吸湿透气、无静电、不易起球,产生的汗液能够及时排出,让身体保持干爽舒适。而能决定这些效果的,是衣服的面料。 那保暖衣都有哪些材质,不同材质该如何选择呢? 01- 不同保暖衣材质的特点 目前保暖内衣的面料主要有羊毛、羊绒、棉、腈纶、莫代尔、粘纤…

    2023年11月18日
    130
  • 买名爵的都是什么人(名爵档次很低吗)

    大家好!我是上海名爵6(参数|询价|图片)的车主,我提到的车型是“20201.5TAutomaticTrophy旗舰版”,购买价格13万,续航里程2194公里大家好!我是上海名爵6(参数|询价

    2022年9月27日
    1990

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信