微软亚洲研究院发布高性能MoE库Tutel

雷电将军 • 2022年5月2日上午10:44 • 运营 • 阅读 103

IT之家11月27日消息，据微软亚洲研究院发布，作为目前唯一被证明能够将深度学习模型扩展到万亿以上参数的方法，MoE能让模型学习更多信息，并为计算机视觉、语音识别、自然语言处理和机器翻译系统等提供支持。近期，微软亚洲研究院发布了一个高性能MoE库——Tutel，并在8x80GBNVIDIAA100和8x200Gbps的InfiniBand网络的AzureNDmA100v4节点上进行了实验。让我们来…

IT之家 11 月 27 日信息，据微软公司亚洲地区研究所公布，做为现在唯一被证实可以将深度学习模型拓展到万亿元以上主要参数的方式，MoE 能让模型学习培训其他信息，并为机器视觉、语音识别技术、自然语言理解和翻译机器系统软件等提供适用。最近，微软公司亚洲地区研究所公布了一个高性能 MoE 库 ——Tutel，并在 8x 80GB NVIDIA A100 和 8x 200Gbps 的 InfiniBand 互联网的 Azure NDm A100 v4 连接点上开展了试验。使我们看来一看，这一用以推动规模性 DNN 模型开发设计的高性能 MoE 库有什么优点？其表現又怎样？

混和权威专家（Mixture-of-Experts，通称 MoE）是一种深度学习模型构架，其核算成本与基本参数的数目呈次线性相关，因而更非常容易拓展。MoE 是当前唯一被证实可以将深度学习模型拓展到万亿元以上主要参数的方式，它能让模型学习培训其他信息，并为机器视觉、语音识别技术、自然语言理解和翻译机器系统软件等提供适用，进而以最新的方法为人类社会提供协助。

近日，微软公司亚洲地区研究所公布了一个用以推动规模性 DNN 模型开发设计的高性能 MoE 库 ——Tutel，并对于已广泛采用的新 Azure NDm A100 v4 系列产品开展了高度优化。依靠 Tutel 多元化和灵巧的 MoE 优化算法适用，AI 行业的开发商可以更轻轻松松、高效率地实行 MoE。与最现代化的 MoE 完成方法，如 fairseq（Meta 的 Facebook AI 研究所根据 PyTorch 的 Sequence to Sequence 工具箱）对比，针对单独 MoE 层，Tutel 在具备 8 个 GPU 的单独 NDm A100 v4 连接点上保持了 8.49 倍的加快，在具备 512 个 A100 GPU 的 64 个 NDm A100 v4 连接点上保持了 2.75 倍的加快。在端到端性能层面，归功于 all-to-all 通讯优化，Tutel 在 Meta（原 Facebook 企业）的 1.1 万亿元主要参数的 MoE 语言表达模型中应用 64 个 NDm A100 v4 连接点完成了 40% 以上的加快。

Tutel 具备较好的兼容性问题和充足的作用，保证了其在 Azure NDm A100 v4 集群上运转时可以充分发挥优秀的性能。现阶段，Tutel 已开源系统，并已集成化到 fairseq 中。

Tutel GitHub 连接：https://github.com/microsoft/tutel

Tutel MoE 的三大优点

做为 fairseq、FastMoE 等别的高质量 MoE 解决方法的填补，Tutel 关键致力于优化面对 MoE 的估算和 all-to-all 通讯，及其别的多元化和灵巧的 MoE 优化算法适用。Tutel 具备简单的插口，可以轻轻松松集成化到别的 MoE 解决方法中。自然，开发者还可以重新开始，运用 Tutel 的插口将单独的 MoE 层合拼到他们自己的 DNN 模型中，立即从高度优化的、最现代化的 MoE 作用中获益。

与目前的 MoE 解决方法对比，Tutel 具备下列三个关键优点：

优化面对 MoE 的测算。因为欠缺有效的完成方式，现阶段根据 MoE 的 DNN 模型取决于深度学习架构（如 PyTorch、TensorFlow 等）提供的好几个现有 DNN 操作符的拼合来构成 MoE 测算。因为必须多余测算，这类行为会造成明显的性能花销。Tutel 设计方案并达到了好几个高度优化的 GPU 核心，为面对 MoE 的测算提供了操作符。例如，Tute l 将生产调度“輸出选通（gating output）”的算法复杂度从 O (N^3) 减少到 O (N^2)，明显增强了数据信息生产调度的高效率。Tutel 还建立了迅速 cumsum-minus-one 操作符（fast cumsum-minus-one operator），与 fairseq 完成方法对比，做到了 24 倍的加快。除此之外，Tutel 还运用 NVRTC（CUDA C 的运作时编译程序库）进一步即时优化了定做的 MoE 核心。

图 1 比照了 Tutel 与 faireseq 在 Azure NDm A100 v4 服务平台上的运作結果，如前所述，应用 Tutel 的单独 MoE 层在 8 个 A100 GPU 上保持了 8.49 倍的加快，在 512 个 A100 GPU 上保持了 2.75 倍的加快。

图 1：与 fairseq 对比，针对单独 MoE 层，Tutel 在具备 8 个 GPU 的单独 NDm A100 v4 连接点上保持了 8.49 倍的加快，在具备 512 个 A100 GPU 的 64 个 NDm A100 v4 连接点上保持了 2.75 倍的加快。详尽设定为：batch_size = 32, sequence_length = 1,024, Top_K = 2, model_dim = 2,048, ands hidden_size = 2,048

在 Azure NDm A100 v4 集群上完成最底层 all-to-all 通讯优化。Tutel 对于 Azure NDm A100 v4 集群上的规模性 MoE 练习，优化了 all-to-all 汇聚通讯（collective communication），主要包括 CPU-GPU 关联和响应式路由器（AR）调节。在非一致储存浏览构造（NUMA）系统软件上，尤其是在 NDv4 VM 上，恰当的 CPU-GPU 关联针对 all-to-all 性能十分重要。可是，目前的人工神经网络架构（TensorFlow、PyTorch 等）并没有提供高效率的 all-to-all 通讯库，造成规模性分布式系统练习的性能降低。

Tutel 可以全自动优化关联，并为客户调整提供简约的插口。除此之外，Tutel 在 NDm A100 v4 群集上采用了多路径技术性，即 AR。针对 MoE 中的 all-to-all 通讯，每一个 GPU 通讯的总手机流量经营规模并不会产生变化，但每一个 GPU 中间的信息经营规模会伴随着 GPU 总数的提高而缩小。而更小的信息经营规模会在 all-to-all 通讯中发生很大的花销，造成 MoE 练习性能降低。依靠 Azure NDm A100 v4 群集提供的 AR 技术性，Tutel 提升了小信息组的通讯高效率，并在 NDv4 系统软件上提供了高性能的 all-to-all 通讯。归功于 CPU-GPU 关联和 AR 调节，Tutel 应用 512 个 A100 GPU，对通常用以 MoE 练习的每一次互换的上百兆字节的信息，完成了 2.56 倍到 5.93 倍的 all-to-all 加快，如下图 2 所显示。

图 2：在运用 Tutel 前后左右，具备 64 个 NDm A100 v4 连接点（512 个 A100 GPU）的不一样信息尺寸的 all-to-all 网络带宽。Tutel 应用 512 个 A100 GPU，对尺寸为上百兆字节的信息完成了 2.56 倍到 5.93 倍的 all-to-all 加快。

多种多样、灵便的 MoE 优化算法适用。Tutel 为最现代化的 MoE 优化算法提供了多元化且灵敏的适用，包含：

为 Top-K gating 优化算法设定随意 K 值（大部分完成方式仅适用 Top-1 和 Top-2 ）。

不一样的探寻对策，包含大批量优先选择路由器、键入信息内容遗失、键入颤动。

不一样的精密度等级，包含半精密度（FP16）、全精度（FP32）、混和精密度等（下一个版本号里将适用 BF16）。

不一样的设施种类，包含 NVIDIA CUDA 和 AMD ROCm 机器设备等。

Tutel 将积极主动融合来源于开源项目的各种各样新起 MoE 优化算法。

Tutel 与 Meta 的 MoE 语言表达模型集成化

先前，Meta 就开源系统了自个的 MoE 语言表达模型，并运用 fairseq 完成了 MoE。微软公司亚洲地区研究所与 Meta 协作将 Tutel 集成化到了 fairseq 工具箱中。Meta 也一直用 Tutel 在 Azure NDm A100 v4 上练习其大中型语言表达模型，该模型中根据专注力的神经系统构架类似 GPT-3。

微软公司亚洲地区研究所的研究者们应用 Meta 的语言表达模型评定了 Tutel 的端到端性能。该模型有 32 个专注力层，每一个层都是有 32 个 128 维专注力头（32×128-dimension heads）。每 2 层中包括 1 个 MoE 层，而每一个 GPU 都装有一名权威专家（expert）。表 1 汇总了模型的详尽设定主要参数，图 3 则展现了 Tutel 的提速实际效果。因为 all-to-all 通讯变成短板，因此伴随着 GPU 总数的提升，Tutel 产生的改善从 8 个 A100 GPU 的 131% 提高至 512 个 A100 GPU 的 40%。研究者们将在下一个新版本中对于做进一步优化。

表 1：512 个 A100 (80G) GPU 的 MoE 语言表达模型配备

图 3：在端到端性能层面，Tutel 在 Meta 的 1.1 万亿元主要参数的 MoE 语言表达模型中应用 64 个 NDm A100 v4 连接点实现了 40% 以上的加速。

MoE 技术性市场前景宽阔，它可以根据很多行业的技术性，完成总体练习，例如系统软件路由器、大量连接点的互联网均衡，乃至可以从根据 GPU 的加速中受益。微软公司亚洲地区研究所展现了一个有效的 MoE 完成方法 ——Tutel，它比 fairseq 框架拥有明显的发展。

如今，Tutel 也已集成到了 DeepSpeed 框架中。坚信 Tutel 和相应的集成将使大量 Azure 服务项目受益，尤其是针对这些希望高效率拓展已有大中型实体模型的顾客。今日的 MoE 仍处在前期环节，必须投入大量勤奋才可以充分运用 MoE 的发展潜力，因而研究者们也将持续提升 Tutel，希望将来可以给大伙儿提供大量令人激动的探讨和运用成效。

雷电将军

焦点分析丨拼多多迈入慢增长通道

上一篇 2022年5月2日上午10:43

华为Watch D血压检测智能手表预计12月底发布

下一篇 2022年5月2日上午10:45

运营

2年内支持和改造近6千个基层社，供销社“复出”为啥老百姓叫好？

关注新闻的朋友可能都注意到了，近日，一个从我们生活中消失的机构再次进入我们视线，虽然说这个名字已经从很多人的生活中消失，但是却没有从内心消除，因为在我国的每一个乡镇，都还残留着它的身影，这个机构就是供销社。据光明网1月22日消息：2021年全国供销合作总社和全系统发展质量稳步提升，全年销售总额为6.26万亿元，同比增长了18.%；其中全系农产品销售额27591亿元，同比增长了24.3%，日用品销售…

2022年4月24日
01000
运营

英特尔或会在2025年推出Druid显卡，GPU每年都会更新？

此前网上就已流传英特尔GPU的开发计划，以及官方指引的命名和称呼。IntelArc（锐炫）作为英特尔全新高性能游戏显卡品牌，第一代产品就是Alchemist显卡（DG2）。系列将被命名为“ArcaXXX"，其中“a"代表该品牌下的第一代GPU，也就是Alchemist。传闻Alchemist显卡会在2022年第一季度率先在移动平台推出，第二季度会扩展到桌面平台。其基于全新的Xe核心（XeCore）…

2022年5月2日
01080
运营

iPhone SE3 有望搭载 A14 芯片，A16 处理器或采用台积电 N4P 制程

今年各大手机厂商的主要机型已经基本发布完毕，而近期的爆料信息也纷纷开始聚焦于下一代各厂商的主要机型身上。苹果方面，近期有关iPhoneSE3以及iPhone14系列均迎来了最新爆料。近日有外媒博主爆料称，iPhoneSE3这款机型确认存在，并且将会在明年上半年正式发布。而在处理器部分，该消息源表示iPhoneSE3将会搭载iPhone12系列同款A14芯片，同时配备5G基带，预计推出两个版本，售价…

2022年4月22日
01100
运营

微软是合格的“爸爸”吗？

文丨互联网指北微软公司1月18日发布声明称，公司将以每股95美元的价格全现金收购动视暴雪，交易价值687亿美元，这意味着深受玩家拥簇的几大游戏IP——《魔兽世界》《星际争霸》《使命召唤》等正式易主，被微软游戏部收入麾下。而在完成交易后，微软也将成为仅次于腾讯和索尼的世界上收入第三高的游戏公司，游戏产业的地震就是这么突如其来。在全世界都被微软这一手豪横的现金流震惊的同时，率先转移注意点的自然是利益相…

2022年4月24日
01200
运营

京东反超阿里1200亿：当年嘲讽京东会成为悲剧的马云终究太狂了

京东和阿里京东反超阿里1200亿京东和阿里作为电商领域的对手，在很长一段时间之内都是最直接的竞争对手。但是和阿里以四面出击的战略不同，京东则采取了更加稳妥的战略布局，无论是京东健康还是京东数科都是以京东电商为核心进行扩展的业务，因此两者也逐渐走上了不同的道路。民营企业营收排行但是近日随着一组数据的曝光再次将阿里和京东这两个对手摆在同一台面上进行对比。在最新发布的2021年中国民营企业500强榜单中…

2022年4月23日
01320
运营

错过骁龙8 Gen1首发！曝小米12 12月底发布

近日，高通中国宣布，将于12月1日举办骁龙技术峰会，届时将正式发布新一代骁龙移动平台。搭载该芯片的手机也将随之而来，据之前消息透漏，小米有望于2021年末或者2022年初举办发布会，正式推出小米12系列新旗舰手机，有望首发高通骁龙8Gen1SoC。然而，首发似乎有了变故，数码博主@数码闲聊站爆料，小米12发布会定在了下个月月底，所以这次摩托罗拉首发骁龙8Gen1应该没有任何悬念了。根据曝光的消息，…

2022年5月1日
0780
运营

专家分析：“旗手”无人机对决“铠甲”防空系统，谁更胜一筹？

香港《亚洲时报》网站12月22日发表题为《土耳其无人机可能决定谁将赢得乌克兰战争》的文章，作者为斯蒂芬·布赖恩，全文摘编如下：俄罗斯说俄军最近在叙利亚击落了40架土耳其产“旗手”无人机——尽管他们只拿出了一个证据。而斯坦福大学的美国知名政治学家弗朗西斯·福山说，土耳其向乌克兰提供的“旗手”TB2攻击型无人机可能会让“局面为之一变”。俄罗斯把赌注放在“铠甲”近程自行防空系统上，该系统已经在叙利亚和利…

2022年4月23日
01140
运营

新消息：央行发布新规，富士康率先出手，华为暗渡陈仓

如今的时代已经和以前不一样了，以前的时候，一则消息诞生之后，都要好长的时间才能够传到大众用户的耳朵中。但是现在不一样了，现在的时代已经发展了很多，网络普及之后，更是让信息传达速度进一步加快。在这种背景下，市场中每次传出新消息的时候，我们用户就可以第一时间了解到状况，并且发表自身的看法。比如最近一段时间，市场中诞生了三则新消息，分别是央行发布新规，富士康率先出手，华为暗渡陈仓，所以话不多说，一起来看…

2022年5月1日
01020
运营

微信松绑，淘宝偷笑

一、微信开放外链，迎来新进展！历时8年，微信终于能直接打开淘宝链接。昨日，微信官方发布一则关于《微信外部链接内容管理规范》的更新说明。更新的内容主要如下：第一，在点对点聊天场景中将可直接访问外部链接。第二，在监管部门指导下，为贯彻安全底线原则，同时兼顾用户使用体验，将在群聊场景下试行开放电商类外部链接直接访问功能。第三，后续计划开发自主选择模式，为用户提供外链管理功能。经实测，目前可以直接在微信内…

2022年4月30日
0920
运营

神舟十三号携带6个月的食物，在太空会变质吗？吃坏肚子怎么办？

我国神舟十三号3名航天员们正在我国空间站上执行任务，按照计划，他们此次将会执行为期6个月的在轨飞行任务。原则上在6个月的任务过程中，中途没有补给，3名航天员在我国空间站生活6个月所需的衣服、食物、水分和氧气等都已经运输上去。我们知道，在地球上时，食物都有保质期，那么在太空中，食物会腐败吗？万一吃坏肚子该怎么办？太空食物对我们来说，吃饭喝水是再简单不过的事情了，但在太空中，吃饭并不是一件轻松的事情，…

2022年5月2日
01400