1.6 万亿参数你怕了吗？谷歌大脑语言模型速度是 T5 速度的 7 倍

2021-01-15 03:25:48

[原文来自：www.ii77.com]

【CSDN 编者按】四个参数，我就能拟合出一个大象出来，用五个参数我就能让他的鼻子摆动 [好文分享：www.ii77.com]

作者 | 八宝粥责编 | 张文

头图 | CSDN 下载自视觉中国

出品 | CSDN（ID：CSDNnews）

有名实验和理论物理学家、诺奖得主费米曾经如许引用冯诺依曼的话：“四个参数，我就能拟合出一个大象出来，用五个参数我就能让他的鼻子摆动”。看似是个打趣，实际上在 2010 年，真的有一篇论文研究绘制大象。

机械进修傍边，参数越多，理论上的精度越高（也极易发生过拟合），当然需要的算力也更多，GPT-3 使用了惊人的 1750 亿参数，堪称史上最大 AI 模型,没想到这才多久，Google Brain 团队就搞了一个大新闻，他们使用了 1.6 万亿参数推出了说话模型 Switch Transformer，比 T5 模型傍边的 T5-XXL 模型还要快4倍，比根基的 T5 模型快了 7 倍。

近日，Google Brain 团队在预印本发布论文《SWITCH TRANSFORMERS: SCALING TO TRILLION PARAMETER MODELS WITH SIMPLE AND EFFICIENT SPARSITY》，公布行使万亿级参数进行预练习的稀少模型 SWITCH TRANSFORMERS 的降生，该方式能够在掌握通信和较量资源的情形下提拔练习的不乱性，一致较量资源前提下比 T5-XXL 模型快 4 倍。

来自 Google Brain 的三位科学家 William Fedus、Barret Zoph 以及 Noam Shazeer 使用了 Switch Transformer 模型，简化了 MOE 的路由算法、设计了直观的改善模型，从而实现了通信和较量成本的降低。值得等候的是，这种练习方式修复了不不乱性，而且首次展示了大型稀少模型在低精度（bfloat 16）花样下进行练习。将模型和 T5 模型进行对比，基于 101 种说话的设置和 C4 语料库（Colossal Clean Crawled Corpus，从收集上抓取的数百 GB 清洁英语文本) 练习结果实现了对 T5 模型的超越，甚至是 7 倍速碾压。

模型道理

深度进修模型平日对于所有的输入反复使用沟通的参数，而专家夹杂模型（Mixture-of-Experts）则不是如许，它采用的模式是对输入实力选择分歧的参数。如许的究竟就是能够在较量成本不变的情形下获得一个稀少激活模型，它的参数能够是无比伟大的。然而 MOE 具有较大的通信成本，且练习不不乱，因而难以推广。
简洁来说，Google Brain 基于 MOE 推出了一种方案，行使稀少模型增加快度，对于需要浓密模型的时候也能够将稀少模型蒸馏成浓密模型，同时进行微调，调整 dropout 系数避免参数过大的过拟合。

关于 MOE

夹杂专家系统属于一种集成的神经收集，每一个专家就是一种神经收集，我们查察特定案例的输入数据来匡助选摘要依靠的模型，于是模型就能够选择练习案例而无需考虑未被选中的例子，是以他们能够忽略不擅长的建模内容。它的首要思惟就是让每位专家专注于本身比其他专家更优的内容。
如许一来，整体的模型就趋于专业化，若是傍边的每个专家都对展望变量求平均，那么每个模型就都要去赔偿其他模型发生的综合误差。所谓“术业有专攻”，专家就让他去搞专业的事情。
token 路由动态图
在这个模型傍边，每个专家处理固定的批量 token 容量系数，每个 token 被路由到具有最高路由概率的专家，然则每个专家的批处理量巨细是（token 总数/专家总数）×容量因子，若是 token 分派不均，某些专家就会超载，大的容量系数能够缓解流量问题，也会增加通信成本。

权重分派与近水楼台

数据和权重划分策略
每个 4×4 的虚线网格透露 16 个核，暗影正方形是该核上包含的数据（模型权重或令牌批次）。
我们解说了若何为每种策略拆分模型权重和数据张量。
第一行：解说模型权重若何在焦点之间分派。此行中分歧巨细的外形透露前馈收集（FFN）层中较大的权重矩阵。暗影正方形的每种颜色标识独一的权重矩阵。每个焦点的参数数量是固定的，然则较大的权重矩阵将对每个令牌应用更多的较量。
第二行：解说若何在内核之间拆分数据批。每个内核持有沟通数量的令牌，从而在所有策略中连结固定的内存使用率。分区策略具有分歧的属性，许可每个内核在内核之间具有沟通的令牌或分歧的令牌，这是分歧颜色所象征的。
同时，该模型对于浓密矩阵乘法适应硬件进行了有效行使，好比 GPU 和 Google 自家的 TPU，早在 2019 年，Google AI 就模拟了果蝇东岸从的神经图，因为扫描后重建图像高达 40 亿像素，为了处理这些图片，Google AI 使用数千块 TPU 进行较量处理，能够说是下了血本。而此次推出的模型，它需要最低的硬件尺度只是知足两个专家模型的需要就够了。

如上，知足两个专家的模型，仍然可以对 T5-Base 模型有所提拔。

跑个分～

之前介绍到，Google Bain 其时的 T5 组合模型霸榜过 SuperGLUE，该模型在说话模型基准测试榜 GLUE 和 SuperGLUE 上得分均分歧水平地跨越 T5 的根蒂水平，也算是正常施展。
微调正则化究竟
固然模型距离今朝榜首的 DeBERTa 组合模型还有较长的一段路要走，该项目最大的意义在于实现了超大型参数和稀少模型连系的高效使用，
粗俗实验中，我们进行了 101 种说话的测试，能够看到该模型比拟浓密模型，在所有的义务上均有显着提拔。

就地答疑

31 页的论文，不免有读者看完之后有好奇或不解，作者想到了这个问题，直接写了出来。

作者强调，在稀少专家模型傍边，“稀少” 指的是权重，而不是存眷模式。

纯粹的参数手艺会让 Switch Transformer 更好吗？
是的，看怎么设计！参数和总的 FLOPs 是自力权衡神经说话模型的尺度。大型模型已经被证实具有精巧的示意，不外基于沟通较量资源的情形下，我们的模型具有加倍简练、有效且快速的特点。
我没有超算——模型对我来说依然有效吗？
固然这项工作集中在大型模型上，我们发现只要有两个专家模型就能实现，模型需要的最低限制在附录傍边有讲，所以这项手艺在小规模情况傍边也非常有效。
在速度-精度曲线上，稀少模型比拟浓密模型有优势吗？
当然，在各类分歧规模的模型傍边，稀少模型的速度和每一步的示意均优于浓密模型。
我无法布置一个万亿参数的模型-我们能够缩小这些模型吗？
这个我们无法完全包管，然则经由 10 倍或许 100 倍蒸馏，能够使模型酿成浓密模型，同时实现专家模型 30%的增益结果。
为什么使用 Switch Transformer 而不是模型并行密集模型？
从时间角度看，稀少模型结果要优胜好多，不外这里并不是非黑即白，我们能够在 Switch Transformer 使用模型并行，增加每个 token 的 FLOPs，然则这或者导致并行变慢。
为什么稀少模型尚未普遍使用？
扩展密集模型的伟大成功削弱了人们使用稀少模型的动力。此外，稀少模型还面临一些问题，例如模型复杂性、练习难度和通信成本。不外，这些问题在 Switch Transformer 上也已经获得了有效的缓解。

论文很长，深入认识，还需阅读全文。

参考资料：https://arxiv.org/pdf/2101.03961.pdf
项目代码地址：https://github.com/tensorflow/mesh/blob/master/mesh_tensorflow/transformer/moe.py

end

更多精彩推荐
☞突发！Intel CEO 换帅，VMware CEO 将走立时任
☞微信封杀 QQ 音乐、拼多多等 App 外链；蠕虫病毒在国内残虐；Dropbox 公布裁员 |极客头条☞除了 Docker，我们还有哪些选择？
点分享
点收藏
点点赞
点在看

上一篇：无人机破巡检难题，秒变电网卫士
下一篇：钉钉推动低代码革命：让微小的进步持续发生

1.6 万亿参数你怕了吗？谷歌大脑语言模型速度是 T5 速度的 7 倍

☞微信封杀 QQ 音乐、拼多多等 App 外链；蠕虫病毒在国内残虐；Dropbox 公布裁员 |极客头条
☞除了 Docker，我们还有哪些选择？

热门文章

小编推荐

推荐文章