1.6 万亿参数你怕了吗?谷歌大脑语言模型速度是 T5 速度的 7 倍

[原文来自:www.ii77.com]

【CSDN 编者按】四个参数,我就能拟合出一个大象出来,用五个参数我就能让他的鼻子摆动 [好文分享:www.ii77.com]


作者 | 八宝粥   责编 | 张文
头图 | CSDN 下载自视觉中国
出品 | CSDN(ID:CSDNnews)
有名实验和理论物理学家、诺奖得主费米曾经如许引用冯诺依曼的话:“四个参数,我就能拟合出一个大象出来,用五个参数我就能让他的鼻子摆动”。看似是个打趣,实际上在 2010 年,真的有一篇论文研究绘制大象。

机械进修傍边,参数越多,理论上的精度越高(也极易发生过拟合),当然需要的算力也更多,GPT-3 使用了惊人的 1750 亿参数,堪称史上最大 AI 模型,没想到这才多久,Google Brain 团队就搞了一个大新闻,他们使用了 1.6 万亿参数推出了说话模型 Switch Transformer,比 T5 模型傍边的 T5-XXL 模型还要快4倍,比根基的 T5 模型快了 7 倍。

近日,Google Brain 团队在预印本发布论文《SWITCH TRANSFORMERS: SCALING TO TRILLION PARAMETER MODELS WITH SIMPLE AND EFFICIENT SPARSITY》,公布行使万亿级参数进行预练习的稀少模型 SWITCH TRANSFORMERS 的降生,该方式能够在掌握通信和较量资源的情形下提拔练习的不乱性,一致较量资源前提下比 T5-XXL 模型快 4 倍
来自 Google Brain 的三位科学家 William Fedus、Barret Zoph 以及 Noam Shazeer 使用了 Switch Transformer 模型,简化了 MOE 的路由算法、设计了直观的改善模型,从而实现了通信和较量成本的降低。值得等候的是,这种练习方式修复了不不乱性,而且首次展示了大型稀少模型在低精度(bfloat 16)花样下进行练习。将模型和 T5 模型进行对比,基于 101 种说话的设置和 C4 语料库(Colossal Clean Crawled Corpus,从收集上抓取的数百 GB 清洁英语文本) 练习结果实现了对 T5 模型的超越,甚至是 7 倍速碾压。


模型道理


深度进修模型平日对于所有的输入反复使用沟通的参数,而专家夹杂模型(Mixture-of-Experts)则不是如许,它采用的模式是对输入实力选择分歧的参数。如许的究竟就是能够在较量成本不变的情形下获得一个稀少激活模型,它的参数能够是无比伟大的。然而 MOE 具有较大的通信成本,且练习不不乱,因而难以推广。
简洁来说,Google Brain 基于 MOE 推出了一种方案,行使稀少模型增加快度,对于需要浓密模型的时候也能够将稀少模型蒸馏成浓密模型,同时进行微调,调整 dropout 系数避免参数过大的过拟合。


关于 MOE


夹杂专家系统属于一种集成的神经收集,每一个专家就是一种神经收集,我们查察特定案例的输入数据来匡助选摘要依靠的模型,于是模型就能够选择练习案例而无需考虑未被选中的例子,是以他们能够忽略不擅长的建模内容。它的首要思惟就是让每位专家专注于本身比其他专家更优的内容。
如许一来,整体的模型就趋于专业化,若是傍边的每个专家都对展望变量求平均,那么每个模型就都要去赔偿其他模型发生的综合误差。所谓“术业有专攻”,专家就让他去搞专业的事情。

token 路由动态图
在这个模型傍边,每个专家处理固定的批量 token 容量系数,每个 token 被路由到具有最高路由概率的专家,然则每个专家的批处理量巨细是(token 总数/专家总数)×容量因子,若是 token 分派不均,某些专家就会超载,大的容量系数能够缓解流量问题,也会增加通信成本。


权重分派与近水楼台


数据和权重划分策略
每个 4×4 的虚线网格透露 16 个核,暗影正方形是该核上包含的数据(模型权重或令牌批次)。
我们解说了若何为每种策略拆分模型权重和数据张量。
第一行:解说模型权重若何在焦点之间分派。此行中分歧巨细的外形透露前馈收集(FFN)层中较大的权重矩阵。暗影正方形的每种颜色标识独一的权重矩阵。每个焦点的参数数量是固定的,然则较大的权重矩阵将对每个令牌应用更多的较量。
第二行:解说若何在内核之间拆分数据批。每个内核持有沟通数量的令牌,从而在所有策略中连结固定的内存使用率。分区策略具有分歧的属性,许可每个内核在内核之间具有沟通的令牌或分歧的令牌,这是分歧颜色所象征的。
同时,该模型对于浓密矩阵乘法适应硬件进行了有效行使,好比 GPU 和 Google 自家的 TPU,早在 2019 年,Google AI 就模拟了果蝇东岸从的神经图,因为扫描后重建图像高达 40 亿像素,为了处理这些图片,Google AI 使用数千块 TPU 进行较量处理,能够说是下了血本。而此次推出的模型,它需要最低的硬件尺度只是知足两个专家模型的需要就够了。


如上,知足两个专家的模型,仍然可以对 T5-Base 模型有所提拔。


跑个分~


之前介绍到,Google Bain 其时的 T5 组合模型霸榜过 SuperGLUE,该模型在说话模型基准测试榜 GLUE 和 SuperGLUE 上得分均分歧水平地跨越 T5 的根蒂水平,也算是正常施展。

微调正则化究竟
固然模型距离今朝榜首的 DeBERTa 组合模型还有较长的一段路要走,该项目最大的意义在于实现了超大型参数和稀少模型连系的高效使用,

粗俗实验中,我们进行了 101 种说话的测试,能够看到该模型比拟浓密模型,在所有的义务上均有显着提拔。


就地答疑


31 页的论文,不免有读者看完之后有好奇或不解,作者想到了这个问题,直接写了出来。
作者强调,在稀少专家模型傍边,“稀少” 指的是权重,而不是存眷模式。
  • 纯粹的参数手艺会让 Switch Transformer 更好吗?

    是的,看怎么设计!参数和总的 FLOPs 是自力权衡神经说话模型的尺度。大型模型已经被证实具有精巧的示意,不外基于沟通较量资源的情形下,我们的模型具有加倍简练、有效且快速的特点。

  • 我没有超算——模型对我来说依然有效吗?

    固然这项工作集中在大型模型上,我们发现只要有两个专家模型就能实现,模型需要的最低限制在附录傍边有讲,所以这项手艺在小规模情况傍边也非常有效。

  • 在速度-精度曲线上,稀少模型比拟浓密模型有优势吗?

    当然,在各类分歧规模的模型傍边,稀少模型的速度和每一步的示意均优于浓密模型。

  • 我无法布置一个万亿参数的模型-我们能够缩小这些模型吗?

    这个我们无法完全包管,然则经由 10 倍或许 100 倍蒸馏,能够使模型酿成浓密模型,同时实现专家模型 30%的增益结果。

  • 为什么使用 Switch Transformer 而不是模型并行密集模型?

    从时间角度看,稀少模型结果要优胜好多,不外这里并不是非黑即白,我们能够在 Switch Transformer 使用模型并行,增加每个 token 的 FLOPs,然则这或者导致并行变慢。

  • 为什么稀少模型尚未普遍使用?

    扩展密集模型的伟大成功削弱了人们使用稀少模型的动力。此外,稀少模型还面临一些问题,例如模型复杂性、练习难度和通信成本。不外,这些问题在  Switch Transformer 上也已经获得了有效的缓解。

论文很长,深入认识,还需阅读全文。
参考资料:https://arxiv.org/pdf/2101.03961.pdf
项目代码地址:https://github.com/tensorflow/mesh/blob/master/mesh_tensorflow/transformer/moe.py

end




突发!Intel CEO 换帅,VMware CEO 将走立时任

微信封杀 QQ 音乐、拼多多等 App 外链;蠕虫病毒在国内残虐;Dropbox 公布裁员 |极客头条

除了 Docker,我们还有哪些选择?

在看

自媒体 微信号:ii77 扫描二维码关注公众号
爱八卦,爱爆料。

小编推荐

  1. 1 万台送餐机器人落地真相:钱少事多还听话!

    机械人顶起餐厅半边天!疫情彻底引爆机械人送餐大军。 作者| 信仪 编纂| 漠影 跟着越来越多的人在餐厅“偶遇”送餐机械人,这一称得上最“遍及”的办事机械人似乎正在以肉眼可见

  2. 2 四轮驱动!车联网加速驶向商用未来

    近年来,车联网已经被各行业、当局机构都算作是手艺立异和财富成长的制高点。车联网不光是5G、人工智能等新一代手艺在垂直行业典型的应用;也是汽车、交通等行业转型升级主要

  3. 3 城市更智慧,居民更便利

    1月14日,人民日报登载报道《城市更聪明,居民更便当》。文章指出,华为已与多个城市合作共建“城市智能体”,赋能经济成长,助力城市进一步提拔治理能力与水平。 从政务事项“

  4. 4 5nm营收占比20%! 台积电第四季度营收126.8亿美元 计划在大陆扩大产能

    告白栏 1月14日下昼,台积电发布了2020年第四时度财报。财报显露,台积电在这一季度营收126.76亿美元,5nm制程进献了个中的20%。按营收及比例较量,台积电5nm工艺在客岁四时度的营收

  5. 5 对incaseformat蠕虫事件的一些思考

    昨天incaseformat蠕虫病毒在全国爆发,各大平安厂商接踵发布通知,平安财富似乎又迎来了新的成长机会…… 全国的平安厂商都在报道这个蠕虫事件,估量有一小我会坐立不安,那就是这

  6. 6 智能制造公司的CEO们聚在一起,都聊了什么?

    在曩昔的2020年,机械人赛道吸引了整个创投圈的绝对存眷。 跟着生齿盈余的日益消散,中国制造正在向智能制造加快转型。加之新冠疫情的催化,让更多机械人上岗成为必然的选择。

  7. 7 曾推开源VR头显,20岁小伙Max Coutte成立VR新公司Unai

    hi188|编纂 跟着Oculus Quest在VR头显硬件市场占有越来越重的地位,市场入局者越来越少,比来一年时间除了Lynx外,几乎找不到新品牌。 然则,这仍然挡不住真正热爱VR的人。 Relativity

  8. 8 这7位图灵奖得主,竟然今日才入选ACM Fellow,他们可是程序员“祖师爷”

    晓查 浩楠 发自 凹非寺 量子位 报道 | 公家号 QbitAI 罕有! 7位图灵奖得主、较量机科学多项根蒂研究的要害大牛,竟然今日才成ACM Fellow…… 要知道,ACM——美国较量机协会,全世界最

  9. 9 特斯拉自建ERP的背后

    国内有位博主 摘编了有关企业应用市场的一个故事 。这个故事说到特斯拉在2012年即将推出Model S之际,因为不写意SAP的ERP产物的天真性和价钱,选择烧毁SAP,改用低代码斥地平台Mendi

  10. 10 华为获得黑莓90项关键智能手机专利 业务仍在继续

    黑莓公司首席财务官Steve Rai昨天在摩根大通线上投资者会议上证实,黑莓向华为出售了90项要害智妙手机专利。 黑莓 美国专利商标局透露,这些专利所有权已于12月23日让渡给华为。S

本文内容来自网友供稿,如有信息侵犯了您的权益,请联系反馈核实

Copyright 2024.爱妻自媒体,让大家了解更多图文资讯!