今天,谷歌大脑声称,他们新技术能训练万亿级参数的语言模型。
万亿级,什么概念?
烧了微软 10000 张显卡的 GPT-3,也不过 1750 亿参数。
现在,他们将这参数量扩大到 9 倍——16000 亿参数。
这一语言模型正是Switch Transformer,自称是迄今为止最大的模型,其预训练速度是谷歌以前开发的最大语言模型(T5-XXL)的 4 倍。
与此同时,此次也首次展现了大型稀疏模型(参数量惊人,但计算成本恒定)也可以用较低精度的格式进行训练。
迄今最大语言模型
Switch Transformer 的设计原则是,用一种简单有效的稀疏性扩展 Transformer 模型的参数量。
它建立在专家混合的基础上,这是 90 年代初首次提出的人工智能模型范式。
简单来说,就是在一个更大的模型内保留多个专家,或专门从事不同任务的模型,并由一个 ” 门控网络 ” 为任何给定数据选择咨询哪些专家。
Switch Transformer 的创新之处在于,它有效利用了一些硬件,比如 GPU 和谷歌的 TPU 等为稠密矩阵乘法设计的硬件。
在分布式训练设置中,模型的稀疏激活层在不同设备上分配唯一的权重。所以,模型权重随设备数量的增加而增加,同时在每个设备上保持可管理的内存和计算空间。
接着,研究人员使用了 32 个 TPU 内核在一个数据集上预训练了几个不同的 Switch Transformer 模型。
这一数据集叫做 Colossal Clean Crawled Corpus,750GB 大小,包含了从 Reddit、维基百科和其他网络资源中搜刮的文本。
研究人员给这些模型布置了任务,比如,在有 15% 单词被掩盖的段落中预测出缺失的单词;检索文本来回答问题。
研究人员表示,他们拥有 2048 个专家系统的 1.6 万亿参数模型(Switch-C)” 完全没有不稳定性 “,其速度相比于 T5-XXL 模型提升了 4 倍。
此外,研究者还将模型与 T5-Base 和 T5-Large 进行了对比,结果表明,在相同的计算资源下,新模型预训练速度有最高 7 倍的提升。
研究人员表示,大型稀疏模型可用于创建较小的密集模型,在任务上进行微调,其质量增益为大型模型的 30%。
从整体结果上看,Switch Transformer 模型在多项推理和知识任务中带来了显著性能提升。这说明该模型架构不只对预训练有用,还可以通过微调将质量改进迁移至下游任务中。
研究人员表示,
我们无法完全保留模型质量,但通过将我们的稀疏模型提炼成密集模型,可以实现 10 到 100 倍的压缩率,同时实现约 30% 的专家模型的质量增益。
在未来的工作中,研究人员计划将 Switch Transformer 应用于不同模态或多模态模型,包括图像和文本。
参考链接:
论文地址:https://arxiv.org/abs/2101.03961
https://venturebeat.com/2021/01/12/google-trained-a-trillion-parameter-ai-language-model/
— 完 —
加入 AI 社群,拓展你的 AI 行业人脉
量子位「AI 社群」招募中!欢迎 AI 从业者、关注 AI 行业的小伙伴们扫码加入,与50000+ 名好友共同关注人工智能行业发展 & 技术进展:
量子位QbitAI · 头条号签约作者
‘ ‘ 追踪 AI 技术和产品新动态
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~