您现在的位置是:首页 > 人工智能人工智能
在Scaling Transformers用稀疏性就足够了!“有了这样的研究,我们以后或许能在笔记本电脑上托管 GPT-3”
cc博主2022-03-28【人工智能】478人已围观
作者|郑宇宏
编辑|陈彩娴
Scaling Transformers:
让大型语言模型更易于管理
近年来,基于Transformer架构的大型神经网络,自然语言处理领域取得了巨大的进步。前几年在Reddit上发布大量灌水贴的thegentlemetre账号一周后才被人类发觉:这竟然是一个应用程序在“作怪”!它正是以被称为地表最强的语言模型GPT-3为基础开发的程序。
GPT-3作为一个大型语言模型,可以创作出整篇文章,即使把这些文章和人类写的文章相比较的话,都很难被区分出来。
但是这种“聪明”的模型却有一个弊端。
因为它的训练成本极高,不是每个人都有资源来训练这种大型模型。
那么如何让大型语言模型更易于管理以适用日常需要呢?
华沙大学,谷歌研究和OpenAI的学者们提出一个新的模型族-Scaling Transformers。
论文地址:https://arxiv.org/abs/2111.12763
文章提出了一种通过稀疏化网络中线性层的激活(前馈和 Q、K、V 投影)来训练大规模稀疏模型的方法。该方法特别吸引人,因为它似乎不需要任何特定于硬件或低级别的优化即可有效。控制器网络在激活时生成一个块式 one-hot 掩码,并根据此掩码动态选择后续层的权重。当扩大模型大小时,用稀疏层来有效扩展并执行非批次解码的速度比标准Transformer模型快的多。在参数数量相同的情况下,稀疏层足以获得与标准Transformer相同的困惑度。
文章解读
Fabio Chiusano在NLP上发表了对这篇论文的正面评价。Fabio Chiusano是Digitiamo 数据科学主管,也是人工智能领域的顶级媒体作家。AI科技评论对Chiusano的点评做了不改原意的整理:
Scaling Transformer 真的很有趣,因为当我们扩大模型大小时,它们允许有效地缩放语言模型并且比标准 Transformer 更快地执行非批处理解码。严谨地说:
我们称其
d
为 Transformer 模型的参数个数。然后,一个标准的密集 Transformer 将需要近似
d^2
计算来进行预测。相反,稀疏的 Scaling Transformer 将需要近似
d^1.5
计算。
如果说这样的改进看起来不明显,请考虑一下这d
通常是一个非常高的数字,大约数十亿,实际上实验表明,Scaling Transformer 为单个令牌带来了近 20 倍的预测加速(从 3.690s 到 0.183 s) 关于具有 17B 个参数的密集 Transformer。注意:这些加速是针对未批量预测的。
在具有建议的稀疏机制(FF、QKV、FF+QKV)的 C4 数据集上,Scaling Transformers(相当于 T5 大小,具有大约 800M 参数)的对数困惑度类似于基线密集模型。
具有 17B 参数的 Terraformer 的单个令牌的解码速度比密集基线模型快 37 倍,推理所需的时间少于 100 毫秒/令牌。这里注意力稀疏 = 64,ff-稀疏 = 256,损失稀疏 = 4
稀疏化的收益非常好。然而,当解码较长的序列时,它们会更糟,因为解码时间将由注意力操作控制。
幸运的是,已经提出了许多方法来解决 Transformer 的这个问题,例如LSH(Locality-Sensitive Hashing)注意处理长序列和可逆层以提高内存效率。我会说这不是个微不足道的结果!
这篇论文还对用于提高 Transformer 效率的其他技术进行了有趣的概述。我在这里报告了它的一些摘录,我认为它可以作为那些不熟悉 Transformer 技术效率的人的参考。
模型压缩。模型修剪通过在训练之后或训练期间移除不需要的权重来使矩阵更小。
模型蒸馏。模型蒸馏包括在先前训练的大模型(即教师)的输出上训练一个小模型(即学生)。用于移动推理的几种自然语言模型依靠蒸馏来加速从预先训练的大型模型中进行推理。
稀疏注意力。基于稀疏注意力的方法通过合并额外的组合机制或选择该层所关注的标记子集,使注意力层更加高效,尤其是对于长序列。
稀疏前馈。关键思想是将前馈层划分为多个部分(称为专家),每个令牌只检索一个部分,这降低了前馈块的复杂性。这些加速主要以训练速度来衡量,并且该方法侧重于前馈块。专家方法的混合已被证明可以在训练中实现计算效率,扩展到一万亿个参数。
虽然目前的结果有许多局限性。尽管如此,这篇论文可以被认为是通往可持续大型模型的第一步。
大家怎么看?
参考资料
https://medium.com/nlplanet/two-minutes-nlp-scaling-transformers-with-sparsity-5bf004a7ea56
https://arxiv.org/abs/2111.12763
https://openreview.net/forum?id=-b5OSCydOMe
雷峰网(公众号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
相关文章
- 为了帮助乌克兰分析情报,伯克利团队用何恺明提出的MAE神经网络加速雷达图像分析
- 《seo实战培训》索引量的概念与搜索引擎相结合
- 新能源汽车掀起涨价潮,一个月内近40款车型宣布涨价,最高涨幅超3万
- 狮子大开口还是胸有成竹?软银力推Arm估值600亿启动IPO
- 车企跨界「造芯」没有未来
- 最新免费酸酸乳节点分享-永久v2ray节点链接定期更新(2022/3/25)
- 575万奖金!2022年数学界「诺贝尔奖」发布,拓扑学大师获奖
- 小鹏汽车被曝偷偷修改救援条款;马化腾:过冬,要把子弹用在关键战役上;苹果计划推出硬件订阅服务|雷峰早报
- 2021腾讯财报:这一年,腾讯终成IT自研疯狂的企鹅
- 3年量产3颗芯片,清微智能获数亿元B轮融资
猜你喜欢
下一代 AutoAI:从模型为中心,到数据为中心
人工智能作者 | 李梅编辑 | 陈彩娴今年年初,知名 AI 学者吴恩达在接受 IEEE Spectrum 的采访中,呼吁大家将目光从以模型为中心转向以数据为中心。深度学习问世以来,随着神经网络架构趋于固定和成熟,转而寻找改进数据的方法,已经成了 AI 研发的新...
阅读更多活动预告|科技思享会之《隐私保护的前沿技术及应用》
业界蛙鸣伴蝉鸣,盛夏已然至。2022年7月27日-28日每晚20:00,IEEE x ATEC科技思享会第二期会议再次与您相约云端。网友们可在“IEEE电气电子工程师”、“ATEC”、“雷峰网(公众号:雷峰网)”、“AI科技评论”的视频号,“ATEC科技社区”的B...
阅读更多联发科推出首款5G毫米波天玑处理器
芯片雷峰网5月23日消息,本周一,联发科发布旗下首款支持5G毫米波的移动平台——天玑1050,支持毫米波和Sub-6GHz全频段5G网络,提供高速率和广覆盖的5G连接,为用户带来更加完整的5G体验。联发科官方表示,天玑1050移动平台采用台积电6nm制程,搭载八...
阅读更多拒绝继续注资后,阿里、蚂蚁集团双双撤出印度最大电商企业
业界5月17日雷峰网(公众号:雷峰网)消息,印度最大电商企业Paytm Mall发布公告称,阿里巴巴集团和蚂蚁集团退出该公司股东近日。因其战略重点从传统的实体商品电子商务转向B2B出口和开放网络数字商务(ONDC),随着战略调整,PEPL的股东也发生变化,阿里集...
阅读更多高端市场大获成功,年出货量遥遥领先,中国投影机市场看极米
业界自2018年问鼎中国投影机市场冠军宝座后,极米一直稳居其位,根据IDC最新发布的《IDC 2021年第四季度中国投影机市场跟踪报告》,极米与竞争对手的距离越拉越大,其2021年的市场份额甚至超过其后四强总和,一骑绝尘。报告显示,2021年中国投影机市场总出货...
阅读更多