您现在的位置是：首页 > 业界业界

ICLR 2022 cosFormer：重新思考注意力机制中的Softmax

cc博主2022-03-24【业界】670人已围观

导读：Transformer在自然语言处理、计算机视觉和音频处理方面取得了巨大成功。作为其核心组成部分之一，Softmax Attention模块能够捕捉长距离的依赖关系，但由于Softmax算子关于序列长度的二次空间和时间复杂性，使其很难扩展。针对这点，研究者提出利用核方法以及稀疏注意力机制的方法来近似Softmax算子，从而降低时间空间复杂度。但是，由于误差的存在，效果往往不尽如人意。

我们（商汤多模态研究组）认为，近似操作本身存在的误差使得其效果很难超越Softmax Attention。我们的观点是，与其近似Softmax，不如设计一种方式代替Softmax，并且同时降低时间空间复杂度。因此，本文提出了名为cosFormer的方法，在时间空间复杂度关于序列长度为线性复杂度的同时，其性能接近或者超越Softmax Attention，并在LRA benchmark上取得SOTA结果。我们的设计核心理念基于两点，首先是注意力矩阵的非负性，其次是对局部注意力的放大（非极大值抑制）。

本文主要介绍已收录于ICLR 2022的一篇文章 cosFormer : Rethinking Softmax in Attention。

ICLR 2022 cosFormer：重新思考注意力机制中的Softmax 第1张

论文地址：https://arxiv.org/abs/2202.08791

部分开源代码：https://github.com/OpenNLPLab/cosFormer

ICLR 2022 cosFormer：重新思考注意力机制中的Softmax 第2张

图片表示各种transformer在LRA benchmark上的表现，其中y轴表示性能，x轴表示速度，圆圈大小表示内存，我们提出的cosFormer取得了明显的优势。

一、背景

ICLR 2022 cosFormer：重新思考注意力机制中的Softmax 第3张

3、Softmax的两大性质

我们经过分析以及实验，归纳出Softmax Attention中比较重要的性质，这两个性质可以指导我们的模型设计：

1. 注意力矩阵的非负性

2. 局部注意力的放大（非极大值抑制）

ICLR 2022 cosFormer：重新思考注意力机制中的Softmax 第4张

所以我们的方法需要在加了reweighting操作后也更加集中在对角线附近。注意并非所有的有类似权重的函数均适用，这个reweighting的函数需要跟前面的QK一样可以拆分成两个矩阵的乘法的形式。

至此，就可以引入我们的cosFormer了。

二、cosFormer

1、方法

我们的方法基于线性Attention，首先给出符号定义：

ICLR 2022 cosFormer：重新思考注意力机制中的Softmax 第5张

ICLR 2022 cosFormer：重新思考注意力机制中的Softmax 第6张

2、实验结果

我们在单向模型，双向模型以及LRA benchmark上测试了我们的方法，均取得了非常不错的效果。

单向语言模型，指标表示困惑度（越低越好）： ICLR 2022 cosFormer：重新思考注意力机制中的Softmax 第7张

论文地址：https://arxiv.org/abs/2202.08791

雷峰网(公众号：雷峰网)

Tags：ssr订阅 v2ray节点订阅地址科学上外网

相关文章

文章评论

猜你喜欢

腾讯天籁行动2022年度发布会：聚焦老年听障群体，打造技术公益长效模式
人工智能
产品研发层面，继在人工耳蜗场景验证天籁AI技术价值，将人工耳蜗语音清晰度提升40%后，腾讯首次发布完全自研的助听器核心算法解决方案，携手助听器厂商智听科技联合研发，推出挚听（腾讯天籁inside）助听器“公益助老款”。得益于天籁自研AI算法加持，该款助听器将复...
2022-09-26487人已围观
阅读更多
CCF 60 周年，杰出贡献奖颁给了共同成长的他们
人工智能
青春一甲子，激荡六十年。作者 | 王玥编辑 | 陈彩娴CCF，即中国计算机学会（China Computer Federation）。CCF成立于1962年，它的前身是中国电子学会计算机专业委员会。CCF 是一个由从事计算机及相关科学技术领域的科研、教育...
2022-08-09527人已围观
阅读更多
B站被曝2亿条用户账号、手机号数据泄露，部分用户账号确认真实，B站内部人士否认
业界
7月8日消息，近日一张在暗网叫卖2.2亿余条B站用户信息的截图在网上流传，泄露数据疑似包括用户账号（UID）和手机号，价格为0.5比特币或17.72以太币。目前，一枚比特币价值约为22000美元，一枚以太币约为1200美元。也就是说，这些数据售价近11000...
2022-07-08600人已围观
阅读更多
最新免费机场ssr节点二维码,v2ray机场推荐每日更新6月21日
技术好文
最新免费机场ssr节点,v2ray机场推荐每日更新，今日周二，为大家提供最新白嫖ssr节点及v2ray节点链接分享账号链接付费节点点击右侧栏目图。资源在2022年6月21日17点更新。免费资源并不容易。请珍惜它。蜗牛SEO将继续更新可用资源，并尽最大努力更新更...
2022-06-215653人已围观
阅读更多
危机不断，缘何社区团购仍有当下价值？
业界
持续性的上海抗疫保供，再一次让社区团购模式及团长火了起来。在刚刚过去的这段特殊时刻，社区团购这种集采集配，更有效率的零售形式，在城市中成为了维持居民正常生活的中坚力量，甚至随着疫情不断反复，社区团购这种商业模式的作用远远超过了市场的想象。所以近段时间以来，对...
2022-06-07631人已围观
阅读更多

加入组织

广告

热门文章

热评文章

比亚迪称自动驾驶是忽悠余承东反击技术不行！华为高管晒单为ADS 2.0下单M5

今日头条状告今日油条侵权一审败诉，索赔200万有点难！

备受评国产OS！深度20.9正式发布：一切为了稳定

上海车展比亚迪展台被多名大众高管围观：都在看海鸥

亚马逊推出欧洲急速拓展计划：卖家只需点两下即可上架全部欧盟国家

消息称英伟达GeForce RTX 4060 Ti目标价450美元，5月发布

ChatGPT可能泄露商业机密美国FTC称将重点关注AI违法行为

用户聊天内容不能白用，Reddit将向OpenAI等收费

微软宣布将把GPT-4用于医疗领域，帮助医护回复患者和分析记录

微软拟自研AI芯片“雅典娜”：降低机器学习成本

天气预报查看日历电报扫码留言评论 Telegram

正在加载……

剪切Ctrl+X复制Ctrl+C粘贴Ctrl+V全选Ctrl+A

在新窗口中打开链接复制链接地址

返回前进重新加载Ctrl+R

复制本页网址保存到桌面打印...Ctrl+P