高效Transformer层出不穷，谷歌团队综述文章一网打尽

自 2017 年诞生以来，Transformer 模型在自然语言处理、计算机视觉等多个领域得到广泛应用，并出现了大量变体。近期涌现的大量 Transformer 变体朝着更高效的方向演化，谷歌研究者对这类高效 Transformer 架构进行了综述。

Transformer 是现代深度学习领域一股令人敬畏的力量，它广泛应用于语言理解、图像处理等多个领域，并产生了极大的影响。过去几年，大量研究基于 Transformer 模型做出基础性改进。人们对此的巨大兴趣也激发了对更高效 Transformer 变体的研究。

近期涌现了大量 Transformer 模型变体，研究者和从业者可能难以跟上创新的节奏。在该论文写作时（2020 年 8 月），之前的半年出现了十多个新的高效 Transformer 模型。因此，对已有文献进行综述对于社区而言是有益和及时的。

自注意力机制是 Transformer 模型的核心典型特征。该机制可被看作是一种类似图的归纳偏置，将序列中的所有 token 与基于相关性的池化操作连接起来。对于自注意力的一个担忧是其时空复杂度都是平方级的，这妨碍模型在多种环境下的可扩展性。最近出现了大量试图解决该问题的 Transformer 模型变体，本文将这类模型称作「高效 Transformer」(efficient Transformer)。

基于此，模型的效率有了不同的诠释。效率可能指模型的内存占用，当模型运行的加速器内存有限时这尤为重要；效率也可能指训练和推断过程中的计算成本，如 FLOPs 数。尤其对于设备端应用而言，模型应在有限的计算预算下运行。该综述论文从内存和计算两个角度来考虑 Transformer 的效率。

高效自注意力模型对于建模长序列的应用很关键，如通常包括较多像素或 token 的文档、图像和视频。因此，广泛采用 Transformer 优先考虑的是处理长序列的效率。

该论文旨在对这类模型的近期发展进行综述，主要聚焦于通过解决自注意力机制的平方级复杂度来提升 Transformer 效率的建模发展和架构创新，同时该论文还简要探讨了通用改进和其他效率改进。

该论文提出了一种针对高效 Transformer 模型的分类法，按照技术创新和主要用途进行分类。具体而言，该论文综述了在语言和视觉领域均有应用的 Transformer 模型，并为其中的部分模型提供了详细的解读。

本文转载自网络，原文链接：https://www.toutiao.com/i6876797607771898380/
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：智能建筑通信系统的组成及要求 下一篇：没有了

高效Transformer层出不穷，谷歌团队综述文章一网打尽

推荐图文

终于带了点干货！Android、iOS 又更新：这些功能都

继微信、QQ等59款应用后：谷歌和苹果印度应用商店将

5G的故事凉了？2020年全球智能手机出货量下跌8.8%

华为王金辉：F5G全光网更具确定性带来更大产业空间

2021-2025年数字经济九大技术趋势展望

从特征检测器到视觉转换器：卷积神经网络的时代到此

随机推荐

美国5G牌照拍卖金额已达698亿美元打破历

算法中的微积分：5大函数求导公式让你在

中国工程院院士李骏：单车智能存在5大问

抖音海外版测试全新界面出于压力不得不

如何提高数据中心基础设施利用率

假如微信被封号谁来保护我的“不被遗忘

安卓用久了卡顿苹果用久了闪退究竟因为

云计算软件公司如何在不影响质量的情况下

人工智能可以促进创造力的工作吗？

5G给物联网的今天和明天带来了什么？

关于我们