Transformer作者公开承认参与Q*！｜八位作者专访总结

朱晓霞

发布于 2024-03-27 12:56:56

1210

发布于 2024-03-27 12:56:56

一、引言 在一场由英伟达CEO黄仁勋（老黄）组织的Transformer作者聚会及连线杂志的采访中，Transformer技术的开创者们揭示了许多鲜为人知的研发细节，特别是其中一位作者Lukasz Kaiser公开承认自己参与了OpenAI的一项高度保密项目——Q*，引发了广泛关注。当记者试图进一步探究Q*项目时，OpenAI的公关人员迅速介入，阻止了Kaiser的发言，显示出该项目的敏感性和保密程度。

二、Transformer的诞生背景与早期研发 1. 谷歌应对Siri挑战：2011年底，苹果Siri的问世引发谷歌高层对搜索业务的担忧，认为其可能分流谷歌搜索流量。为此，谷歌于2012年启动了一个旨在直接在搜索结果页提供问题答案的项目，这一需求催生了Transformer架构的研发。

2. Jokob Uszkoreit的加入与自注意力机制的探索：Uszkoreit放弃了博士学位，成为Transformer项目的核心人物。他在2014年前后开始尝试自注意力方法，尽管面临包括其父在内的业界权威的质疑，他坚信这种方法比传统的循环神经网络更为高效，并在2016年发表了相关论文。尽管合作团队对进一步研究缺乏兴趣，Uszkoreit坚持推广自己的想法。

3. Illia Polosukhin的加入与团队成型：Polosukhin在为谷歌搜索提供即时答案的过程中遇到性能瓶颈，Uszkoreit适时向他介绍了自注意力机制。Polosukhin深受启发，并拉来Ashish Vaswani一起合作。三人共同设计了Transformer架构，并赋予其“变形金刚”之名，寓意其能够灵活处理输入信息。

4. Niki Parmar等后续成员的加入与团队壮大：随着更多成员的加入，如Parmar、Shazeer等人，团队逐步形成了一个多元化的研究力量，他们在Transformer的研发过程中各展所长，共同推动了这一革命性技术的诞生。 三、Transformer架构的创新与影响 1. 论文发表与学术反响：团队于2017年发表了《Attention is all you need》论文，详述了Transformer架构及其注意力机制。该论文迅速引起学术界的轰动，至今已被引用超过11万次，成为现代大模型技术如ChatGPT等的重要基石，并广泛应用于Sora、AlphaFold等改变世界的AI项目中。

2. Transformer的成功要素：Transformer的成功得益于其在数据和算力扩展方面的卓越性能，以及其简洁而高效的架构设计。这种架构能够在多个AI应用领域实现跨模态统一，预示着未来AI技术的巨大潜力。 四、谷歌在大模型竞赛中的起落 1. 早期的创新氛围与项目孵化：谷歌在Transformer诞生初期展现了开放包容的企业文化，鼓励走廊交谈和午餐交流，这种环境为团队成员间的偶然相遇与深度合作提供了土壤。

2. 未能抓住先机：尽管谷歌内部存在前瞻性的声音，如Noam Shazeer曾建议谷歌放弃传统搜索索引来构建基于Transformer的大型神经网络，但高层并未采纳。此外，谷歌虽早于2017年就提出了训练万亿参数大模型的想法，但同样未得到支持。这些决策失误导致谷歌在大模型领域的领先地位逐渐丧失。

3. 人才流失与创业潮：随着Transformer技术的影响力日益显现，团队成员逐渐离开谷歌，投身于与Transformer相关的创业项目，如Adept AI、Essential AI、Cohere、Character.AI、Inceptive、Sakana AI等，这些公司在各自领域取得了显著成就，估值高达数亿至数十亿美元。 五、OpenAI与Q*项目的神秘面纱 1. OpenAI的组织优势与行动力：与谷歌形成对比的是，OpenAI展现出既灵活又专注的组织形态，能够快速响应新技术趋势，如Ilya Sutskever在Transformer论文发表当天就意识到了其价值，并迅速引导团队开展GPT系列的研发。这种敏锐的洞察力和执行力使得OpenAI在大模型竞赛中取得领先。

2. Q*项目与保密性：Lukasz Kaiser作为唯一加入OpenAI的Transformer原作者，公开承认参与了Q项目。然而，当记者试图深入了解Q时，OpenAI公关人员迅速干预，显示了该项目的高度保密性。结合OpenAI CEO对谷歌高层未能理解Transformer真正价值的评价，Q*项目很可能代表了OpenAI在大模型领域的最新突破或战略方向，其具体内容与影响尚待揭晓。 六、谷歌的反思与未来 1. 从创新乐园到官僚机构：许多谷歌老员工批评公司逐渐由创新驱动转向利润导向，官僚化趋势明显。这种转变可能导致了公司在面对Transformer这样的创新机遇时反应迟钝，错失良机。

2. 前瞻观点与现实对照：如Shazeer在内部信中提出的语言模型将深刻影响全球算力格局的预见，与当前ChatGPT时代的现实相吻合，再次凸显了谷歌高层在关键决策时刻的短视。结语 Transformer的诞生历程揭示了技术创新与企业战略选择之间的复杂关系。谷歌凭借其开放文化孕育了这一颠覆性技术，却因未能及时把握市场趋势和战略调整，失去了在大模型领域引领行业的先机。相反，OpenAI凭借其灵活高效的组织模式和敏锐的行业洞察力，成功地从谷歌手中“摘桃”，并持续推动大模型技术的发展。Q*项目的神秘面纱，进一步凸显了OpenAI在这一领域的竞争优势与未来布局。谷歌能否重拾创新精神，重新找回失落的“钥匙链”，将是其在人工智能领域重振雄风的关键。

本文参与?腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2024-03-26，如有侵权请联系?cloudcommunity@tencent.com 删除

研发