前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >五一假期,您可能忽略的最新研究进展:涉及大模型Agent、多模态、图神经网络、SLM等!

五一假期,您可能忽略的最新研究进展:涉及大模型Agent、多模态、图神经网络、SLM等!

作者头像
ShuYini
发布2024-05-06 16:44:51
2880
发布2024-05-06 16:44:51
举报

引言

五一假期转瞬即逝,明天又要投入到紧张而充实的工作学习中了。假期的最后一天,作者总结了假期期间一些优秀的学术成果,供大家学习交流。这些论文不仅涵盖了多模态、大模型Agent、移动设备神经网络、小模型研究、图网络推荐、大模型效率提升等方向,还充满了新颖的观点和深刻的见解。

MLP替代方案:KAN

https://arxiv.org/pdf/2404.19756

本文提出了一种有前景的多层感知器(MLP)的替代方案,称为 Kolmogorov-Arnold Networks(KAN)。MLP 的设计灵感来源于通用近似定理,而 KAN 的设计灵感则来源于 Kolmogorov-Arnold表示定理。

与 MLP 类似,KAN 拥有全连接的结构。然而,MLP 在节点(神经元)上放置固定激活函数,KAN 则在边(权重)上放置可学习的激活函数。因此,KAN 完全没有线性权重矩阵:每个权重参数都被替换为一个可学习的一维函数,参数化为样条(spline)。KAN 的节点仅对传入信号进行求和,而不应用任何非线性变换。

多Token预测架构

https://arxiv.org/pdf/2404.19737

本文作者设计了一种新的多token预测架构,通过n个独立的输出头并行预测n个未来token。使用大量文本数据进行模型训练,包括代码和自然语言数据集。再通过实验比较多token预测和单token预测在多个下游任务上的性能。

除了在token层面的实验,本文还在更细粒度的字节级模型上做了尝试,作者发现,用8字节预测替代下一个字节预测后,模型在MBPP上的Pass@1指标暴增67%,在HumanEval上也提升了20%,而且推理速度还能再快6倍。

多模态Octopus-V3

https://arxiv.org/pdf/2404.11459

多模态模型由于能够处理和学习文本、图像、音频等多种数据类型而备受关注。这类模型能捕捉不同模态间复杂的交互,并利用它们的互补信息来提升各类任务的性能。

斯坦福提出了一种专为 AI 应用设计的多模态模型:Octopus v3,引入了「functional token」的概念,它能够处理和学习包括自然语言、视觉和音频输入在内的各种类型的数据,以指导其行动。为了与边缘设备兼容,该模型被优化为少于10亿参数的紧凑尺寸。与GPT-4一样,该模型能够处理英语和中文。论文展示了该模型能够在包括树莓派在内的各种边缘设备上高效运行。

移动设备网络架构MobileNetV4

https://arxiv.org/pdf/2404.10518

本文作者推出了新一代的MobileNetV4(MNv4),这是一个为移动设备设计的高效神经网络架构。它采用了新的通用倒置瓶颈(UIB)搜索模块,整合了多种先进的网络结构。除此之外,作者还开发了专为移动加速器优化的Mobile MQA注意力模块,显著提升了速度。通过改进的神经架构搜索(NAS)方法,MNv4模型在多种移动处理器上都达到了优异的性能,包括苹果和谷歌的专用加速器。

最后作者还引入了一种新的模型蒸馏技术,进一步提升了准确率。使用这项技术的MNv4-Hybrid-Large模型在ImageNet-1K数据集上达到了87%的准确率,同时在Pixel 8 EdgeTPU上的运行时间仅为3.8ms。

语言影响人类行为

https://arxiv.org/pdf/2403.13433

本文介绍了一个名为AgentGroupChat的模拟系统,旨在研究语言如何影响人类集体行为。该系统通过模拟角色之间的互动辩论,探讨语言在群体动态中的作用。模拟中引入了使用大模型的Verbal Strategist Agent,以增强角色的互动策略。通过四个不同的叙事场景来测试模拟系统,评估其是否符合人类预期并能够模拟复杂的集体行为。

研究发现,集体行为的出现依赖于信息交流、角色多样性、语言理解力和策略适应性等因素。例如,在讨论人工智能对社会的影响时,参与者能够达成共识;在电影角色选拔中,演员愿意为了项目的成功作出牺牲。

小模型性能极限

https://arxiv.org/pdf/2404.07647

大模型在训练和推理时成本较高,为此人们尝试采用较小的模型。然而,较小的模型可能会出现饱和现象。

本文深入研究了这一现象,发现其原因在于小模型的隐藏维度与目标概率分布的高复杂性不匹配,导致模型的预测头在softmax瓶颈下性能受限。实验表明,少于1000个隐藏维度的模型在预训练后期容易形成不良的潜在表示,影响最终性能。

GNN推荐系统

https://arxiv.org/pdf/2109.12843v2

本文是关于基于图神经网络(GNN)的推荐系统的研究综述。推荐系统是互联网上关键的信息服务平台,而GNN技术已成为推荐系统的新趋势。文章首先回顾了推荐系统和GNN的发展历程,然后介绍了推荐系统的分类方法,包括阶段、场景、目标和应用,以及GNN方法的分类,包括谱模型和空间模型。

文章强调了将GNN应用于推荐系统的三个主要动机:高阶连接性、数据结构属性和增强的监督信号。接着,分析了在构建图、嵌入传播聚合、模型优化和计算效率方面面临的挑战。文章还全面概述了基于GNN的推荐系统的相关研究,并按照分类体系进行了整理。最后,文章讨论了该领域的一些未解决问题和未来可能的研究方向。

自推测解码:Kangaroo

https://arxiv.org/pdf/2404.18911

为了提升大模型的推理效率,本文作者提出一种新型的自推测解码框架:Kangaroo,该框架将大模型的一个固定浅层子网络作为自草稿模型(self-drafting model),同时引入双提前退出机制,在保持高Token接受率的同时,显著提高了大模型的推理速度和参数利用效率。

在Spec-Bench基准测试中实现了高达1.7倍的速度提升,并且在参数数量上比Medusa-1模型少了88.7%。

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-05-05,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • MLP替代方案:KAN
  • 多Token预测架构
  • 多模态Octopus-V3
  • 移动设备网络架构MobileNetV4
  • 语言影响人类行为
  • 小模型性能极限
  • GNN推荐系统
  • 自推测解码:Kangaroo
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com