五一假期，您可能忽略的最新研究进展：涉及大模型Agent、多模态、图神经网络、SLM等！

ShuYini

发布于 2024-05-06 16:44:51

2880

发布于 2024-05-06 16:44:51

引言

五一假期转瞬即逝，明天又要投入到紧张而充实的工作学习中了。假期的最后一天，作者总结了假期期间一些优秀的学术成果，供大家学习交流。这些论文不仅涵盖了多模态、大模型Agent、移动设备神经网络、小模型研究、图网络推荐、大模型效率提升等方向，还充满了新颖的观点和深刻的见解。

MLP替代方案:KAN

https://arxiv.org/pdf/2404.19756

本文提出了一种有前景的多层感知器（MLP）的替代方案，称为 Kolmogorov-Arnold Networks（KAN）。MLP 的设计灵感来源于通用近似定理，而 KAN 的设计灵感则来源于 Kolmogorov-Arnold表示定理。

与 MLP 类似，KAN 拥有全连接的结构。然而，MLP 在节点（神经元）上放置固定激活函数，KAN 则在边（权重）上放置可学习的激活函数。因此，KAN 完全没有线性权重矩阵：每个权重参数都被替换为一个可学习的一维函数，参数化为样条（spline）。KAN 的节点仅对传入信号进行求和，而不应用任何非线性变换。

多Token预测架构

https://arxiv.org/pdf/2404.19737

本文作者设计了一种新的多token预测架构，通过n个独立的输出头并行预测n个未来token。使用大量文本数据进行模型训练，包括代码和自然语言数据集。再通过实验比较多token预测和单token预测在多个下游任务上的性能。

除了在token层面的实验，本文还在更细粒度的字节级模型上做了尝试，作者发现，用8字节预测替代下一个字节预测后，模型在MBPP上的Pass@1指标暴增67%，在HumanEval上也提升了20%，而且推理速度还能再快6倍。

多模态Octopus-V3

https://arxiv.org/pdf/2404.11459

多模态模型由于能够处理和学习文本、图像、音频等多种数据类型而备受关注。这类模型能捕捉不同模态间复杂的交互，并利用它们的互补信息来提升各类任务的性能。

斯坦福提出了一种专为 AI 应用设计的多模态模型：Octopus v3，引入了「functional token」的概念，它能够处理和学习包括自然语言、视觉和音频输入在内的各种类型的数据，以指导其行动。为了与边缘设备兼容，该模型被优化为少于10亿参数的紧凑尺寸。与GPT-4一样，该模型能够处理英语和中文。论文展示了该模型能够在包括树莓派在内的各种边缘设备上高效运行。

移动设备网络架构MobileNetV4

https://arxiv.org/pdf/2404.10518

本文作者推出了新一代的MobileNetV4（MNv4），这是一个为移动设备设计的高效神经网络架构。它采用了新的通用倒置瓶颈（UIB）搜索模块，整合了多种先进的网络结构。除此之外，作者还开发了专为移动加速器优化的Mobile MQA注意力模块，显著提升了速度。通过改进的神经架构搜索（NAS）方法，MNv4模型在多种移动处理器上都达到了优异的性能，包括苹果和谷歌的专用加速器。

最后作者还引入了一种新的模型蒸馏技术，进一步提升了准确率。使用这项技术的MNv4-Hybrid-Large模型在ImageNet-1K数据集上达到了87%的准确率，同时在Pixel 8 EdgeTPU上的运行时间仅为3.8ms。

语言影响人类行为

https://arxiv.org/pdf/2403.13433

本文介绍了一个名为AgentGroupChat的模拟系统，旨在研究语言如何影响人类集体行为。该系统通过模拟角色之间的互动辩论，探讨语言在群体动态中的作用。模拟中引入了使用大模型的Verbal Strategist Agent，以增强角色的互动策略。通过四个不同的叙事场景来测试模拟系统，评估其是否符合人类预期并能够模拟复杂的集体行为。