北大MoE-LLaVA模型开源，将多模态大模型稀疏化，具有强大的视觉理解能力

文章来源：企鹅号 - wisemodel开源社区

?始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。“源享计划”即开源共享计划，自研的开源模型和数据集，以及基于开源成果衍生的开源模型和数据集等，欢迎发布到wisemodel.cn社区，方便大家更容易获取和使用。

MoE模型是近期开源社区里非常活跃的技术路线，Mixtral?8x7B模型的惊艳效果让人印象深刻。北大袁粒老师课题组最近将MoE模型扩展到了多模态领域，并在始智AI wisemodel.cn开源社区发布MoE-LLaVA系列模型。MoE-LLaVA模型参数量更少，视觉理解能力很强大。

https://wisemodel.cn/organization/PKU-YUAN（团队页面）

MoE-LLaVA只有3B稀疏激活参数，表现与LLaVA-1.5-7B在各种视觉理解数据集上相当，并且在物体幻觉基准测试中甚至超越了LLaVA-1.5-13B。通过MoE-LLaVA，旨在建立稀疏LVLMs的基准，并为未来研究开发更高效和有效的多模态学习系统提供宝贵的见解，并且MoE-LLaVA团队已经开放了所有的数据、代码和模型。

图1MoE-LLaVA在幻觉性能上和其他LVLM的比较

如图1，visionencoder处理输入图片得到视觉token序列。利用一个投影层将视觉tokens映射成LLM可接受的维度。相同的，与图片配对的文本经过一个word embedding layer被投影得到序列文本tokens。

MoE-LLaVA采用三阶段的训练策略：

图2MoE-Tuning的流程图

阶段1：如图2，对于阶段1，目标是让视觉token适应到LLM，赋予LLM能够看懂图片的实体有哪些。因此采用了一个MLP来将图片tokens投影到LLM的输入域，意味着一个个图片小patch被LLM当作伪文本token。在这个阶段，LLM被训练学会描述图片，也是理解更高层次的图片语义的基本。在这个阶段MoE layer不会被应用到LVLM中。

图3 更具体的训练框架和训练策略

阶段2：用多模态的指令数据来微调是提高大模型能力和可控性的关键技术，在这个阶段LLM被调整为有多模态理解能力的LVLM。这个阶段中加入更复杂的指令，包含图片逻辑推理，文字识别等高级任务，要求模型有更强的多模态理解能力。通常来说，稠密模型的LVLM到此就训练完成，然而同时将LLM转为LVLM和把模型稀疏化是具有挑战的。因此，MoE-LLaVA将使用第二阶段的权重作为第三阶段的初始化以降低稀疏模型学习的难度。

阶段3：作为初始化，将FFN复制多份作为专家集合的初始化权重。当视觉token和文本token被喂入MoElayer时，router会计算每一个token和专家们的匹配权重，然后每个token会被送入最匹配的top k个专家进行处理，最后根据router的权重加权求和汇聚成输出。当top k个专家被激活时，其余的专家保持静默，这种模型构成了具有无限可能的稀疏通路的MoE-LLaVA。

图4MoE-LLaVA在9个benchmark上的性能

如表1所示，MoE-LLaVA是搭载softrouter的稀疏模型，因此将之前的模型归纳为稠密模型。该研究在5个图片问答benchmark上验证MoE-LLaVA的性能并报告激活的参数量和图片分辨率。与sota方法LLaVA 1.5相比，MoE-LLaVA-2.7B×4展现了强大的图片理解能力，在5个benchmark的性能上非常接近LLaVA-1.5。其中MoE-LLaVA用3.6B的稀疏激活参数在SQAI上超过了LLaVA-1.5-7B 1.9%。值得注意的是，由于MoE-LLaVA的稀疏结构，使得只需要2.6B的激活参数量就能全面超过IDEFICS-80B。另外，相比于最近的小视觉语言模型TinyGPT-V，MoE-LLaVA-1.8B×4在相当的激活参数下在GQA和VisWiz分别超过27.5%和10%，这标志着MoE-LLaVA强大的理解能力在自然视觉中。

为了更全面的验证MoE-LLaVA的多模态理解能力，在4个benchmarktoolkits上评估性能。benchmark toolkits通常答案是开放性的并且无固定模板，是验证模型能否能自然语言问答的工具包。在图4，MoE-LLaVA-1.8B×4超过Qwen-VL，后者使用更大的图片分辨率。这些结果都展示了，MoE-LLaVA，这一稀疏模型可以用更少的激活参数达到和稠密模型相当甚至超过的性能。

图5MoE-LLaVA在幻觉物体检测上的性能评估

采用pope的评估管道去验证MoE-LLaVA的物体幻觉。结果被展现在在图5，MoE-LLaVA表现最好的性能，意味着MoE-LLaVA倾向于生成与给定图像一致的对象。具体的，MoE-LLaVA-1.8B×4以2.2B的激活参数超过了LLaVA。另外，MoE-LLaVA的yesratio占比处于较均衡状态，这表明MoE-LLaVA稀疏模型能够根据问题做出正确的反馈的行为。

图6 专家负载可视化

在图6，展示了MoE-LLaVA-2.7B×4-Top2的专家负载在scienceqa上。整体上，在训练初始化时，所有的MoElayer中的专家的负载比较平衡。然而随着模型逐渐被稀疏化，第17到27层的专家的负载突然增大，甚至几乎包揽了所有tokens。对于浅层的5-11层，主要是由专家2，3，4共同协作。值得关注的是，专家1几乎只在第1-3层工作，随着模型变深，专家1逐渐退出了工作。因此，MoE-LLaVA的专家们学到了某种特定的模式，它能够按照一定的规律进行专家们的分工。

图7 模态分布可视化

在图7展示了不同专家的模态分布，发现text和image的路由分布极其相似，例如当专家3在17-27层努力工作时，它所处理的text和image的占比是相似的。这展现出MoE-LLaVA对于模态并无明显的偏好。

在tokenlevel上观察专家们的行为，跟踪所有token在稀疏网络中的轨迹在下游任务。对text和image所有的激活的通路，用PCA降维得到主要的10条通路如图8所示。发现对于某个未见的text token或image tokens，MoE-LLaVA始终偏向于派发专家2和3来处理在模型深层。expert 1，4倾向于处理初始化的token。这些结果能够更好的帮助我们理解稀疏模型在多模态学习上的行为并探索未知的可能。

图8 激活通路可视化

DEMO示例：

Github: https://github.com/PKU-YuanGroup/MoE-LLaVA

Paper: https://arxiv.org/abs/2401.15947

Demo: https://huggingface.co/spaces/LanguageBind/MoE-LLaVA

加盟入伙

始智AI wisemodel社区自2023年9月上线以来，取得了积极的进展，初步形成一定的影响力，为了加快公司发展，我们长期需要技术、运营等人才加盟（工作或者合伙创业），技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员（根据个人意向可备注“求职”或“创业”）。

同时我们有意建设一支wisemodel社区的志愿团队，负责社区的运营和技术支持等工作，涉及模型、算法、开发、运营等相关的工作，在此有机会跟行业和学界的大牛等学习接触的机会，欢迎感兴趣的同学和老师等加入志愿者团队（备注“志愿者”）。

专题研究

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将努力打造成“HuggingFace”之外最活跃的社区，汇聚主要AI开源模型和数据集等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

发表于: 2024-01-312024-01-31 21:25:58
原文链接：https://page.om.qq.com/page/O5W_kkwu6NeJpngDS3uzh6iQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

北大MoE-LLaVA模型开源，将多模态大模型稀疏化，具有强大的视觉理解能力

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐