研究人员开源端到端多模态大模型 LLaVA-1.5，可与 GPT-4V 形成正面竞争

文章来源：企鹅号 - 巴比特

据站长之家 10 月 8 日报道，来自威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员近期开源了一款全新的端到端多模态大模型 LLaVA-1.5，该模型在 11 项基准测试中都实现了新的状态最优（SOTA）成绩，包括视觉问答、图像 caption 等任务，展现出了强大的多模态理解能力。可与 OpenAI 的 GPT-4 V 形成正面竞争。

相比之前的版本 LLaVA，LLaVA-1.5 采用了更高分辨率的图像输入、更大规模的语言模型（13B 参数），以及面向学术任务的视觉问答数据集，从而获得了显著的性能提升。研究人员发现，与额外的大规模预训练相比，视觉指令微调对提高多模态能力更为关键。