首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

研究人员开源端到端多模态大模型 LLaVA-1.5,可与 GPT-4V 形成正面竞争

据站长之家 10 月 8 日报道,来自威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员近期开源了一款全新的端到端多模态大模型 LLaVA-1.5,该模型在 11 项基准测试中都实现了新的状态最优(SOTA)成绩,包括视觉问答、图像 caption 等任务,展现出了强大的多模态理解能力。可与 OpenAI 的 GPT-4 V 形成正面竞争。

相比之前的版本 LLaVA,LLaVA-1.5 采用了更高分辨率的图像输入、更大规模的语言模型(13B 参数),以及面向学术任务的视觉问答数据集,从而获得了显著的性能提升。研究人员发现,与额外的大规模预训练相比,视觉指令微调对提高多模态能力更为关键。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OhG8VUD7IFNesBNslV5UhM1g0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com