前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >第一个基于 Llama-3 的多模态大模型, Bunny-Llama-3-8B-V 正式上线

第一个基于 Llama-3 的多模态大模型, Bunny-Llama-3-8B-V 正式上线

作者头像
CV君
发布2024-04-25 18:41:04
870
发布2024-04-25 18:41:04
举报

Bunny 团队推出第一个基于 Llama-3 的多模态大模型!Bunny-Llama-3-8B-V 正式上线,超越一众如 LLaVA-7B、LLaVA-13B、Mini-Gemini-13B 模型。在众多主流 Benchmark 上表现良好,具有更好的识别、数学和推理能力。

  • 项目主页:https://github.com/BAAI-DCAI/Bunny

Bunny 模型采用了经典的 Encoder+Projector+LLM 架构,提供了一个可扩展的组合框架。支持多种 Vision Encoders,如 EVA CLIP、SigLIP 等,以及多种 LLM Backbone,包括 Phi-1.5、Phi-2、StableLM-2、Llama-3 等。灵活的架构设计便于用户基于Bunny开展大模型研究。

Bunny-Llama-3-8B-V可以精确理解图片并识别物体:

在这个餐厅中,Bunny-Llama-3-8B-V 理解并很好地描述了图片:

模型也有很强的OCR能力:

场景理解能力:

在 Bunny 数据集上训练好的 Bunny-Llama-3-8B-V 已经开放下载:

  • GitHub: https://github.com/BAAI-DCAI/Bunny
  • HuggingFace: https://huggingface.co/BAAI/Bunny-Llama-3-8B-V
  • Modelscope: https://modelscope.cn/models/BAAI/Bunny-Llama-3-8B-V
  • Wisemodel: https://wisemodel.cn/models/BAAI/Bunny-Llama-3-8B-V

预计会在未来发布性能更强悍的版本,STAY TUNED!

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-24,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com