第一个基于 Llama-3 的多模态大模型, Bunny-Llama-3-8B-V 正式上线

GitHub: https://github.com/BAAI-DCAI/Bunny
HuggingFace: https://huggingface.co/BAAI/Bunny-Llama-3-8B-V
Modelscope: https://modelscope.cn/models/BAAI/Bunny-Llama-3-8B-V
Wisemodel: https://wisemodel.cn/models/BAAI/Bunny-Llama-3-8B-V

CV君

发布于 2024-04-25 18:41:04

870

发布于 2024-04-25 18:41:04

Bunny 团队推出第一个基于 Llama-3 的多模态大模型！Bunny-Llama-3-8B-V 正式上线，超越一众如 LLaVA-7B、LLaVA-13B、Mini-Gemini-13B 模型。在众多主流 Benchmark 上表现良好，具有更好的识别、数学和推理能力。

项目主页：https://github.com/BAAI-DCAI/Bunny

Bunny 模型采用了经典的 Encoder+Projector+LLM 架构，提供了一个可扩展的组合框架。支持多种 Vision Encoders，如 EVA CLIP、SigLIP 等，以及多种 LLM Backbone，包括 Phi-1.5、Phi-2、StableLM-2、Llama-3 等。灵活的架构设计便于用户基于Bunny开展大模型研究。

Bunny-Llama-3-8B-V可以精确理解图片并识别物体：