SoMLLaVA提升多模态大型语言模型的视觉推理能力AI开源项目

内容同步自知识星球《AGI Hunt》,加入可查看更多项目与实时AI动向
SoM-LLaVA:提升多模态大型语言模型的视觉推理能力
2024-04-22 33 stars 0 forks
SoM-LLaVA 项目介绍
项目概述
SoM-LLaVA 是一个旨在通过 Set-of-Mark 提示和改进的视觉推理能力来增强多模态大型语言模型(LLMs)的项目。该项目由 UC San Diego 和 Microsoft GenAI 合作开发,建立在 LLaVA 和 SoM 的基础上。
项目亮点
数据源和学习范式 :引入了一种新的数据源和学习范式,为多模态 LLMs 提供了补充性的训练资源。
性能提升 :通过添加新的数据集,可以在不增加推理成本的情况下,提升模型的通用能力。
模型和数据集发布 :提供了模型和数据集的发布信息,包括主模型 SoM-LLaVA-v1.5-13B 以及用于消融研究的额外模型。
训练和使用 :提供了详细的训练指令和使用 Set-of-Mark 的说明,包括环境设置、数据下载、模型训练和预训练模型的注释。
结果展示
项目在多个基准测试中取得了优异的成绩,例如在 SEED-I 和 LLaVA-Wild 数据集上的性能提升。
数据集和模型
SoM 数据集 :提供了用于训练 SoM-LLaVA 的完整数据集,包括不同格式的 JSON 文件。
模型检查点 :发布了主要模型和用于研究的附加模型,方便研究人员进行进一步的实验和分析。
实用性
环境设置 :提供了初始化虚拟环境的步骤,以及如何解决常见的安装问题。
预训练模型注释 :指导用户如何使用预训练模型来注释 COCO 图像。
引用和致谢
引用信息 :如果研究人员在研究和应用中使用了该项目的数据或模型,提供了引用格式。
致谢 :感谢 UC San Diego 和 Microsoft GenAI 的作者对社区的贡献。
项目成果
论文发表 :项目相关的论文已在 arXiv 上发表。
代码和数据集 :项目代码和数据集已在 Hugging Face 上发布。
展示
项目还提供了一些展示图像,以直观地展示模型的应用效果。
项目链接
项目主页 :SoM-LLaVA GitHub 项目页面: https://github.com/zzxslp/SoM-LLaVA
论文链接 :arXiv 上的论文: https://arxiv.org/abs/2404.16375
模型和数据集 :Hugging Face 上的模型和数据集: https://huggingface.co/zzxslp/som-llava-v1.5-13b
版权声明:
作者:clash
链接:https://www.shadowrocket6.top/262.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论