SoMLLaVA提升多模态大型语言模型的视觉推理能力AI开源项目

SoMLLaVA提升多模态大型语言模型的视觉推理能力AI开源项目-2

内容同步自知识星球《AGI Hunt》,加入可查看更多项目与实时AI动向

SoM-LLaVA:提升多模态大型语言模型的视觉推理能力

2024-04-22 33 stars 0 forks

SoM-LLaVA 项目介绍

项目概述

SoM-LLaVA 是一个旨在通过 Set-of-Mark 提示和改进的视觉推理能力来增强多模态大型语言模型(LLMs)的项目。该项目由 UC San Diego 和 Microsoft GenAI 合作开发,建立在 LLaVA 和 SoM 的基础上。

项目亮点

数据源和学习范式 :引入了一种新的数据源和学习范式,为多模态 LLMs 提供了补充性的训练资源。

性能提升 :通过添加新的数据集,可以在不增加推理成本的情况下,提升模型的通用能力。

模型和数据集发布 :提供了模型和数据集的发布信息,包括主模型 SoM-LLaVA-v1.5-13B 以及用于消融研究的额外模型。

训练和使用 :提供了详细的训练指令和使用 Set-of-Mark 的说明,包括环境设置、数据下载、模型训练和预训练模型的注释。

结果展示

项目在多个基准测试中取得了优异的成绩,例如在 SEED-I 和 LLaVA-Wild 数据集上的性能提升。

数据集和模型

SoM 数据集 :提供了用于训练 SoM-LLaVA 的完整数据集,包括不同格式的 JSON 文件。

模型检查点 :发布了主要模型和用于研究的附加模型,方便研究人员进行进一步的实验和分析。

实用性

环境设置 :提供了初始化虚拟环境的步骤,以及如何解决常见的安装问题。

预训练模型注释 :指导用户如何使用预训练模型来注释 COCO 图像。

引用和致谢

引用信息 :如果研究人员在研究和应用中使用了该项目的数据或模型,提供了引用格式。

致谢 :感谢 UC San Diego 和 Microsoft GenAI 的作者对社区的贡献。

项目成果

论文发表 :项目相关的论文已在 arXiv 上发表。

代码和数据集 :项目代码和数据集已在 Hugging Face 上发布。

展示

项目还提供了一些展示图像,以直观地展示模型的应用效果。

项目链接

项目主页 :SoM-LLaVA GitHub 项目页面: https://github.com/zzxslp/SoM-LLaVA

论文链接 :arXiv 上的论文: https://arxiv.org/abs/2404.16375

模型和数据集 :Hugging Face 上的模型和数据集: https://huggingface.co/zzxslp/som-llava-v1.5-13b

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/262.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>