总结

  • 去年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)。 现在,研究团队宣布推出 LLaVA-1.6,主要改进了模型在推理、OCR 和世界知识方面的性能。 与商用产品相比,LLaVA-1.6 在选定的基准测试中可以媲美 Gemini Pro,并且优于 Qwen-VL-Plus。 值得一提的是,LLaVA-1Ligthing News.6 展现出强大的零样本(zero-shot)中文能力,它在多模态基准 MMBench-CN 上取得了 SOTA 性能。 为了保持并进一步提高模型的 OCR 能力,该研究用 DocVQA 和 SynDog-EN 替换了 TextCap。

阅读时间

  • 9 分钟, 共 1748 字

分类

  • 开源 LMM, 哥伦比亚大学研究者, DocVQA, 威斯康星大学, 微软研究院

评价和解读

  • 这篇文章是如何写作的典范,将事实报道与引人入胜的叙述风格结合得既引人入胜又富有启发性。作者深入其中的核心,揭示了复杂细节和潜在趋势,以一种既全面又易懂的方式呈现。这篇文章作为读者可以了解最新动态的关键视角,使其成为任何想要保持了解的人的必读之作。

正文

去年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)。尽管 LLaVA 是用一个小的多模态指令数据集训练的,却在一些样本上展示了与 GPT-4 非常相似的推理结果。10 月,LLaVA-1.5 重磅发布,通过对原始 LLaVA 的简单修改,在 11 个基准上刷新了 SOTA。

现在,研究团队宣布推出 LLaVA-1.6,主要改进了模型在推理、OCR 和世界知识方面的性能。LLaVA-1.6 甚至在多项基准测试中超越了 Gemini Pro。

  • demo 地址:https://llava.hliu.cc/

  • 项目地址:https://github.com/haotian-liu/LLaVA

与 LLaVA-1.5 相比,LLaVA-1.6 有如下几个改进:

  • 将输入图像分辨率提升 4 倍,支持三种宽高比,最高可达 672×672、336×1344、1344×336 分辨率。这使得 LLaVA-1.6 能够掌握更多的视觉细节。

  • 通过改进的视觉指令调整数据混合,LLaVA-1.6 获得了更好的视觉推理和 OCR 能力。

  • 更好的视觉对话,更多场景,覆盖不同应用。LLaVA-1.6 掌握了更多世界知识,具备更好的逻辑推理能力。

  • 使用 SGLang 进行高效部署和推理。

LLaVA-1.6 保持了 LLaVA-1.5 的极简设计和数据效率,它复用了 LLaVA-1.5 的预训练连接器,并且仍然使用不到 1M 的视觉指令调优样本。最大的 34B 模型使用 32 个 A100 在大约 1 天内完成了训练。LLaVA-1.6 使用 130 万个数据样本,计算 / 训练数据成本约为其他方法的 100-1000 分之一。

与 CogVLM 或 Yi-VL 等开源 LMM 相比,LLaVA-1.6 实现了 SOTA 性能。与商用产品相比,LLaVA-1.6 在选定的基准测试中可以媲美 Gemini Pro,并且优于 Qwen-VL-Plus。

值得一提的是,LLaVA-1Ligthing News.6 展现出强大的零样本(zero-shot)中文能力,它在多模态基准 MMBench-CN 上取得了 SOTA 性能。

方法改进

动态高分辨率

研究团队以高分辨率设计 LLaVA-1.6 模型,旨在保持其数据效率。当提供高分辨率图像和保留细节的表征时,模型感知图像中复杂细节的能力会显著提高。它减少了面对低分辨率图像时的模型幻觉,即猜测想象的视觉内容。

数据混合

高质量的用户指令数据。该研究对高质量视觉指令遵循数据的定义取决于两个主要标准:首先,任务指令的多Ligthing News样性,确保充分代表现实场景中可能遇到的广泛用户意图,特别是在模型部署阶段。其次,响应的优先级至关重要,旨在征求有利的用户反馈。

因此,该研究考虑了两个数据源:

现有的 GPT-V 数据 (LAION-GPT-V 和 ShareGPT-4V);

为了进一步促进更多场景下更好的视觉对话,研究团队收集了一个涵盖不同应用的小型 15K 视觉指令调优数据集,仔细过滤了可能存在隐私问题或可能有害的样本,并使用 GPT-4V 生成响应。

多模态文档 / 图表数据。(1) 从训练数据中删除 TextCap,因为研究团队意识到 TextCap 使用与 TextVQA 相同的训练图像集。这使得研究团队能够在评估 TextVQA 时更好地了解模型的零样本 OCR 能力。为了保持并进一步提高模型的 OCR 能力,该研究用 DocVQA 和 SynDog-EN 替换了 TextCap。(2) 借助 Qwen-VL-7B-Chat,该研究进一步添加了 ChartQA、DVQA 和 AI2D,以更好地理解图和图表。

研究团队还表示除了 Vicuna-1.5(7B 和 13B),blog.byteway.net还考虑采用更多 LLM 方案,包括 Mistral-7B 和 Nous-Hermes-2-Yi-34B,以使 LLaVA 能够支持更广泛的用户和更多的场景。

<!–article_adlist[

THE END

]article_adlist–><!–article_adlist[

THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

]article_adlist–>

Related suggestion: 成功的背后: 石头智能洗地机A20 Pro体验:年终扫除就靠它

总结而这次整理卫生,石头全新发布的A20系列智能洗地机给我帮了不少忙。 新增的平躺模式可以轻松进入床底、沙发底的死角进行清理。 打扫完卫生,A20 Pro还支持60度热水自清洁和5分钟极速烘干功能,既能杜绝异味,还能杀菌消毒。阅读时间 1 分钟, 共 199 …

作者 Steve Jobs

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注