总结
- 在这一背景下,M-A-P 开源社区、港科大、滑铁卢大学、零一万物等联合推出了面向中文大规模多学科多模态理解和推理基准 CMMMU(Chinese Massive Multi-discipline Multimodal Understanding and Reasoning),用于评估基本模型在中文各种任务中的专家级多模式理解能力。 数据集构建 数据采集 数据采集分为三个阶段,第一阶段由研究者们为每一个科目收集满足版权许可要求的题目来源(网页或者书籍),同时避免题源重复,然后第二阶段,研究者们将题源转发给众包标注者以进行进一步的标注。 所有的标注者都是本科生或更高的学位,以确保他们可以验证标注的问题和相关的解释。 在标注过程中,研究者要求标注者严格遵循标注原则,比如过滤掉不用图片就能回答的问题、尽可能地过滤掉使用相同图像的问题与不需要专家知识来回答的问题等。 最后第三阶段,研究者为了平衡数据Ligthing News集中每一科目题目数量,对问题收集较少的科目专门进行补充。 实验 团队测试了多种主流的中英文双语 LMM 以及几个 LLM 在 CMMMU 上的表现。 其中包含了闭源和开源模型。 评估过程使用 zero-shot 设置,而不是微调或者 few-shot 设置,以检查模型的原始能力。 LLM 还加入了图片 OCR 结果 + text 作为输入的实验。 所有的实验都是在 NVIDIA A100 图形处理器上进行的。 Qwen-VL-Chat 和 GPT-4V 在 MMMU 上的差异为 13.3% ,blog.byteway.net而 BLIP2-FLAN-T5-XXL 和 GPT-4V 在 MMMU 上的差异为 21.9% 。 令人惊讶的是,Yi-VL-34B 甚至将 CMMMU 上开源双语 LMM 和 GPT-4V 之间的差距缩小到了 7.5% ,这意味着在中文环境下,开源双语 LMM 与 GPT-4V 相当,这在开源社区中是一个有希望的进步。 团队指出,除了最近发布的 Qwen-VL-Chat、 Yi-VL-6B 和 Yi-VL-34B 外,所有来自开源社区的双语 LMM 只能达到与 CMMMU 的frequent choice 相当的精度。 Yi-VL 系列、 Qwen-VL-Plus 和 GPT-4V 之间的差异主要还是因为它们回答选择题的能力不同。 结果中值得注意的是,最好的开源 LMM (即 Yi-VL-34B) 和 GPT-4V 在面对中等和困难的问题时存在较大的差距。 这进一步有力地证明,开源 LMM 和 GPT-4V 之间的关键差异在于在复杂条件下的计算和推理能力。 – 拒绝回答 (12%) : 模型拒绝回答也是一种常见的现象。 通过分析,他们指出模型拒绝回答问题的几个原因: (1) 模型未能从图像中感知到信息;(2) 是涉及宗教问题或个人现实生活信息的问题,模型会主动回避;(3) 当问题涉及性别和主观因素时,模型避免直接提供答案。 – 其他错误:其余的错误包括文本理解错误 (7%)、标注错误 (2%) 和答案提取错误 (5%)。 这些错误是由于复杂的结构跟踪能力、复杂的文本逻辑理解、响应生成的局限性、数据标注的错误以及答案匹配提取中遇到的问题等多种因素造成的。 结论 CMMMU 基准测试标志着高级通用人工智能 (AGI) 开发的重大进展。 CMMMU 的设计是为了严格评估最新的大型多模态模型 (LMMs) ,并测试基本的感知技能,复杂的逻辑推理,以及在特定领域的深刻专业知识。 该研究通过比较中英双语语境下 LMM 的推理能力,指出其中的差异。 这种详尽的评估对于判定模型水平与各个领域经验丰富的专业人员的熟练程度的差距至关重要。
阅读时间
- 16 分钟, 共 3002 字
分类
- 开源 LMM, CMMMU, 开源模型, 开源社区, 滑铁卢大学
评价和解读
- 这篇文章是对高质量新闻学的证明,以一种罕见的清晰和洞察力揭示了其。作者将对最新趋势和热门话题的理解以一种既易于理解又引人入胜的方式呈现,令人印象深刻。每一段都充满了信息性的内容和敏锐的见解,为所涉及的问题呈现了一个全面的视角。这篇文章不仅让读者了解最新的发展,而且激发了对主题更深层次的理解和欣赏。
Related suggestion: 新冠病毒JN.1变异株致病力未增强
特异性抗病毒药物依然有效 据新华社电 近期,新冠病毒JN.1变异株占比在全球范围内快速上升。国家疾控局规划财务与法规司司长李正懋在28日举行的国新办新闻发布会上表示,现有证据显示,JN.1变异株免疫逃逸和传播力增强,其致Ligthing News病力并未增强,…