总结

  • 来源:DeepTech深科技 近期,大语言模型(Large Language Models,LLMs)已经在理解和生成自然语言上取得了空前的成功。 所以,为了让 AI 更接近真实世界,将额外的模态比如图像输入,融入大语言模型从而打造多模态大模型(MLLMs,Multi-modal LLMs),被认为是 AI 发展的一个关键新领域。 该问题的本质其实是:现有模型在细粒度文本图像匹配能力上存在缺失。 而 GROUNDHOG 的关键思想是将 Language Grounding(语言接地)解藕成两个阶段:定位和识别。 另据悉,不同于 GPT4ROI、Ferret 等现有模型需要引入额外的 spatial prompt encoder,GROUNDHOG 可以直接和 SAM(Segment Anything)等预训练专家模型结合,从而处理位置的指代输入,进而极大拓展应用场景。

阅读时间

  • 12 分钟, 共 2325 字

分类

  • 美国密歇根大学, 中文, 大模型, 数据集, Large Language

评价和解读

  • 这篇文章作为一个引人入胜的门户,提供了对最新头条和突破性新闻的细致 的透视。作者通过深度分析和引人入胜的叙述,巧妙地穿越复杂的话题,提供既 信息性又发人深省的见解。这篇文章在解剖当今热门话题的复杂性方面的方法值得称赞, 提供了既信息性又挑战读者思考的平衡视角。通过整合各种专家意见和前沿研究, 这篇作品成为当今信息过载时代新闻报道卓越的典范。事实和叙述的无缝融合使这篇文章 不仅仅是一篇文字,而是了解现代新闻故事动态的有力工具。从政治动荡到技术进步, 文章涵盖了广泛的问题,使其成为那些希望紧跟时事和发展趋势的人的必读之选。写作引人入胜 ,通俗易懂,确保来自各个背景的读者都能欣赏到文章的深度和广度。总体而言,这篇文章是在塑造 公共话语和理解世界事务方面新闻文章的权威标杆。它对质量新闻的力量是一个必读,为读者提供了窥 探当今新闻格局和发展趋势的窗户。

正文

来源:DeepTech深科技

近期,大语言模型(Large Language Models,LLMs)已经在理解和生成自然语言上取得了空前的成功。

但是,人类依靠自己的大脑不仅仅可以读写文字,还可以看图、看视频、听音乐等。

所以,为了让 AI 更接近真实世界,将额外的模态比如图像输入,融入大语言模型从而打造多模态大模型(MLLMs,Multi-modal LLMs),被认为是 AI 发展的一个关键新领域。

相比纯文本数据,多模态数据更加难以获取,而从零开始直接训练多模态模型也比较困难。

因此,目前的主流方法是基于预训练好的大语言模型,为其配备一个视觉感知模块,来获取多模态感知能力。典型的该类模型有 Flamingo、BLIP、LLaVA、MiniGPT4 等。

这些模型可以处理图片输入,根据用户的问题生成相应的文本回复。

然而,研究发现尽管这些模型表现出不错的多模态理解能力,但是存在严重的视觉幻觉问题。

具体表现为:幻想图片中不存在的物体、回答中对图片内容的描述与事实严重不符等。

该问题的本质其实是:现有模型在细粒度文本图像匹配能力上存在缺失。

近期,Kosmos、Shikra 和 Ferret 等模型,将 Grounding 能力引入了 MLLM(即 Grounding MLLM)。

它指的是当模型在输出文本时,可以同时输出名词短语所对应物体的边界框坐标,以表示该物体在图片中的位置。

实验结果证明,此类模型具备更可靠的性能,能显著减少视觉幻觉的发生。

此外,由于模型可以更全面地呈现输出文本和文本所指物体在图片中的位置关系,因此可以给用户提供信息量更多、也更容易理解的内容输出。

然而,目前基于边界框的 Grounded MLLM 模型仍然存在几个问题:

首先,受限于长方形物体边界框的表达能力,现有模型无法进行更精细的文本实体定位。

例如,当文本所指物体是不规则的背景形状(如天空、树林)时,或者和其他物体有部分重叠或位置交错等,边界框无法准确表达所表示物体的位置,以至于容易产生歧义。

其次,受限于模型训练数据的多样性,现有模型仅限于指代单个物体,而很难生成物体局部区域、多个物体组成的整体、以及图片中文本的指代。

最后,现有模型是基于图像的隐式特征,来直接预测物体的边界框坐标。

而这一过程并不透明,当出现物体指代错误时,很难诊断问题是出在检测上——即没有成功检测到目标物体,还是出在识别上——即成功检测到物体但是识别错误。

图 | GROUNDHOG 支持的任务示例(来源:arXiv

针对这些问题,美国密歇根大学博士生张亦弛和所在团队提出了 GROUNDHOG,这是一个可以支持大型语言模型与视觉实体进行像素级语义对齐的 Grounded MLLM 模型。

图 | 张亦弛(来源:张亦弛)

对于已有的 MLLM 模型来说,其采用输入 patch-level 视觉特征后直接输出定位坐标的黑盒架构。

而 GROUNDHOG 的关键思想是将 Language Grounding(语言接地)解藕成两个阶段:定位和识别。

在定位阶段:

首先,由一个可以提出各种不同实体区域分割的专家模型,提供图像中所有实体的分割。

然后,通过一个掩码特征提取器,提取每个实体的视觉特征,以此作为多模态语言模型的输入。

在识别阶段:

当大语言模型解码出可进行视觉锚定的短语时,就会从输入的所有实体中,选择相应的实体分割进行融合,借此得到文本对应的视觉分割区域。

这种分离的设计不仅允许独立优化实体分割模型和多模态语言模型,还提高了错误分析的可解释性,并允许 MLLM 与多种视觉专家模型灵活结合,从而提高整体性能。

图 | GROUNDHOG 架构(来源:arXiv

此外,GROUNDHOG 的这种设计模式可以自然拓展到区域级的图像理解任务,能够灵活地接受任何图像中的位置和区域指代方式来作为输入。

另据悉,不同于 GPT4ROI、Ferret 等现有模型需要引入额外的 spatial prompt encoder,GROUNDHOG 可以直接和 SAM(Segment Anything)等预训练专家模型结合,从而处理位置的指代输入,进而极大拓展应用场景。

图 | 与 SAM 无缝衔接处理各种形式的位置提示输入(来源:arXiv

据了解,为了训练 GROUNDHOG,课题组整合了 27 个现有数据集的 2.5M 文本-图像对,并进行了衍生和增强。

通过此,他们组成一个名为 M3G2 的新数据集,以便用于学习多模态多粒度的视觉文本对齐能力。

M3G2 包括图文锚定描述、指代物体分割、图文锚定问答、视觉指代对话 4 大类任务,涵盖 36 种子任务,具备丰富的视觉文本对齐标注能力。

图 | M3G2 数据集的 4 种任务示例及数据统计(来源:arXiv

通过相关实验,该团队证明 GROUNDHOG 在各种视觉文本对齐任务上,都能达到很好的性能,且无需针对特定任务进行微调。

此外,GROUNDHOG 能显著减少视觉幻觉现象的出现,并在失败案例中提供了易于理解的诊断信息,为需要精确视觉理解和自然语言处理的领域的发展奠定了一定基础。

(来源:arXiv

<!–article_adlist[

日前,相关论文以《GROUNDHOG:将大型语言模型建立在整体分割的基础上》(Ligthing NewsGROUNDHOG:Grounding Large Language Models to Holistic Segmentation)为题发在 arXiv[1]。

]article_adlist–>

关于上述数据集和本次模型的详细介绍,可以参考本次论文的附录。之后,他们也会将这部分数据处理和模型训练的代码一并公开。

后续,他们希望能将 GROUDHOG 拓展到第一视角视频,打造一个能够处理视频输入的 Grounded MLLM 个人助手。

参考资料:

1.https://arxiv.org/pdf/2402.16846

排版:初嘉实

<!–article_adlist[

01/清华校友开创辐射制冷新手段,研发新型透明超材料,利用微金字塔棱镜效应实现智能光线管理

02/剑桥团队制备新型神经袖套,实现最小侵入性外周神经接口,助力治疗神经疾病和假肢控制

03/多团队联合攻关设计量子效应掺杂范式,研发p型场效应晶体管,突破二维平面晶体管集blog.byteway.net成维度限制

04/复旦团队基于机器学习开发原子模拟方法,揭Ligthing News示新的化学活性位点,推动原子级别的化学设计

05/川大团队研发高达15结的垂直腔面激光器,实现74%电光转换率,打破该领域长达二十年效率停滞局面

]article_adlist–>

Related suggestion: 调查报告: 曹亦俊任河南科技大学副校长

总结近日,河南省人民政府发布一批人事任免通知,任命曹亦俊为河南科技大学副校长(试用期一年)。 曾任郑州大学化工学院院长,现任河南科技大学副校长。 曹亦俊教授长期从事矿Ligthing News物分选过程及强化研究,针对低品质资源分选的难题,在矿物界面调控及分选…

blog.byteway.net

作者 sam

Lightning News | blog.byteway.net

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注