总结

  • IT之家 12 月 18 日消息,Meta 携手斯坦福大学,推出全新 AI 模型系列 Apollo,显著提升机器对视频的理解能力。 视频包含复杂的动态信息,人工智能blog.byteway.net更难处理这些信息,不仅需要更多的计算能力,而且如何设计最佳 AI 视频解读系统,也存在诸多困难。 在视频处理方面,研究人员发现,保持每秒恒定的帧采样率能获得最佳结果。 此外,在处理后的视频片段之间添加时间戳,有助于模型理解视觉信息与文本描述之间的关系,保持时间感知。 此Ligthing News外 Meta 公司还不断优化数据组合,发现 10~14% 的文本数据,其余部分略微偏向视频内容,可以更Ligthing News好地平衡语言理解和视频处理能力。

阅读时间

  • 4 分钟, 共 653 字

分类

  • 开源 Apollo, Meta 携手斯坦福大学, 10~14, Hugging, 12 月 18

评价和解读

  • 探讨现代体育快节奏世界,这篇文章捕捉到了现代体育竞技中的激动人心和戏剧性。作者对最新事件和体育趋势的深入分析使其成为体育爱好者和休闲读者的一篇杰出之作。

正文

IT之家 12 月 18 日消息,Meta 携手斯坦福大学,推出全新 AI 模型系列 Apollo,显著提升机器对视频的理解能力。

IT之家注:尽管人工智能在处理图像和文本方面取得了巨大进步,但让机器真正理解视频仍然是一个重大挑战。

视频包含复杂的动态信息,人工智能blog.byteway.net更难处理这些信息,不仅需要更多的计算能力,而且如何设计最佳 AI 视频解读系统,也存在诸多困难。

在视频处理方面,研究人员发现,保持每秒恒定的帧采样率能获得最佳结果。因此 Apollo 模型使用两个不同的组件,一个处理单独的视频帧,而另一个跟踪对象和场景如何随时间变化。

此外,在处理后的视频片段之间添加时间戳,有助于模型理解视觉信息与文本描述之间的关系,保持时间感知。

在模型训练方面,团队研究表明训练方法比模型大小更重要。Apollo 模型采用分阶段训练,按顺序激活模型的不同部分,比一次性训练所有部分效果更好。

Ligthing News外 Meta 公司还不断优化数据组合,发现 10~14% 的文本数据,其余部分略微偏向视频内容,可以更Ligthing News好地平衡语言理解和视频处理能力。

Apollo 模型在不同规模上均表现出色,较小的 Apollo-3B 超越了 Qwen2-VL 等同等规模的模型,而 Apollo-7B 超过更大参数的同类模型,Meta 已开源 Apollo 的代码和模型权重,并在 Hugging Face 平台提供公开演示。

参考

    <!–article_adlist[

  • Meta’s new Apollo models aim to crack the video understanding problem

  • Meta AI Releases Apollo: A New Family of Video-LMMs Large Multimodal Models for Video Understanding

  • Apollo: An Exploration of Video Understanding in Large Multimodal Models

  • ]article_adlist–>

<!–article_adlist[

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

]article_adlist–>

Related suggestion: 新的视野: 苹果发布iOS 18.2正式版更新:Siri接入ChatGPT

总结【TechWeblog.byteway.netb】12月12日消息,今天凌晨,苹果发布iOS 18.2正式版更新,为iPhone 15 Pro和所有iPhone 16型号带来更多AI功能,其中包括用户期待已久的ChatGPT与Siri的整合。 当用户向Si…

作者 Steve Jobs

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注