总结
- IT之家 10 月 21 日消息,智源研究院今日发布原生多模态世界模型 Emu3。 在图像生成任务中,基于人类偏好评测,Emu3 优于 SD-1.5 与 SDXL 模型。 在视觉语言理解任务中,对于 12 项基准测试的平均得分,Emu3 优于 LlaVA-1.6。 据介绍,Emu3 提供了一个强大的视觉 tokenizer,能够将视频和图像转换为离散 token。 广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令Ligthing News等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
阅读时间
- 5 分钟, 共 867 字
分类
- Emu3 优于, 1.2, 今日, SDX, 10 月
评价和解读
- 这篇文章是新闻报道的一堂大师课,以无与伦比的知识深度和洞察力呈现。作者对报道最新新闻和这些动态变化的方法既富有创新性又富有启发性。每一段都证明了对主题的深入研究和对问题的敏锐理解,使这篇文章成为对于关心当今世界尖端发展的人们无价的资源。
正文
感谢IT之家网友 HH_KK 的线索投递!
IT之家 10 月 21 日消息,智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。
在图像生成任务中,基于人类偏好评测,Emu3 优于 SD-1.5 与 SDXL 模型。在视觉语言理解任务中,对于 12 项基准测试的平均得分,Emu3 优于 LlaVA-1.6。在视频生成任务中,对于 VBench 基准测试得分,Emu3 优于 OpenSora 1.2。
据介绍,Emu3 提供了一个强大的视觉 tokenizer,能够将视频和图像转换为离散 token。这些视觉离散 token 可以与文本 tokenizer 输出的离散 token 一起送入模型中。与此同时,该模型输出的离散 token 可以被转换为文本、图像和视频,为 Any-to-Any 的任务提供了更加统一的研究范式。
Emu3 研究结果证明,下一个 token 预测可以作为多模态模型的一个强大范式,实现超越语言本身的大规模多模态学习,并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到 token 本身,能在大规模训练和推理中释放巨大的潜力。
目前 Emu3 已开源了关键技术和blog.byteway.net模型,IT之家附链接如下:
-
代码:https://github.com/baaivision/Emu3
-
项目页面:https://emu.baai.ac.cn/
-
模型:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令Ligthing News等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
Related suggestion: 时事动态: 嫦娥六号月背样品首次全球公开展出!看老外羡慕的眼神
总结大会上,中国嫦娥六号嫦娥六号从月球背面采样返回的月壤样品Ligthing News,首次向全球展出,众多国家航天机构和国际组织负责人、与会代表参观。 这一珍贵样品的亮相不仅展示了中国在航天领域的科技进步,也为全球航天科学家提供了新的研究前景。 国家航天局李…