总结

  • ”对于自己和同事研发的文生视频模型,上海人工智能实验室研究员王耀晖表示。 同时,视频生成技术作为潜在的“世界模拟器”,或许能和其他学科形成交叉影响,从而用于自动驾驶、机器人、AI4Science 等领域。 据介绍,基于机器学习的视频生成技术,一直是王耀晖的研究方向,从 2018 年在法国国家信息与自动化研究所读博开始,他就开始研究如何通过设计机器学习方法来生成逼真视频。 据了解,领域内关于扩散模型的一些初期工作,比如 DDPM、Stable Diffusion 等都是基于 UNet 网络设计。 这也坚定了王耀晖等人沿着上述技术路线,设计视频 DiT 模型的想法。

阅读时间

  • 11 分钟, 共 2137 字

分类

  • 开源代码, 上海人工智能实验室, Stable Diffusion, 国家信息与自动化研究所, net图

评价和解读

  • 一篇深刻而彻底的分析,在探讨这个及时话题时没有留下任何石头。作者 深入挖掘,发现了主流讨论中经常被忽视的细微差别。每个段落都建立在上一个 基础上,创造了丰富的信息和引人入胜的叙述。作者在剖析和呈现多面观点方面 的专业知识为读者提供了一个有价值的视角。

正文

Ligthing News

来源:DeepTech深科技

“有点遗憾的是,从 Sora 所放出的技术报告来看,OpenAI 的整体设计和我们的成果遵循了相似的技术路线,如果我们能拥有同等级别的计算规模,会不会 Sora 就可以诞生在中国了(苦笑)。”对于自己和同事研发的文生视频模型,上海人工智能实验室研究员王耀晖表示。

<!–article_adlist[

图 | 王耀晖(来源:王耀晖)

]article_adlist–>

2023 年 11 月,王耀晖等人将代码加以开源,并于 2024 年 1 月将论文放在网上。

他说:“当时受到的关注并不算多,直到 Sora 的出现人们才发现原来我们已经开源了类似工作。”

“据我了解,我们的成果是世界上第一个开源的文生视频 DiT 模型,目前大部分复现 Sora 的 open-sora 工作,都参考了我们的开源代码和模型设计。”王耀晖说。

他继续表示:“其实这也是我一直所坚持的观点,好的研究要超出目前人们的认知去定义未来。”

图 | 王耀晖使用自己的模型生成的内容(来源:arXiv

研究中,他和同事通过大规模的实验,论证了视频 DiT 模型的可行性,并给出了一系列的模型结构设计与训练优化方法,最终证明本次模型具有通用的能力。

目前,视频生成的应用集中在社交、影视、教育、广告等行业。

利用本次模型王耀晖等人已经可以制作简单的短视频广告、电影宣传片等。

随着本次技术的慢慢成熟,预计视频生成技术会成为影视制作的重要辅助工具,助力于减少制作成本。

同时,视频生成技术作为潜在的“世界模拟器”,或许能和其他学科形成交叉影响,从而用于自动驾驶、机器人、AI4Science 等领域。

据介绍,基于机器学习的视频生成技术,一直是王耀晖的研究方向,从 2018 年在法国国家信息与自动化研究所读博开始,他就开始研究如何通过设计机器学习方法来生成逼真视频。

在当时,GAN 是生成模型中最有效的方法,因此他在读博期间的所有工作都是基于 GAN 开展。

当时,他的一系列工作曾定义了关于视频生成的一些基础任务,也设计了一些网络结构和学习方法。

王耀晖表示:“我在当时的很多设计,也成了目前视频生成模型所使用的一些基本技术,但是因为太过古早,可能目前很多人并不了解。”

回国之后,扩散模型与通用人工智能逐渐兴起,他便将之前在 GAN 上的积累,慢慢地转移设计视频扩散模型。

一开始,他主要生成一些专有内容比如人脸的视频,后来开始尝试生成关于人体的视频,目前则致力于解决通用视频生成的现有问题。

据了解,领域内关于扩散模型的一些初期工作,比如 DDPM、Stable Diffusion 等都是基于 UNet 网络设计。

而当下是一个大模型能力涌现的时代,在设计模型时往往需要展现出潜在的 Scalability 能力,这时 UNet 结构就无法再顺应时代发展。

所以,王耀晖和同事一直在思考,是否可以像大语言模型那样,设计出基于 Transformer 的通用扩散模型,从而实现大规模的视频生成?

当王耀晖等人正在构思上述课题的时候,Sora 的相关论文的作者之一比尔皮布尔斯(Bill Peebles),发表了使用 DiT(Diffusion Transformer)进行图像生成的论文。

这也坚定了王耀晖等人沿着上述技术路线,设计视频 DiT 模型的想法。

事实上,王耀晖想要解决的问题很简单:即希望将 Transformer 的结构用于视频扩散模型之中,从而让模型具备通用性,进而能在超大规模算力和数据加持下,实现持续的扩展性。

与此同时,他们希望在视频生成模型中也能观察到一些能力的涌现,并探寻出类似于大语言模型中的 Scaling Law。

然而,文生视频比文生blog.byteway.net图更加复杂。并且在时空层面上,文生视频需要使用结构化程度更高的的数据形式。

因此,如何设计模型结构和学习方法,让模型能够很好地学习时空分布,并能生成高质量内容一直一个难题。

2022 年,课题组预见到在视频生成一定也会和大模型一样朝着 Transformer 这种架构去发展,那时他们就已经决定去设计视频 DiT。

通过结合王耀晖在研究 GAN 时积累的经验、以及在视频理解问题上所积累的知识,他和同事首先设计了基本的模型结构大框架,并在小规模数据上开展实验。

由于没有可以明确参考的前期工作,课题组并不知道所构想的模型是否有效。

为此,他们花费大量时间尝试证明视频 DiT 结构在模型结构上的可行性,也提出了好几种模型变体。

(来源:arXiv

下一步,王耀晖等人会着重致力于提高模型的效率。

同时,他们还计划进行生成模型方法的创新。目前,他们是通过实验解决问题,后续希望能探究出一些系统性理论依据来指导实验。

另据悉,王耀晖从读博起就一直很喜欢物理学家理查德费曼(Richard Feynman)的一句话“What I cannot create,I do not understand。”

因此,他希望可以通过视频生成这一技术,更好地重建和生成世界,进而理解世界运行的基本规律。

参考资料:

1.https://arxiv.org/pdf/2401.03048v1

排版:刘雅坤

<!–article_adlist[

01/科学家用二氧化碳合成多碳醇,已完成8000小时稳定性评价,助力缓解过度依赖化石资源

02/科学家制备梯度石墨烯气凝胶,实现高浓度盐水持续淡化,并构建太阳能脱盐灌溉系统

03/AlphaFold3来了!无需输入任何结构信息,生物分子预测精度高出50%

04/科学家研发高熵合金纳米颗粒,尺寸在3.5纳米左右,能模拟太阳光条件下的二氧化碳还原

05/揭开化学反应“黑匣子”,杨学明院士团队联合发展控制氢分子立体取向新方法,精准调控化学反应

]article_adlist–>

Ligthing News

Related suggestion: 新策略大幅提升有机污染物降解效率

本报讯(见习记者江庆龄)同济大学环境科学与工程学院教授凌岚团队提出了一种净化水体中有机污染物的全新解决Ligthing News方案——通过光催化生成自由基的选择性调控,大大提升了污染物的降解效率。相关研究近日在线发表于美国《国家科学院院刊》。 光催化分子氧活…

作者 Tim Cook

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注