新的视野：预见·科技 | OpenAI发布AI文生视频工具只“动嘴”就能做出60秒视频 - Lightning News

总结

2月16日凌晨，OpenAI发布旗下首个文生视频模型Sora。这使得Sora能够处理各种持续时间、分辨率和纵横比的视频Ligthing News数据。基于这一技术，Sora还可以在单个视频中创建多个镜头，并依靠对语言的深入理解准确地解释提示词，保留角色和视觉风格。不过，这些AI大模型生成的视频与Sora相比还有一定差距，一方面是体现在持续时长上，绝大多数视频时长还在4-10秒左右，其连贯性也有所不足。例如，在剪影动画中，视频从一只狼对着月亮嚎叫，直到它找到狼群，切换了不同景别的多个镜头。

阅读时间

10 分钟, 共 1912 字

评价和解读

聚焦最新经济趋势，这篇文章提供了既富有信息量又发人深省的综合分析。作者将复杂的财经数据提炼为可消化的见解，为读者提供了对当前市场动态的清晰理解。

正文

封面新闻记者欧阳宏宇

今天凌晨，AIGC文生视频赛道又添一重磅产品。

2月16日凌晨，OpenAI发布旗下首个文生视频模型Sora。据介绍，该大模型可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。

根据该产品官网上已更新的视频demo，Sora不仅能准确呈现细节，还能在一定程度上还原物体在物理世界中的存在，并生成具有丰富情感的角色。甚至可以根据提示填补原有视频中缺失的画面。

借助AI技术，用户无需技巧就可以天马行空地制作视频。在谷歌、Meta、阿里云、百度之后，OpenAI凭借Sora正式切入文生视频赛道，输出视频的时长与质量进一步提高，标志着AIGC视频时代正加速到来。有不少网友评价说，“这么强的吗？以后有视频也未必是真相了”。

一句话生成60秒视频

现实将被彻底颠覆

喜迎龙年春节，紧跟舞龙队伍掏出手机边跟边拍的人群；雨后东京街头，一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上；城市轻轨穿越市区，车内的人物面朝窗外摆弄着手机……难以想象这些都是通过AI生成出来的视频。

SINA_TEXT_PAGE_INFO[‘videoDatas0’] = [ {
ad_state: ‘1’,
pid: ‘2’,
video_id: 524923815, //vid
pic: ‘//wx2.sinaimg.cn/orj480/007ZwuKJly1hmv9sxvla9j30zk0k0goc_220_124.jpg’, //节目列表小图
thumbUrl: ‘//wx2.sinaimg.cn/orj480/007ZwuKJly1hmv9sxvla9j30zk0k0goc.jpg’, //html5播放器上视频还未开始播显示的图片，可与pic相同
title: ”, //标题
source: ”, //视频发布来源。如：新华网。
url: ‘https://finance.sina.com.cn/tech/roll/2024-02-16/doc-inaifeke4558443.shtml’
}];
SinaPage.loadWidget({
trigger: {
id: ‘videoList0′
},
require:[
{
url: “//sjs2.sinajs.cn/video/sinaplayer/js/page/player_v1.js”
},
{
url: “//finance.sina.com.cn/other/src/sinaPageVideo2017.js”
}
],
blog.byteway.netonAfterLoad: function () {
new SinaPageVideo({
wrap:’videoList0’,//播放器外层id
videoList:SINA_TEXT_PAGE_INFO[‘videoDatas0’]
});
}
});

SINA_TEXT_PAGE_INFO[‘videoDatas1’] = [ {
ad_state: ‘1’,
pid: ‘2’,
video_id: 524923816, //vid
pic: ‘//wx3.sinaimg.cn/orj480/007ZwuKJly1hmv9swresfj30zk0k0q4m_220_124.jpg’, //节目列表小图
thumbUrl: ‘//wx3.sinaimg.cn/orj480/007ZwuKJly1hmv9swresfj30zk0k0q4m.jpg’, //html5播放器上视频还未开始播显示的图片，可与pic相同
title: ”, //标题
source: ”, //视频发布来源。如：新华网。
url: ‘https://finance.sina.com.cn/tech/roll/2024-02-16/doc-inaifeke4558443.shtml’
}];
SinaPage.loadWidget({
triggeLigthing Newsr: {
id: ‘videoList1′
},
require:[
{
url: “//sjs2.sinajs.cn/video/sinaplayer/js/page/player_v1.js”
},
{
url: “//finance.sina.com.cn/other/src/sinaPageVideo2017.js”
}
],
onAfterLoad: function () {
new SinaPageVideo({
wrap:’videoList1’,//播放器外层id
videoList:SINA_TEXT_PAGE_INFO[‘videoDatas1’]
});
}
});

SINA_TEXT_PAGE_INFO[‘videoDatas2’] = [ {
ad_state: ‘1’,
pid: ‘2’,
video_id: 524923813, //vid
pic: ‘//wx3.sinaimg.cn/orj480/007ZwuKJly1hmv9sx4abhj30nq0dc75o_220_124.jpg’, //节目列表小图
thumbUrl: ‘//wx3.sinaimg.cn/orj480/007ZwuKJly1hmv9sx4abhj30nq0dc75o.jpg’, //html5播放器上视频还未开始播显示的图片，可与pic相同
title: ”, //标题
source: ”, //视频发布来源。如：新华网。
url: ‘https://finance.sina.com.cn/tech/roll/2024-02-16/doc-inaifeke4558443.shtml’
}];
SinaPage.loadWidget({
trigger: {
id: ‘videoList2′
},
require:[
{
url: “//sjs2.sinajs.cn/video/sinaplayer/js/page/player_v1.js”
},
{
url: “//finance.sina.com.cn/other/src/sinaPageVideo2017.js”
}
],
onAfterLoad: function () {
new SinaPageVideo({
wrap:’videoList2’,//播放器外层id
videoList:SINA_TEXT_PAGE_INFO[‘videoDatas2’]
});
}
});

根据官网介绍，OpenAI正在教AI理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要现实世界交互的问题。据官方公告描述，Sora是OpenAI在语言和图像生成领域先前工作的基础上发展而来的。该产品不仅能够理解详细的提示，还能通过动作和视觉叙事重新创造出物理世界的动态。在效果上，Sora引入了流动感和连贯性，能够在不同镜头之间无缝过渡，同时保持上下文和对原始文本提示的保真度。

仔细观看demo视频可以发现，其中充满了细节：跟紧舞龙队伍的海量人物各有各的行为；雨后街头，潮湿地面反射出堪比真实世界的光影效果；行驶中的窗外偶遇遮挡时，车内人物倒影在玻璃上真实地显现……而这些细节的呈现在原始文本中是没有的。

Sora是如何实现文生视频的呢？据介绍，该大模型使用了扩散模型的技术，它可以从类似于静态噪声的视频开始，通过AI逐渐去除噪声，把各种随机像素转化为一段清晰的场景。由于该大模型建立在Transformer架构上，而这一架构又以极强的扩展性著称，所以其能够把较小数据单位的视频和图像标记（Token），通过统一的数据表达方式，在更广泛的视觉数据上训练和扩散变化。这使得Sora能够处理各种持续时间、分辨率和纵横比的视频Ligthing News数据。

基于这一技术，Sora还可以在单个视频中创建多个镜头，并依靠对语言的深入理解准确地解释提示词，保留角色和视觉风格。

不过，OpenAI也透露，Sora还并不完善，目前它还难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。比如，视频中，篮球没有正确被篮筐阻挡。

SINA_TEXT_PAGE_INFO[‘videoDatas3’] = [ {
ad_state: ‘1’,
pid: ‘2’,
video_id: 524923820, //vid
pic: ‘//wx1.sinaimg.cn/orj480/007ZwuKJly1hmv9sxzke7j30nq0dcdh6_220_124.jpg’, //节目列表小图
thumbUrl: ‘//wx1.sinaimg.cn/orj480/007ZwuKJly1hmv9sxzke7j30nq0dcdh6.jpg’, //html5播放器上视频还未开始播显示的图片，可与pic相同
title: ”, //标题
source: ”, //视频发布来源。如：新华网。
url: ‘https://finance.sina.com.cn/tech/roll/2024-02-16/doc-inaifeke4558443.shtml’
}];
SinaPage.loadWidget({
trigger: {
id: ‘videoList3′
},
require:[
{
url: “//sjs2.sinajs.cn/video/sinaplayer/js/page/player_v1.js”
},
{
url: “//finance.sina.com.cn/other/src/sinaPageVideo2017.js”
}
],
onAfterLoad: function () {
new SinaPageVideo({
wrap:’videoList3’,//播放器外层id
videoList:SINA_TEXT_PAGE_INFO[‘videoDatas3’]
});
}
});

赛道保持快速发展趋势

AI文生视频渐成风口

事实上，AI文生视频并不算一个新鲜事物。

在Sora出现之前，谷歌的Imagen和Meta的“做个视频（Make-A-Video）”已经发布了相当长一段时间。就在上月底，谷歌还新发布了AI视频大模型Lumiere，该大模型同样可以通过联合空间和时间采样来实现生成，并且也显著增加了生成视频的持续时长和质量，甚至可以将静止图像转换为动态视频。

中国造AI大模型同样早已在文生视频赛道早早布局。去年3月，阿里达摩院就放出了“文本生成视频大模型”，并在开源模型平台上对外测试。百度文心一言则在正式发布的支持多模态文本生成视频能力基础上，在去年8月又上线了文本转视频原生插件。

不过，这些AI大模型生成的视频与Sora相比还有一定差距，一方面是体现在持续时长上，绝大多数视频时长还在4-10秒左右，其连贯性也有所不足。另一方面是镜头的组合，绝大多数视频都是单镜头；而Sora已实现了在一个视频里面，多角度镜头的组合。例如，在剪影动画中，视频从一只狼对着月亮嚎叫，直到它找到狼群，切换了不同景别的多个镜头。

SINA_TEXT_PAGE_INFO[‘videoDatas4’] = [ {
ad_state: ‘1’,
pid: ‘2’,
video_id: 524923818, //vid
pic: ‘//wx4.sinaimg.cn/orj480/007ZwuKJly1hmv9svznt2j30nq0dcglz_220_124.jpg’, //节目列表小图
thumbUrl: ‘//wx4.sinaimg.cn/orj480/007ZwuKJly1hmv9svznt2j30nq0dcglz.jpg’, //html5播放器上视频还未开始播显示的图片，可与pic相同
title: ”, //标题
source: ”, //视频发布来源。如：新华网。
url: ‘https://finance.sina.com.cn/tech/roll/2024-02-16/doc-inaifeke4558443.shtml’
}];
SinaPage.loadWidget({
trigger: {
id: ‘videoList4′
},
require:[
{
url: “//sjs2.sinajs.cn/video/sinaplayer/js/page/player_v1.js”
},
{
url: “//finance.sina.com.cn/other/src/sinaPageVideo2017.js”
}
],
onAfterLoad: function () {
new SinaPageVideo({
wrap:’videoList4’,//播放器外层id
videoList:SINA_TEXT_PAGE_INFO[‘videoDatas4’]
});
}
});

AI文生视频工具逐步增强，也难怪有网友表示，“图生视频的公司感觉要被冲击了”。国盛证券研报指出，AI视频的放量也将会改变目前如电商直播、产品广告、影视制作等多个行业的生态，下游应用的加速时刻也将到来。

“AI文生视频、图生视频等赛道将会继续保持快速发展的趋势。”资深人工智能专家郭涛分析称，未来一两年内，AI生成视频领域将会出现更多的创新和突破，包括更加智能的视频生成技术、更加丰富和多样化的应用场景和更加完善、成熟的技术标准和商业模式等。同时，他也指出，这个领域也将会面临一些挑战和难点，例如数据安全和隐私保护、商业化模式和市场接受度等问题。

Related suggestion: 实时更新：他们为春运列车升级“导航”

总结【新春走基层身边暖镜头】 ◎本报记者魏依晨通讯员李翔杨子熠 1月25日0时blog.byteway.net20分，一列CRH380A型动车组穿过夜色，缓缓驶入南昌东动车组运用所。 “嗞——”随着一声制动声落下，检修台上蓄势待发的车载信号工们，不约而同地拎…

新的视野：预见·科技 | OpenAI发布AI文生视频工具只“动嘴”就能做出60秒视频

作者sam

总结

阅读时间

分类

评价和解读

正文

作者 sam

相关文章

小刀电动车：坚守科技立厂，以卓越质量守护用户出行

创新在起作用：和府捞面去年营收破25亿是增长还是下降？创始人李学林没公布利润

刚刚发布：小刀电动车引领行业新高度：航天技术赋能打造卓越质量优势

发表回复取消回复

You missed

小刀电动车：坚守科技立厂，以卓越质量守护用户出行

创新在起作用：和府捞面去年营收破25亿是增长还是下降？创始人李学林没公布利润

刚刚发布：小刀电动车引领行业新高度：航天技术赋能打造卓越质量优势

下一波浪潮：去年315 曝光企业现形记：领罚、整改与市场出局

作者sam

总结

阅读时间

分类

评价和解读

正文

作者 sam

相关文章

发表回复 取消回复

You missed

发表回复取消回复