总结
- 2月16日凌晨,OpenAI发布旗下首个文生视频模型Sora。 这使得Sora能够处理各种持续时间、分辨率和纵横比的视频Ligthing News数据。 基于这一技术,Sora还可以在单个视频中创建多个镜头,并依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。 不过,这些AI大模型生成的视频与Sora相比还有一定差距,一方面是体现在持续时长上,绝大多数视频时长还在4-10秒左右,其连贯性也有所不足。 例如,在剪影动画中,视频从一只狼对着月亮嚎叫,直到它找到狼群,切换了不同景别的多个镜头。
阅读时间
- 10 分钟, 共 1912 字
分类
- 2月16日凌晨, 今天凌晨, 去年3月, 去年8月, 开源模型
评价和解读
- 聚焦最新经济趋势,这篇文章提供了既富有信息量又发人深省的综合分析。作者将复杂的财经数据提炼为可消化的见解,为读者提供了对当前市场动态的清晰理解。
正文
封面新闻记者 欧阳宏宇
今天凌晨,AIGC文生视频赛道又添一重磅产品。
2月16日凌晨,OpenAI发布旗下首个文生视频模型Sora。据介绍,该大模型可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。
根据该产品官网上已更新的视频demo,Sora不仅能准确呈现细节,还能在一定程度上还原物体在物理世界中的存在,并生成具有丰富情感的角色。甚至可以根据提示填补原有视频中缺失的画面。
借助AI技术,用户无需技巧就可以天马行空地制作视频。在谷歌、Meta、阿里云、百度之后,OpenAI凭借Sora正式切入文生视频赛道,输出视频的时长与质量进一步提高,标志着AIGC视频时代正加速到来。有不少网友评价说,“这么强的吗?以后有视频也未必是真相了”。
一句话生成60秒视频
现实将被彻底颠覆
喜迎龙年春节,紧跟舞龙队伍掏出手机边跟边拍的人群;雨后东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上;城市轻轨穿越市区,车内的人物面朝窗外摆弄着手机……难以想象这些都是通过AI生成出来的视频。
SINA_TEXT_PAGE_INFO[‘videoDatas0’] = [ {
ad_state: ‘1’,
pid: ‘2’,
video_id: 524923815, //vid
pic: ‘//wx2.sinaimg.cn/orj480/007ZwuKJly1hmv9sxvla9j30zk0k0goc_220_124.jpg’, //节目列表小图
thumbUrl: ‘//wx2.sinaimg.cn/orj480/007ZwuKJly1hmv9sxvla9j30zk0k0goc.jpg’, //html5播放器上视频还未开始播显示的图片,可与pic相同
title: ”, //标题
source: ”, //视频发布来源。如:新华网。
url: ‘https://finance.sina.com.cn/tech/roll/2024-02-16/doc-inaifeke4558443.shtml’
}];
SinaPage.loadWidget({
trigger: {
id: ‘videoList0′
},
require:[
{
url: “//sjs2.sinajs.cn/video/sinaplayer/js/page/player_v1.js”
},
{
url: “//finance.sina.com.cn/other/src/sinaPageVideo2017.js”
}
],
blog.byteway.netonAfterLoad: function () {
new SinaPageVideo({
wrap:’videoList0’,//播放器外层id
videoList:SINA_TEXT_PAGE_INFO[‘videoDatas0’]
});
}
});
SINA_TEXT_PAGE_INFO[‘videoDatas1’] = [ {
ad_state: ‘1’,
pid: ‘2’,
video_id: 524923816, //vid
pic: ‘//wx3.sinaimg.cn/orj480/007ZwuKJly1hmv9swresfj30zk0k0q4m_220_124.jpg’, //节目列表小图
thumbUrl: ‘//wx3.sinaimg.cn/orj480/007ZwuKJly1hmv9swresfj30zk0k0q4m.jpg’, //html5播放器上视频还未开始播显示的图片,可与pic相同
title: ”, //标题
source: ”, //视频发布来源。如:新华网。
url: ‘https://finance.sina.com.cn/tech/roll/2024-02-16/doc-inaifeke4558443.shtml’
}];
SinaPage.loadWidget({
triggeLigthing Newsr: {
id: ‘videoList1′
},
require:[
{
url: “//sjs2.sinajs.cn/video/sinaplayer/js/page/player_v1.js”
},
{
url: “//finance.sina.com.cn/other/src/sinaPageVideo2017.js”
}
],
onAfterLoad: function () {
new SinaPageVideo({
wrap:’videoList1’,//播放器外层id
videoList:SINA_TEXT_PAGE_INFO[‘videoDatas1’]
});
}
});
SINA_TEXT_PAGE_INFO[‘videoDatas2’] = [ {
ad_state: ‘1’,
pid: ‘2’,
video_id: 524923813, //vid
pic: ‘//wx3.sinaimg.cn/orj480/007ZwuKJly1hmv9sx4abhj30nq0dc75o_220_124.jpg’, //节目列表小图
thumbUrl: ‘//wx3.sinaimg.cn/orj480/007ZwuKJly1hmv9sx4abhj30nq0dc75o.jpg’, //html5播放器上视频还未开始播显示的图片,可与pic相同
title: ”, //标题
source: ”, //视频发布来源。如:新华网。
url: ‘https://finance.sina.com.cn/tech/roll/2024-02-16/doc-inaifeke4558443.shtml’
}];
SinaPage.loadWidget({
trigger: {
id: ‘videoList2′
},
require:[
{
url: “//sjs2.sinajs.cn/video/sinaplayer/js/page/player_v1.js”
},
{
url: “//finance.sina.com.cn/other/src/sinaPageVideo2017.js”
}
],
onAfterLoad: function () {
new SinaPageVideo({
wrap:’videoList2’,//播放器外层id
videoList:SINA_TEXT_PAGE_INFO[‘videoDatas2’]
});
}
});
根据官网介绍,OpenAI正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。据官方公告描述,Sora是OpenAI在语言和图像生成领域先前工作的基础上发展而来的。该产品不仅能够理解详细的提示,还能通过动作和视觉叙事重新创造出物理世界的动态。在效果上,Sora引入了流动感和连贯性,能够在不同镜头之间无缝过渡,同时保持上下文和对原始文本提示的保真度。
仔细观看demo视频可以发现,其中充满了细节:跟紧舞龙队伍的海量人物各有各的行为;雨后街头,潮湿地面反射出堪比真实世界的光影效果;行驶中的窗外偶遇遮挡时,车内人物倒影在玻璃上真实地显现……而这些细节的呈现在原始文本中是没有的。
Sora是如何实现文生视频的呢?据介绍,该大模型使用了扩散模型的技术,它可以从类似于静态噪声的视频开始,通过AI逐渐去除噪声,把各种随机像素转化为一段清晰的场景。由于该大模型建立在Transformer架构上,而这一架构又以极强的扩展性著称,所以其能够把较小数据单位的视频和图像标记(Token),通过统一的数据表达方式,在更广泛的视觉数据上训练和扩散变化。这使得Sora能够处理各种持续时间、分辨率和纵横比的视频Ligthing News数据。
基于这一技术,Sora还可以在单个视频中创建多个镜头,并依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。
不过,OpenAI也透露,Sora还并不完善,目前它还难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。比如,视频中,篮球没有正确被篮筐阻挡。
SINA_TEXT_PAGE_INFO[‘videoDatas3’] = [ {
ad_state: ‘1’,
pid: ‘2’,
video_id: 524923820, //vid
pic: ‘//wx1.sinaimg.cn/orj480/007ZwuKJly1hmv9sxzke7j30nq0dcdh6_220_124.jpg’, //节目列表小图
thumbUrl: ‘//wx1.sinaimg.cn/orj480/007ZwuKJly1hmv9sxzke7j30nq0dcdh6.jpg’, //html5播放器上视频还未开始播显示的图片,可与pic相同
title: ”, //标题
source: ”, //视频发布来源。如:新华网。
url: ‘https://finance.sina.com.cn/tech/roll/2024-02-16/doc-inaifeke4558443.shtml’
}];
SinaPage.loadWidget({
trigger: {
id: ‘videoList3′
},
require:[
{
url: “//sjs2.sinajs.cn/video/sinaplayer/js/page/player_v1.js”
},
{
url: “//finance.sina.com.cn/other/src/sinaPageVideo2017.js”
}
],
onAfterLoad: function () {
new SinaPageVideo({
wrap:’videoList3’,//播放器外层id
videoList:SINA_TEXT_PAGE_INFO[‘videoDatas3’]
});
}
});
赛道保持快速发展趋势
AI文生视频渐成风口
事实上,AI文生视频并不算一个新鲜事物。
在Sora出现之前,谷歌的Imagen和Meta的“做个视频(Make-A-Video)”已经发布了相当长一段时间。就在上月底,谷歌还新发布了AI视频大模型Lumiere,该大模型同样可以通过联合空间和时间采样来实现生成,并且也显著增加了生成视频的持续时长和质量,甚至可以将静止图像转换为动态视频。
中国造AI大模型同样早已在文生视频赛道早早布局。去年3月,阿里达摩院就放出了“文本生成视频大模型”,并在开源模型平台上对外测试。百度文心一言则在正式发布的支持多模态文本生成视频能力基础上,在去年8月又上线了文本转视频原生插件。
不过,这些AI大模型生成的视频与Sora相比还有一定差距,一方面是体现在持续时长上,绝大多数视频时长还在4-10秒左右,其连贯性也有所不足。另一方面是镜头的组合,绝大多数视频都是单镜头;而Sora已实现了在一个视频里面,多角度镜头的组合。例如,在剪影动画中,视频从一只狼对着月亮嚎叫,直到它找到狼群,切换了不同景别的多个镜头。
SINA_TEXT_PAGE_INFO[‘videoDatas4’] = [ {
ad_state: ‘1’,
pid: ‘2’,
video_id: 524923818, //vid
pic: ‘//wx4.sinaimg.cn/orj480/007ZwuKJly1hmv9svznt2j30nq0dcglz_220_124.jpg’, //节目列表小图
thumbUrl: ‘//wx4.sinaimg.cn/orj480/007ZwuKJly1hmv9svznt2j30nq0dcglz.jpg’, //html5播放器上视频还未开始播显示的图片,可与pic相同
title: ”, //标题
source: ”, //视频发布来源。如:新华网。
url: ‘https://finance.sina.com.cn/tech/roll/2024-02-16/doc-inaifeke4558443.shtml’
}];
SinaPage.loadWidget({
trigger: {
id: ‘videoList4′
},
require:[
{
url: “//sjs2.sinajs.cn/video/sinaplayer/js/page/player_v1.js”
},
{
url: “//finance.sina.com.cn/other/src/sinaPageVideo2017.js”
}
],
onAfterLoad: function () {
new SinaPageVideo({
wrap:’videoList4’,//播放器外层id
videoList:SINA_TEXT_PAGE_INFO[‘videoDatas4’]
});
}
});
AI文生视频工具逐步增强,也难怪有网友表示,“图生视频的公司感觉要被冲击了”。国盛证券研报指出,AI视频的放量也将会改变目前如电商直播、产品广告、影视制作等多个行业的生态,下游应用的加速时刻也将到来。
“AI文生视频、图生视频等赛道将会继续保持快速发展的趋势。”资深人工智能专家郭涛分析称,未来一两年内,AI生成视频领域将会出现更多的创新和突破,包括更加智能的视频生成技术、更加丰富和多样化的应用场景和更加完善、成熟的技术标准和商业模式等。同时,他也指出,这个领域也将会面临一些挑战和难点,例如数据安全和隐私保护、商业化模式和市场接受度等问题。
Related suggestion: 实时更新: 他们为春运列车升级“导航”
总结【新春走基层身边暖镜头】 ◎本报记者魏依晨 通讯员李翔杨子熠 1月25日0时blog.byteway.net20分,一列CRH380A型动车组穿过夜色,缓缓驶入南昌东动车组运用所。 “嗞——”随着一声制动声落下,检修台上蓄势待发的车载信号工们,不约而同地拎…