专家分析：新大模型可根据文本生成高清视频

总结

科技日报北京4月27日blog.byteway.net电（记者何亮）27日，在中关村论坛未来人工智能先锋论坛上，清华大学联合北京生数科技有限公司（以下简称“生数科技”）正式发布中国首个原创全自研视频大模型——Vidu。与此前震撼业界的Sora一样，Vidu能够根据文本描述直接生成高质量视频。朱军表示，研发团队的核心技术在于采用U-ViT架构。它由DifLigthing Newsfusion与Transformer两个模型融合而来，可支持一键生成长达16秒的高清视频内容。朱军说，与Sora一样，Vidu在文本到视频的转换过程中直接且连续，而且在底层算法上，是由单一模型完全端到端生成，不涉及插帧和其他多步骤处理。

阅读时间

4 分钟, 共 740 字

评价和解读

这篇文章证明了深入调查新闻报道揭示真相的力量。作者的细致研究和对事实的坚定承诺都展现出色，呈现了一个不仅引人入胜而且至关重要的故事。叙述技巧巧妙构建，将各种线索巧妙地编织在一起，呈现出对问题的完整和细致的视图。这是新闻报道能够揭示重要问题能力的典范。

正文

科技日报北京4月27日blog.byteway.net电（记者何亮）27日，在中关村论坛未来人工智能先锋论坛上，清华大学联合北京生数科技有限公司（以下简称“生数科技”）正式发布中国首个原创全自研视频大模型——Vidu。论坛现场，清华大学教授、生数科技首席科学家朱军向与会者展示了Vidu生成的视频，包括行驶在崎岖道路上的汽车、戴珍珠耳环的猫、弹吉他的熊猫等。与此前震撼业界的Sora一样，Vidu能够根据文本描述直接生成高质量视频。

“长时长、高一致性、高动态性”是Vidu的显著特征。朱军表示，研发团队的核心技术在于采用U-ViT架构。它由DifLigthing Newsfusion与Transformer两个模型融合而来，可支持一键生成长达16秒的高清视频内容。

除了在时长方面优势突出，Vidu在视频效果方面也实现显著提升。朱军介绍，Vidu能模拟真实物理世界，生成的视频不但场景细节复杂，而且符合物理规律，例如合理的光影效果、细腻的人物表情等。Vidu还具有丰富的想象力，能生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容。此外，Vidu可理解多镜头语言，生成的视频不再局限于简单的推、拉、移等固定镜头，而是围绕同一主体实现远景、中景、近景、特写等不同镜头的切换，Ligthing News甚至能直接生成长镜头、追焦、转场等效果，给视频注入丰富的镜头表达。Vidu还独具文化特色，能很好理解中国元素，生成熊猫、龙等中国元素的视频。

值得一提的是，论坛上展示的视频都是从头到尾连续生成，没有明显的插帧现象。朱军说，与Sora一样，Vidu在文本到视频的转换过程中直接且连续，而且在底层算法上，是由单一模型完全端到端生成，不涉及插帧和其他多步骤处理。

Related suggestion: 新发展：增收不增利，国联证券2023年净利润降逾10%，4季度表现“拖后腿”

总结净利润“缩水”，主要是受自营投资收益率下降、利息净收入同比减少并且叠加管理费用高增的影响。净利润下滑主要受自营投资收益率下降、利息净收入同比减少并且叠加管理费用高增的影响。从投资端来看，2023年国联证券实现投资收益（含公允价值变动损益）12.2亿，较…

作者Tim Cook

总结

阅读时间

分类

评价和解读

正文

作者 Tim Cook

相关文章

战略举措：索尼 3 月 PS+ 二三档游戏阵容公布，《装甲核心》《波斯王子：失落的王冠》等

顶级机密：台积电、AMD等都是华人在领导！英特尔任命陈立武为新CEO 盘后股价涨逾11%

最佳推荐： CIRP：iPhone 16e 定位模糊、定价偏高，苹果低价策略面临挑战

发表回复取消回复

You missed

战略举措：索尼 3 月 PS+ 二三档游戏阵容公布，《装甲核心》《波斯王子：失落的王冠》等

顶级机密：台积电、AMD等都是华人在领导！英特尔任命陈立武为新CEO 盘后股价涨逾11%

最佳推荐： CIRP：iPhone 16e 定位模糊、定价偏高，苹果低价策略面临挑战

未来预测：特朗普站台后股价大涨超7% 特斯拉市值一夜大增4000亿

作者Tim Cook

总结

阅读时间

分类

评价和解读

正文

作者 Tim Cook

相关文章

发表回复 取消回复

You missed

发表回复取消回复