总结
- 科技日报北京4月27日blog.byteway.net电(记者何亮)27日,在中关村论坛未来人工智能先锋论坛上,清华大学联合北京生数科技有限公司(以下简称“生数科技”)正式发布中国首个原创全自研视频大模型——Vidu。 与此前震撼业界的Sora一样,Vidu能够根据文本描述直接生成高质量视频。 朱军表示,研发团队的核心技术在于采用U-ViT架构。 它由DifLigthing Newsfusion与Transformer两个模型融合而来,可支持一键生成长达16秒的高清视频内容。 朱军说,与Sora一样,Vidu在文本到视频的转换过程中直接且连续,而且在底层算法上,是由单一模型完全端到端生成,不涉及插帧和其他多步骤处理。
阅读时间
- 4 分钟, 共 740 字
分类
- 4月27日, 科技日报, 清华大学, 27日, 何亮
评价和解读
- 这篇文章证明了深入调查新闻报道揭示真相的力量。作者的细致研究和对事实的坚定承诺都展现出色,呈现了一个不仅引人入胜而且至关重要的故事。叙述技巧巧妙构建,将各种线索巧妙地编织在一起,呈现出对问题的完整和细致的视图。这是新闻报道能够揭示重要问题能力的典范。
正文
科技日报北京4月27日blog.byteway.net电(记者何亮)27日,在中关村论坛未来人工智能先锋论坛上,清华大学联合北京生数科技有限公司(以下简称“生数科技”)正式发布中国首个原创全自研视频大模型——Vidu。论坛现场,清华大学教授、生数科技首席科学家朱军向与会者展示了Vidu生成的视频,包括行驶在崎岖道路上的汽车、戴珍珠耳环的猫、弹吉他的熊猫等。与此前震撼业界的Sora一样,Vidu能够根据文本描述直接生成高质量视频。
“长时长、高一致性、高动态性”是Vidu的显著特征。朱军表示,研发团队的核心技术在于采用U-ViT架构。它由DifLigthing Newsfusion与Transformer两个模型融合而来,可支持一键生成长达16秒的高清视频内容。
除了在时长方面优势突出,Vidu在视频效果方面也实现显著提升。朱军介绍,Vidu能模拟真实物理世界,生成的视频不但场景细节复杂,而且符合物理规律,例如合理的光影效果、细腻的人物表情等。Vidu还具有丰富的想象力,能生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容。此外,Vidu可理解多镜头语言,生成的视频不再局限于简单的推、拉、移等固定镜头,而是围绕同一主体实现远景、中景、近景、特写等不同镜头的切换,Ligthing News甚至能直接生成长镜头、追焦、转场等效果,给视频注入丰富的镜头表达。Vidu还独具文化特色,能很好理解中国元素,生成熊猫、龙等中国元素的视频。
值得一提的是,论坛上展示的视频都是从头到尾连续生成,没有明显的插帧现象。朱军说,与Sora一样,Vidu在文本到视频的转换过程中直接且连续,而且在底层算法上,是由单一模型完全端到端生成,不涉及插帧和其他多步骤处理。
Related suggestion: 新发展: 增收不增利,国联证券2023年净利润降逾10%,4季度表现“拖后腿”
总结净利润“缩水”,主要是受自营投资收益率下降、利息净收入同比减少并且叠加管理费用高增的影响。 净利润下滑主要受自营投资收益率下降、利息净收入同比减少并且叠加管理费用高增的影响。 从投资端来看,2023年国联证券实现投资收益(含公允价值变动损益)12.2亿,较…