中国创业公司发布类似 Sora 的文本视频模型 Vidu
2024-4-29 18:40:12 Author: www.solidot.org(查看原文) 阅读量:0 收藏

清华大学联合生数科技发布了 Sora 的文本视频生成模型 Vidu。该模型采用 Diffusion 与 Transformer 融合的架构 U-ViT,支持一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。Vidu不仅能模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。清华大学教授、生数科技首席科学家朱军表示,与 Sora一致,Vidu 能够根据提供的文本描述直接生成长达 16 秒的高质量视频。除了在时长方面的突破外,Vidu 在视频效果方面实现显著提升,主要体现在模拟真实物理世界、多镜头语言、时空一致性高、理解中国元素等方面。朱军表示,Vidu 的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术 U-ViT 架构由团队于 2022 年 9 月提出,早于 Sora 采用的 DiT 架构,是全球首个 Diffusion 与Transformer 融合的架构,完全由团队自主研发。目前使用 Vidu 需要申请。

https://www.shengshu-ai.com/home
https://www.thepaper.cn/newsDetail_forward_27190053


文章来源: https://www.solidot.org/story?sid=78043
如有侵权请联系:admin#unsafe.sh