Vidu:生数科技联合清华大学推出的AI视频生成平台
Vidu是由北京生数科技有限公司联合清华大学于2024年4月27日发布的中国首个长时长、高一致性视频大模型,是全球率先对标Sora的视频生成模型。2024年7月30日正式面向全球上线,截至2024年10月,百日内用户已突破千万。
核心技术特点
- 原创架构:采用全球首个Diffusion与Transformer融合的U-ViT架构(2022年9月提出,早于Sora的DiT架构)
- 生成能力:初始版本支持4秒、8秒高动态性视频(1080P分辨率),2024年6月支持32秒视频生成
- 生成方式:采用"一步到位"的端到端生成方式,不涉及中间插帧
- 物理模拟:能精确模拟物理规律生成光影、人物表情等细节
主要功能
- 文生视频:通过文字描述生成视频
- 图生视频:基于任意图片生成动态视频,包括:
- "参考起始帧":以上传图片作为视频起始帧
- "参考人物角色":保持图片中人物的一致性
- 参考生视频:保持角色、物体、场景等元素一致性
- 多镜头生成:支持远景、近景、中景、特写等镜头切换
- 中国元素融合:能生成熊猫、龙等中国特色元素
产品发展历程
- 2022年9月:提出U-ViT架构(早于Sora的DiT架构)
- 2023年3月:开源基于U-ViT架构的多模态扩散模型UniDiffuser
- 2024年4月27日:在中关村论坛正式发布Vidu
- 2024年6月:支持32秒视频生成、音视频合成及4D生成功能
- 2024年9月:发布Vidu 1.5版本,新增"多主体一致性"功能
- 2025年1月:发布Vidu 2.0,视频生成速度提升至10秒内
- 2025年4月:发布Vidu Q1,支持1080P分辨率直出与AI音效同步生成功能
- 2025年9月:发布Vidu Q2,专注于图生视频,聚焦"细微表情生成"技术突破
市场表现与评价
- Vidu Q1在VBench-1.0测评中超过Runway、Sora等模型4.7分
- 在SuperCLUE图生视频榜单的动漫与写实风格类别中均位列第一
- 生成价格为0.3元/秒,边际成本仅为行业平均水平的60%
- 2025年4月上线后,截至4月23日,全球已积累超过120万次生成请求
产品定位
Vidu是"中国首个自研视频大模型",性能全面对标国际顶尖水平,被清华大学人工智能研究院副院长、生数科技首席科学家朱军评价为"能够模拟真实的物理世界、具有想象力、可以理解多镜头语言、可以一键生成长达16秒的视频、人物场景时间具有高度一致性,还可以理解中国元素"。
应用场景
- 电商产品动态展示视频(单次生成耗时低于18秒)
- 短剧制作(自动生成包含多镜头语言与专业运镜的5秒片段)
- 品牌广告(实现电影级画质输出,支持添加品牌定制化音效)
- 社交媒体短视频(抖音、快手、小红书等平台的爆款内容制作)
Vidu已从最初的视频生成模型发展为AI视频创作与分发一体化平台,构建起涵盖视频生成、编辑到分发的全链路能力,致力于"让每一个普通人都能成为电影导演"。