Vidu:生数科技联合清华大学推出的AI视频生成平台

Vidu是由北京生数科技有限公司联合清华大学于2024年4月27日发布的中国首个长时长、高一致性视频大模型,是全球率先对标Sora的视频生成模型。2024年7月30日正式面向全球上线,截至2024年10月,百日内用户已突破千万。

核心技术特点

  • 原创架构:采用全球首个Diffusion与Transformer融合的U-ViT架构(2022年9月提出,早于Sora的DiT架构)
  • 生成能力:初始版本支持4秒、8秒高动态性视频(1080P分辨率),2024年6月支持32秒视频生成
  • 生成方式:采用"一步到位"的端到端生成方式,不涉及中间插帧
  • 物理模拟:能精确模拟物理规律生成光影、人物表情等细节

主要功能

  1. 文生视频:通过文字描述生成视频
  2. 图生视频:基于任意图片生成动态视频,包括:
    • "参考起始帧":以上传图片作为视频起始帧
    • "参考人物角色":保持图片中人物的一致性
  3. 参考生视频:保持角色、物体、场景等元素一致性
  4. 多镜头生成:支持远景、近景、中景、特写等镜头切换
  5. 中国元素融合:能生成熊猫、龙等中国特色元素

产品发展历程

  • 2022年9月:提出U-ViT架构(早于Sora的DiT架构)
  • 2023年3月:开源基于U-ViT架构的多模态扩散模型UniDiffuser
  • 2024年4月27日:在中关村论坛正式发布Vidu
  • 2024年6月:支持32秒视频生成、音视频合成及4D生成功能
  • 2024年9月:发布Vidu 1.5版本,新增"多主体一致性"功能
  • 2025年1月:发布Vidu 2.0,视频生成速度提升至10秒内
  • 2025年4月:发布Vidu Q1,支持1080P分辨率直出与AI音效同步生成功能
  • 2025年9月:发布Vidu Q2,专注于图生视频,聚焦"细微表情生成"技术突破

市场表现与评价

  • Vidu Q1在VBench-1.0测评中超过Runway、Sora等模型4.7分
  • 在SuperCLUE图生视频榜单的动漫与写实风格类别中均位列第一
  • 生成价格为0.3元/秒,边际成本仅为行业平均水平的60%
  • 2025年4月上线后,截至4月23日,全球已积累超过120万次生成请求

产品定位

Vidu是"中国首个自研视频大模型",性能全面对标国际顶尖水平,被清华大学人工智能研究院副院长、生数科技首席科学家朱军评价为"能够模拟真实的物理世界、具有想象力、可以理解多镜头语言、可以一键生成长达16秒的视频、人物场景时间具有高度一致性,还可以理解中国元素"。

应用场景

  • 电商产品动态展示视频(单次生成耗时低于18秒)
  • 短剧制作(自动生成包含多镜头语言与专业运镜的5秒片段)
  • 品牌广告(实现电影级画质输出,支持添加品牌定制化音效)
  • 社交媒体短视频(抖音、快手、小红书等平台的爆款内容制作)

Vidu已从最初的视频生成模型发展为AI视频创作与分发一体化平台,构建起涵盖视频生成、编辑到分发的全链路能力,致力于"让每一个普通人都能成为电影导演"。

相关导航