跳到主要内容

文生视频技术

文本生成视频(Text-to-Video)是 AI 生成内容领域的前沿方向,能够根据文字描述或图像生成连贯的动态视频。2024 年 Sora 的发布震撼了业界,随后国内外厂商密集跟进,文生视频赛道进入爆发期。

Sora:开创新范式

Sora(OpenAI,2024 年 2 月技术展示,2024 年 12 月正式发布)是文生视频领域的划时代作品,生成的视频质量远超此前所有公开模型。

技术架构:Diffusion Transformer

Sora 的核心创新是将图像生成中的 Diffusion Transformer(DiT) 架构扩展到视频域:

  • 视觉块(Visual Patches):将视频帧切分为时空 Patch(Spacetime Patches),同时处理空间(x,y)和时间(t)维度
  • Transformer 去噪:用 Transformer 替换传统 UNet,实现更好的全局一致性
  • 可变分辨率/帧率:同一模型可生成不同分辨率、不同帧率、不同时长的视频

时空一致性

Sora 展示了前所未有的时空一致性:

  • 摄像机移动时,场景的三维结构保持一致
  • 人物在帧间保持外观一致性
  • 物理现象(光照变化、液体流动、碰撞)符合直觉

这得益于模型在极大规模多样视频数据上的训练,以及 DiT 架构对全局信息的建模能力。

现实局限

尽管震撼,Sora 仍存在明显局限:

  • 长视频(>1 分钟)的前后一致性下降
  • 复杂物理交互(如手部操作物体)仍有错误
  • 精细指令遵循能力有限("摄像机从左向右平移"等导演意图难以精确控制)
  • 生成速度慢,成本高

技术挑战

文生视频比文生图难得多,核心挑战包括:

时序一致性

视频是时间序列,前后帧必须在语义和外观上连贯。挑战:

  • 人物/物体在运动过程中的外观一致性(Identity Consistency)
  • 摄像机运动时的透视变化正确性
  • 长视频中的情节逻辑连贯性

物理规律符合性

生成的视频应符合基本物理直觉:

  • 流体动力学(水流、烟雾、火焰)
  • 刚体碰撞(球体弹跳、玻璃破碎)
  • 布料模拟(衣物随风飘动)

当前模型通过大量视频数据隐式学习物理规律,而非真正的物理仿真,因此在复杂场景中常出现"物理 Bug"。

长视频生成

目前主流模型单次生成时长限制在 5-10 秒,更长视频面临:

  • 计算量随时长线性增长(甚至更快)
  • 全局故事情节的保持需要超长上下文理解
  • 分段生成再拼接存在连接处不自然问题

国内外主要产品

国内产品

Kling(可灵,快手,2024)

  • 最长支持生成 5 分钟视频(业内领先)
  • 支持文生视频和图生视频
  • 物理效果(流体、布料)表现出色
  • 通过可灵 API 开放商业调用
  • 运动幅度控制:支持"高动态"和"普通"模式

Wan(万象,阿里,2025)

  • 阿里通义系列的文生视频产品
  • 2025 年发布的 Wan2.1 开源版本在社区引发广泛关注
  • 提供开源模型权重(1.3B 和 14B 版本)
  • 在细节质量和运动合理性上表现优秀

CogVideoX(智谱,2024)

  • 清华智谱 AI 的文生视频开源模型
  • CogVideoX-5B 和 CogVideoX-2B 在 Hugging Face 开源
  • 支持文生视频、图生视频
  • 在开源社区中广泛用于研究和应用开发

即梦(字节跳动)/ 海螺 AI(MiniMax)

  • 国内多个视频生成平台竞相推出,产品迭代迅速

国外产品

Runway Gen-3 Alpha(2024)

  • 专业视频创作工具,面向影视制作者
  • 支持文生视频、图生视频、视频扩展(Video-to-Video)
  • 精细的摄像机运动控制(推、拉、摇、移)
  • 在好莱坞和广告制作领域有实际应用

Pika 2.0(2024)

  • 强调易用性和创意功能
  • Pikaffects:创意特效(爆炸、融化、泡泡等)
  • Scene composition:支持多段视频合成
  • 面向内容创作者和社交媒体

Luma Dream Machine(2024)

  • 快速生成(约 2 分钟生成 5 秒视频)
  • 图生视频效果优秀,运动自然

文生视频 vs 图生视频

维度文生视频图生视频
输入文字描述参考图像(+可选文字描述)
可控性较难精确控制外观外观与参考图一致,可控性强
适用场景创意概念展示角色/产品动画、静图生动
一致性风格随机性大视觉风格固定
使用门槛低,直接写描述需准备参考图

在实际使用中,图生视频往往比纯文生视频更实用,因为它提供了对视觉外观的精确控制。

商业应用场景

  • 广告营销:快速生成产品展示视频、营销素材,大幅降低拍摄成本
  • 内容创作:社交媒体短视频,AI 辅助 Vlog 制作
  • 教育培训:将文字教案自动转化为动态教学视频
  • 电影/动画前期:故事板和概念预演(Previs),降低与导演/投资人的沟通成本
  • 游戏内容:NPC 动画、过场动画的快速生产
  • 虚拟主播:驱动数字人播放新闻、带货

当前局限性

尽管进展迅猛,文生视频技术仍面临以下现实限制:

  • 生成时长受限:多数模型单次生成 5-10 秒,长视频需要分段拼接
  • 生成速度慢:即使使用高端 GPU,生成一段 5 秒视频通常需要数分钟
  • 高成本:训练和推理成本极高,商业服务价格不菲
  • 版权争议:训练数据中包含版权视频引发法律纠纷
  • 深度伪造(Deepfake)风险:技术滥用于虚假新闻、诈骗等,监管挑战巨大
  • 精细控制不足:难以精确控制摄像机轨迹、角色动作、场景细节