跳到主要内容

文生图技术

文本生成图像(Text-to-Image)是近年来 AI 应用最广泛的多模态能力之一,允许用户通过自然语言描述来生成高质量图像。从 2021 年的 DALL-E 到 2024 年的 FLUX.1,技术进步的速度令人叹为观止。

发展史

DALL-E 1(OpenAI,2021)

第一个引起广泛关注的文生图系统。使用自回归 Transformer:将图像离散化为 token(使用 dVAE),与文本 token 拼接后用 GPT 风格的 Transformer 自回归生成。生成质量在当时令人印象深刻,但图像分辨率有限(256×256),概念组合能力不稳定。

Stable Diffusion(Stability AI,2022)

Stable Diffusion 的开源发布是文生图领域的历史性事件。基于潜在扩散模型(Latent Diffusion Model),首次将高质量文生图带给普通用户:

  • 完全开源,任何人可以本地运行
  • 消费级 GPU(8GB 显存)即可使用
  • 支持无限制的创作(无内容审查限制)
  • 催生了 WebUI、ComfyUI 等工具生态和 Civitai 等社区

DALL-E 2(OpenAI,2022)

引入扩散模型,利用 CLIP 图像 Embedding 作为中间表示,生成质量大幅提升,图像分辨率达到 1024×1024。推出 Outpainting(图像扩展)和 Inpainting(局部填充)功能。

Midjourney

Midjourney 是商业运营的闭源文生图服务,以其独特的艺术风格和用户友好的 Discord 界面迅速积累了大量用户。多个版本迭代(v3→v4→v5→v5.2→v6→v6.1)持续提升质量,是当前最受创意工作者欢迎的文生图工具之一。

DALL-E 3(OpenAI,2023)

与前两代最大的区别是采用了重新描述(Re-captioning)技术:用 ChatGPT 对训练图像重新生成更详细、准确的描述,大幅改善了模型对复杂 Prompt 的理解能力。直接集成到 ChatGPT,降低了使用门槛。

FLUX.1(Black Forest Labs,2024)

由 Stable Diffusion 原团队成员创立的 Black Forest Labs 发布,代表了当前开源文生图的技术巅峰,详见 AI 图像生成 章节。

技术路径对比

技术路径代表模型优势劣势
自回归(AR)DALL-E 1、GPT-4o 图像生成与 LLM 统一,可做图文交错生成速度慢,分辨率受限
扩散模型(Diffusion)SD、SDXL、FLUX.1高质量,多步可控,生态丰富推理需多步,慢于 AR
GANStyleGAN速度快训练不稳定,多样性差,已被扩散模型超越
Flow MatchingFLUX.1训练更高效,采样更快相对较新

Stable Diffusion 生态

Stable Diffusion 开放源码后,围绕其形成了丰富的工具生态:

AUTOMATIC1111 WebUI

最广泛使用的 SD 图形界面,通过浏览器操作:

# 安装
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui
./webui.sh # Linux/Mac
webui-user.bat # Windows

功能:文生图、图生图、Inpainting、Outpainting、LoRA 加载、多种采样器选择、脚本批处理等。

ComfyUI

基于节点图(Node Graph)的 SD 工作流工具,更灵活,更接近底层:

  • 每个操作(加载模型、采样、解码、保存)都是一个节点
  • 节点之间通过连线传递数据
  • 支持复杂的多模型联动工作流
  • 是专业用户和开发者的首选

Civitai

全球最大的 SD 模型分享平台:

  • 数十万个 Checkpoint、LoRA、Embedding、Hypernetwork 模型
  • 用户共享生成的图片和对应的 Prompt 参数
  • 支持模型标签和风格分类

Midjourney 使用技巧

Midjourney 通过 Discord Bot 交互,主要参数:

/imagine prompt: a serene Japanese garden in autumn,
photorealistic, golden hour lighting --v 6.1 --ar 16:9 --stylize 200

常用参数

  • --v 6.1:模型版本,v6.1 为当前最新
  • --ar 16:9:宽高比(支持 1:1、2:3、16:9 等)
  • --style raw:减少 Midjourney 的艺术性处理,更贴近 Prompt 描述
  • --stylize 0-1000:风格化强度,越高越偏向 Midjourney 审美
  • --chaos 0-100:随机性/变化度
  • --no [元素]:排除不需要的元素(如 --no text, watermark
  • --quality 0.25/0.5/1:渲染质量,影响细节和速度

Prompt 结构建议

[主题] + [环境/背景] + [风格] + [光照] + [相机参数(如摄影风格)]

示例:a young woman reading a book, cozy library interior,
oil painting style, warm afternoon light, shallow depth of field

FLUX.1 性能对比

FLUX.1 在 2024 年发布后迅速成为开源文生图的新标准:

对比项SDXLFLUX.1-devMidjourney v6.1
文字渲染优秀良好
手部细节较差良好良好
人体比例一般优秀优秀
文本遵循度中等中等
开源可用是(研究用)
推理速度较快慢(模型大)中等

商业授权差异

模型个人非商业商业用途注意事项
Stable Diffusion 1.x/2.x自由自由(CreativeML OpenRAIL-M)部分使用限制
SDXL自由自由(CreativeML OpenRAIL++-M)商业限制更少
FLUX.1-schnell自由自由(Apache 2.0)完全开放
FLUX.1-dev自由(研究)需购买商业授权不可用于商业
Midjourney免费计划受限付费计划可商业需订阅
DALL-E 3OpenAI 条款允许(遵守政策)内容限制较多

Prompt 工程在图像生成中的特殊技巧

文生图的 Prompt 与对话 AI 的 Prompt 有显著差异:

  • 关键词堆叠:扩散模型对关键词更敏感,通常使用逗号分隔的关键词列表而非完整句子
  • 风格前置:将最重要的风格描述放在 Prompt 前面(权重更高)
  • 负向 Prompt:专门告诉模型不要生成什么,是扩散模型独有的控制方式
# 正向 Prompt
masterpiece, best quality, ultra-detailed, 1girl, silver hair, blue eyes,
school uniform, cherry blossoms, soft bokeh, natural lighting

# 负向 Prompt
(worst quality:1.4), (low quality:1.4), blurry, deformed, ugly,
extra limbs, bad anatomy, watermark, text
  • 括号权重(关键词:1.3) 增加权重,[关键词:0.7] 降低权重(SD 风格)
  • 分步控制[关键词::0.3] 仅在去噪的前 30% 步数应用该关键词