文生图技术

文本生成图像（Text-to-Image）是近年来 AI 应用最广泛的多模态能力之一，允许用户通过自然语言描述来生成高质量图像。从 2021 年的 DALL-E 到 2024 年的 FLUX.1，技术进步的速度令人叹为观止。

发展史

DALL-E 1（OpenAI，2021）

第一个引起广泛关注的文生图系统。使用自回归 Transformer：将图像离散化为 token（使用 dVAE），与文本 token 拼接后用 GPT 风格的 Transformer 自回归生成。生成质量在当时令人印象深刻，但图像分辨率有限（256×256），概念组合能力不稳定。

Stable Diffusion（Stability AI，2022）

Stable Diffusion 的开源发布是文生图领域的历史性事件。基于潜在扩散模型（Latent Diffusion Model），首次将高质量文生图带给普通用户：

完全开源，任何人可以本地运行
消费级 GPU（8GB 显存）即可使用
支持无限制的创作（无内容审查限制）
催生了 WebUI、ComfyUI 等工具生态和 Civitai 等社区

DALL-E 2（OpenAI，2022）

引入扩散模型，利用 CLIP 图像 Embedding 作为中间表示，生成质量大幅提升，图像分辨率达到 1024×1024。推出 Outpainting（图像扩展）和 Inpainting（局部填充）功能。

Midjourney

Midjourney 是商业运营的闭源文生图服务，以其独特的艺术风格和用户友好的 Discord 界面迅速积累了大量用户。多个版本迭代（v3→v4→v5→v5.2→v6→v6.1）持续提升质量，是当前最受创意工作者欢迎的文生图工具之一。

DALL-E 3（OpenAI，2023）

与前两代最大的区别是采用了重新描述（Re-captioning）技术：用 ChatGPT 对训练图像重新生成更详细、准确的描述，大幅改善了模型对复杂 Prompt 的理解能力。直接集成到 ChatGPT，降低了使用门槛。

FLUX.1（Black Forest Labs，2024）

由 Stable Diffusion 原团队成员创立的 Black Forest Labs 发布，代表了当前开源文生图的技术巅峰，详见 AI 图像生成章节。

技术路径对比

技术路径	代表模型	优势	劣势
自回归（AR）	DALL-E 1、GPT-4o 图像生成	与 LLM 统一，可做图文交错生成	速度慢，分辨率受限
扩散模型（Diffusion）	SD、SDXL、FLUX.1	高质量，多步可控，生态丰富	推理需多步，慢于 AR
GAN	StyleGAN	速度快	训练不稳定，多样性差，已被扩散模型超越
Flow Matching	FLUX.1	训练更高效，采样更快	相对较新

Stable Diffusion 生态

Stable Diffusion 开放源码后，围绕其形成了丰富的工具生态：

AUTOMATIC1111 WebUI

最广泛使用的 SD 图形界面，通过浏览器操作：

# 安装
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui
./webui.sh  # Linux/Mac
webui-user.bat  # Windows

功能：文生图、图生图、Inpainting、Outpainting、LoRA 加载、多种采样器选择、脚本批处理等。

ComfyUI

基于节点图（Node Graph）的 SD 工作流工具，更灵活，更接近底层：

每个操作（加载模型、采样、解码、保存）都是一个节点
节点之间通过连线传递数据
支持复杂的多模型联动工作流
是专业用户和开发者的首选

Civitai

全球最大的 SD 模型分享平台：

数十万个 Checkpoint、LoRA、Embedding、Hypernetwork 模型
用户共享生成的图片和对应的 Prompt 参数
支持模型标签和风格分类

Midjourney 使用技巧

Midjourney 通过 Discord Bot 交互，主要参数：

/imagine prompt: a serene Japanese garden in autumn,
                 photorealistic, golden hour lighting --v 6.1 --ar 16:9 --stylize 200

常用参数

--v 6.1：模型版本，v6.1 为当前最新
--ar 16:9：宽高比（支持 1:1、2:3、16:9 等）
--style raw：减少 Midjourney 的艺术性处理，更贴近 Prompt 描述
--stylize 0-1000：风格化强度，越高越偏向 Midjourney 审美
--chaos 0-100：随机性/变化度
--no [元素]：排除不需要的元素（如 --no text, watermark）
--quality 0.25/0.5/1：渲染质量，影响细节和速度

Prompt 结构建议

[主题] + [环境/背景] + [风格] + [光照] + [相机参数（如摄影风格）]

示例：a young woman reading a book, cozy library interior,
      oil painting style, warm afternoon light, shallow depth of field

FLUX.1 性能对比

FLUX.1 在 2024 年发布后迅速成为开源文生图的新标准：

对比项	SDXL	FLUX.1-dev	Midjourney v6.1
文字渲染	差	优秀	良好
手部细节	较差	良好	良好
人体比例	一般	优秀	优秀
文本遵循度	中等	高	中等
开源可用	是	是（研究用）	否
推理速度	较快	慢（模型大）	中等

商业授权差异

模型	个人非商业	商业用途	注意事项
Stable Diffusion 1.x/2.x	自由	自由（CreativeML OpenRAIL-M）	部分使用限制
SDXL	自由	自由（CreativeML OpenRAIL++-M）	商业限制更少
FLUX.1-schnell	自由	自由（Apache 2.0）	完全开放
FLUX.1-dev	自由（研究）	需购买商业授权	不可用于商业
Midjourney	免费计划受限	付费计划可商业	需订阅
DALL-E 3	OpenAI 条款	允许（遵守政策）	内容限制较多

Prompt 工程在图像生成中的特殊技巧

文生图的 Prompt 与对话 AI 的 Prompt 有显著差异：

关键词堆叠：扩散模型对关键词更敏感，通常使用逗号分隔的关键词列表而非完整句子
风格前置：将最重要的风格描述放在 Prompt 前面（权重更高）
负向 Prompt：专门告诉模型不要生成什么，是扩散模型独有的控制方式

# 正向 Prompt
masterpiece, best quality, ultra-detailed, 1girl, silver hair, blue eyes,
school uniform, cherry blossoms, soft bokeh, natural lighting

# 负向 Prompt
(worst quality:1.4), (low quality:1.4), blurry, deformed, ugly,
extra limbs, bad anatomy, watermark, text

括号权重：(关键词:1.3) 增加权重，[关键词:0.7] 降低权重（SD 风格）
分步控制：[关键词::0.3] 仅在去噪的前 30% 步数应用该关键词

发展史​

DALL-E 1（OpenAI，2021）​

Stable Diffusion（Stability AI，2022）​

DALL-E 2（OpenAI，2022）​

Midjourney​

DALL-E 3（OpenAI，2023）​

FLUX.1（Black Forest Labs，2024）​

技术路径对比​

Stable Diffusion 生态​

AUTOMATIC1111 WebUI​

ComfyUI​

Civitai​

Midjourney 使用技巧​

常用参数​

Prompt 结构建议​

FLUX.1 性能对比​

商业授权差异​

Prompt 工程在图像生成中的特殊技巧​

发展史