AI 图像生成
AI 图像生成是多模态 AI 中最具视觉冲击力的方向,近年来以扩散模型为核心实现了跨越式发展。从 GAN 到扩散模型,再到 FLUX.1 的 Diffusion Transformer,图像生成质量已经达到让人难以分辨真伪的程度。
生成模型演进
GAN(生成对抗网络,2014-2021)
GAN 由 Ian Goodfellow 于 2014 年提出,通过**生成器(Generator)和判别器(Discriminator)**的对抗博弈来学习生成真实图像:
- 生成器:将随机噪声映射为图像,目标是"骗过"判别器
- 判别器:区分真实图像和生成图像,目标是"识破"生成器
GAN 的问题:训练不稳定(模式崩溃、梯度消失),超参数敏感,生成结果多样性有限。代表作包括 StyleGAN2(高质量人脸生成)、BigGAN(大规模多类别生成)。
VAE(变分自编码器,2013)
VAE 通过学习数据的隐空间分布(均值+方差)实现生成:将图像编码为高斯分布的参数,从分布中采样再解码生成图像。VAE 生成的图像偏模糊,单独使用效果有限,但其编码器-隐空间-解码器结构在扩散模型中被广泛复用。
扩散模型(Diffusion Model,2020 至今)
扩散模型以其训练稳定、生成多样性高、可条件控制的特点全面超越 GAN,成为图像生成的主流技术路线。
扩散模型原理
扩散模型的核心思想来自热力学中的扩散过程,分为两个阶段:
前向过程(加噪)
在训练时,对真实图像逐步添加高斯噪声,经过 T 步(通常 T=1000)后图像变为纯高斯噪声:
x_0(原始图像)
→ x_1(微小噪声)
→ x_2
→ ...
→ x_T(纯高斯噪声)
每步加噪由预定义的噪声调度(Noise Schedule)控制,数学上是马尔可夫链:
q(x_t | x_{t-1}) = N(x_t; √(1-β_t) * x_{t-1}, β_t * I)
反向过程(去噪生成)
训练一个神经网络(通常是 UNet)学习逆扩散:给定任意时刻的噪声图像 x_t,预测添加的噪声 ε,从而逐步还原出干净图像:
x_T(纯高斯噪声)
→ x_{T-1}(去噪一步)
→ ...
→ x_0(生成的图像)
推理时,从标准高斯分布采样初始噪声,通过神经网络反复去噪,即可生成高质量图像。文本条件通过将文本 embedding 注入 UNet 的交叉注意力层来实现(Cross-Attention Conditioning)。
加速采样
原始 DDPM 需要 1000 步去噪,推理很慢。后续工作大幅加速:
- DDIM:确定性采样,20-50 步即可生成高质量图像
- DPM-Solver:数学优化的采样器,10-20 步达到 DDPM 1000 步效果
- LCM(Latent Consistency Model):4-8 步实现高质量生成
Stable Diffusion 架构
Stable Diffusion(SD) 是将扩散模型带入普通用户视野的里程碑开源项目。其核心创新是潜在扩散模型(Latent Diffusion Model,LDM):在低维**潜在空间(Latent Space)**而非像素空间中进行扩散,大幅降低计算成本。
文本 Prompt → CLIP 文本编码器 → 文本 Embedding
↓
随机噪声 (Latent) → UNet 去噪(条件化)→ 去噪后的 Latent
↓
VAE 解码器 → 生成图像
三大核心组件
- VAE 编码器/解码器:图像 ↔ 潜在空间的压缩/还原,压缩比通常为 8×(512×512 图像压缩为 64×64 的 latent)
- CLIP 文本编码器:将文本 Prompt 转化为语义 Embedding,引导扩散过程
- UNet:执行逐步去噪,通过交叉注意力接收文本条件
SDXL 改进
2023 年发布的 SDXL 在 SD 1.5 基础上多项改进:
- 更大的 UNet(2.6B 参数)和更大的文本编码器(两个 CLIP 模型)
- 引入 Refiner 模型对生成结果进行高频细节增强
- 原生支持 1024×1024 分辨率
- 图像整体质量和文本遵循度显著提升
FLUX.1:Diffusion Transformer
2024 年 Black Forest Labs(SD 原团队)发布 FLUX.1,将 UNet 替换为基于 Transformer 的去噪网络,引领图像生成进入 DiT(Diffusion Transformer)时代:
- Multimodal Diffusion Transformer(MM-DiT):文本和图像 token 在同一 Transformer 中共同建模,实现更深度的文本-图像融合
- Flow Matching:比传统 DDPM 更高效的训练目标
- 三个版本:FLUX.1-dev(开源,研究用)、FLUX.1-schnell(快速,Apache 2.0)、FLUX.1-pro(闭源,商业)
FLUX.1 在文字渲染、手部细节、人体比例等传统扩散模型弱项上大幅提升。
ControlNet 可控生成
ControlNet(2023) 允许在文本 Prompt 之外,额外添加结构性条件控制,包括:
- Canny 边缘:控制图像的轮廓结构
- 深度图:控制场景的 3D 空间关系
- 人体姿态(OpenPose):精确控制人物姿态
- 线稿(Scribble/LineArt):将手绘草图转化为精细图像
- 法线贴图:控制光照方向
ControlNet 的架构通过复制 UNet 编码器的权重,增加一个"控制"分支,以可训练的零卷积层注入条件,在保留 SD 原始能力的同时增加精确控制能力。
LoRA 风格微调
LoRA(Low-Rank Adaptation) 是在扩散模型中引入特定风格/人物/概念的轻量微调方法:
- 只训练少量低秩矩阵(通常不超过 100MB),不修改原始模型权重
- 以 20-100 张图像、数十分钟训练即可学会特定人物面貌或艺术风格
- 可叠加使用多个 LoRA,并通过权重控制各 LoRA 的影响强度
LoRA 是 Stable Diffusion 生态爆发的核心推动力,Civitai 等平台上有数十万个用户创作的 LoRA 模型。
文生图 Prompt 技巧
- 质量词:
masterpiece, best quality, ultra-detailed, 8k提升整体精度 - 风格词:
oil painting, watercolor, digital art, anime style指定艺术风格 - 构图控制:
close-up portrait, wide angle, bird's-eye view - 负向 Prompt:使用
Negative Prompt排除不需要的元素,如blurry, low quality, deformed hands - 权重调整:
(关键词:1.3)加强权重,[关键词:0.7]减弱权重
商业应用
- 设计辅助:LOGO 设计、产品效果图、营销素材快速生成
- 游戏开发:概念美术、贴图、角色设计
- 电影/影视:故事板、分镜稿、视觉特效合成
- 电商:商品图背景替换、模特换装
- 个性化定制:个人写真、头像生成、礼品设计