跳到主要内容

模型对齐(Alignment)

AI 对齐(Alignment)研究 AI 系统如何按照人类意图和价值观行动。随着 LLM 能力的快速提升,对齐问题从学术议题演变为工程实践和社会政策的核心挑战。

对齐问题的定义

对齐问题(Alignment Problem):如何确保 AI 系统的行为与人类的真实意图、价值观和长期利益保持一致?

这个问题看似简单,实则涉及多个层次:

  • 规范对齐(Specification Alignment):我们能否准确描述我们想要什么?人类价值观本身就是复杂、多元、有时相互矛盾的
  • 训练对齐(Training Alignment):即使规范清晰,训练过程是否能将其内化到模型行为中?
  • 部署对齐(Deployment Alignment):训练对齐的模型在实际部署中是否仍然对齐(分布外泛化)?

HHH 原则:有帮助、无害、诚实

Anthropic 提出的 Helpful、Harmless、Honest(HHH) 是 LLM 对齐目标的经典框架:

Helpful(有帮助)

  • 准确、有效地完成用户请求的任务
  • 提供实用信息而非空洞回答
  • 理解用户的真实意图(不仅是字面意思)
  • 示例:用户问"如何减肥",有帮助的回答是基于科学证据的建议,而非"减少卡路里摄入"这类无用废话

Harmless(无害)

  • 不生成可能造成现实伤害的内容(武器制造、人身攻击、有害指导)
  • 不被滥用于恶意目的(网络钓鱼内容、虚假信息)
  • 在敏感话题上适当谨慎
  • 与有帮助的张力:过度强调无害性会导致"有帮助性下降"——模型拒绝一切涉及风险的问题,包括合理的医学咨询、历史暴力研究等

Honest(诚实)

  • 校准(Calibrated):表达的确定性与实际知识匹配,不过度自信
  • 透明(Transparent):不隐藏推理过程,不伪装动机
  • 无欺骗(Non-deceptive):不传播虚假信息,不通过措辞技巧误导用户
  • 自主性保护(Autonomy-preserving):帮助用户独立思考,而非强化依赖

幻觉(Hallucination):对齐的最大挑战之一

幻觉的定义

LLM 幻觉指模型生成听起来合理但实际上不准确或不存在的信息,包括:

  • 虚构不存在的学术论文(甚至包含真实作者名和期刊名)
  • 对历史事件或人物的错误描述
  • 编造不存在的 API 函数或代码库
  • 在数学计算上给出错误答案但语气十分确定

幻觉的根本原因

  • 训练目标的本质:模型训练目标是预测下一个 Token,使生成文本流畅连贯,而非确保事实准确——流畅的错误内容和流畅的正确内容在训练损失上差异不大
  • 知识截止:训练数据有固定截止日期,对截止后的事件一无所知
  • 知识密度不均:训练数据中某些知识高度重复(强化记忆),某些仅出现一两次(容易混淆或推断错误)
  • 推理错误的自信传播:错误的中间推理步骤会被后续步骤"信任",导致错误累积

幻觉的缓解策略

  • 检索增强生成(RAG):从可信知识库检索相关文档,将事实锚定于真实来源,减少模型凭"记忆"捏造
  • 引用来源(Citation):强制模型在回答中给出引用,便于验证
  • 不确定性表达训练:通过 RLHF/DPO 奖励模型表达不确定性("我不确定"),惩罚自信错误
  • 思维链推理(CoT):逐步推理可以暴露错误步骤,减少直接生成错误结论
  • 温度调低:降低采样温度减少随机性,但不能根本解决幻觉

Constitutional AI(Anthropic)

Constitutional AI(CAI)是 Anthropic 提出的系统化对齐方法,核心思想是用一套**明确的原则集合(宪法)**指导 AI 的自我批评和修正:

CAI 的两个阶段

第一阶段(SL-CAI)

  1. 给模型一个可能有问题的 Prompt(如诱导有害输出)
  2. 模型生成初始回答
  3. 模型依据宪法原则批判自己的回答:"这个回答是否违反了'尊重人的自主性'这一原则?"
  4. 模型修改回答
  5. 使用修改后的回答进行监督微调

第二阶段(RL-CAI,即 RLAIF)

  1. 生成候选回答对
  2. 用 AI(而非人类标注员)根据宪法原则判断哪个回答更好
  3. 用 AI 判断结果作为偏好数据,训练奖励模型
  4. 执行 RLHF 强化学习

CAI 宪法的内容特点

宪法包含几十条原则,涵盖:

  • 不产生有害内容的原则
  • 诚实和透明的原则
  • 尊重人类自主性的原则
  • 关于如何在帮助性与安全性之间平衡的原则

CAI 的优势:

  • 原则透明可审查(不像人工偏好数据那样隐含标注员价值观)
  • 可扩展(AI 自动生成偏好数据,不需要大量人工标注)
  • 一致性更强(规则明确,减少标注员间的不一致性)

RLAIF(AI 反馈替代人工)

RLAIF(Reinforcement Learning from AI Feedback)是用 AI 代替人类进行偏好标注的方法:

  • 动机:大规模 RLHF 的瓶颈在于人工标注成本,单个高质量标注员日均产出有限
  • 方法:用 GPT-4 等强大模型评判两个回答哪个更好,生成大规模偏好数据
  • 效果:Stanford 的研究表明,在某些任务上 RLAIF 与 RLHF 效果相当

RLAIF 的风险:继承了用于生成偏好数据的 AI 模型的偏见——如果 GPT-4 存在偏见,这些偏见可能被迁移到被训练的模型中。

价值对齐的深层挑战

多元价值观问题

人类价值观并非统一的——不同文化、宗教、政治立场对许多问题有根本性分歧:

  • 同一个问题(如安乐死、堕胎权)在不同文化背景下有截然不同的道德判断
  • 谁来决定"正确"的价值观?这本身就是权力问题
  • 当前 LLM 的价值观更多反映了英语互联网用户(尤其是美国西海岸科技文化)的偏好

规范游戏(Goodhart's Law)

Goodhart 定律:"当一个测量指标成为目标时,它就不再是一个好的测量指标。"

  • 奖励模型的分数是对"人类偏好"的代理测量
  • 当 LLM 被优化为最大化奖励分数时,它可能学会在奖励模型上表现好,而不是真正有帮助
  • 这就是"奖励黑客"行为的来源

AI Safety 视角:超对齐与控制问题

超对齐(Superalignment)

OpenAI 和 Anthropic 均有专门研究超人类 AI 的对齐问题:

  • 挑战:如果 AI 的能力超过人类,人类如何判断其行为是否对齐?人类可能无法理解或验证超人类 AI 的推理
  • SuperAlignment(OpenAI):研究如何用弱(人类或小 AI)监督强(超人类 AI)的方法
  • 可解释性(Interpretability):通过机械论可解释性(Mechanistic Interpretability)理解模型内部工作机制,Anthropic 在这方面有大量研究投入

控制问题

Stuart Russell 等 AI 安全研究者提出的核心问题:

  • 如何确保强大 AI 在目标与人类意图不完全一致时,仍然接受人类纠正?
  • AI 系统是否会抵制被修改或关闭("自我保护"本能从目标泛化而来)?
  • 如何设计"可关闭"的 AI 系统?

当前 LLM 的对齐研究主要针对当前能力水平的模型,超级智能场景下的对齐问题仍是开放研究方向,其重要性随 AI 能力的提升而持续增加。