跳到主要内容

AI 安全与伦理概述

AI 安全的两个维度

AI 安全(AI Safety)是一个涵盖范围极广的领域,它至少包含两个截然不同但相互关联的维度。

技术安全(Technical Safety)

技术安全关注 AI 系统在技术层面的可靠性、鲁棒性和防攻击能力:

  • 对抗攻击(Adversarial Attacks):通过精心设计的输入扰动欺骗 AI 模型
  • 提示注入(Prompt Injection):恶意内容劫持 LLM 的执行路径
  • 越狱(Jailbreak):绕过 LLM 的安全限制,使其生成被禁止的内容
  • 数据投毒(Data Poisoning):在训练数据中注入恶意样本,使模型学习错误的行为
  • 模型反演(Model Inversion):通过模型的输出反推训练数据中的私人信息

技术安全问题的特点:通常可以通过技术手段(更好的训练方法、防御算法、系统设计)来缓解。

社会伦理(Societal Ethics)

社会伦理维度关注 AI 对人类社会的宏观影响,属于更根本性的价值问题:

  • 偏见与歧视:AI 系统是否对某些群体产生不公平的对待
  • 可解释性:AI 的决策过程是否对受影响的人透明可理解
  • 法规合规:AI 产品是否符合各国的法律法规要求
  • AI 治理:如何建立有效的机制来监督和管理 AI 系统
  • 存在性风险:长期来看,超级 AI 是否对人类构成生存威胁(更长远的讨论)

为何 AI 安全重要

影响力大

AI 系统正在进入越来越多的关键决策场景:

  • 刑事司法(累犯风险评估 COMPAS 系统)
  • 金融信贷(自动审批贷款申请)
  • 医疗诊断(辅助诊断 AI 建议)
  • 内容分发(社交媒体算法影响数十亿人的信息获取)
  • 武器系统(自主作战决策,争议中)

当 AI 系统的决策覆盖数亿用户时,哪怕 1% 的错误率也意味着数百万人受到不公平对待。

漏洞风险

AI 系统的安全漏洞与传统软件漏洞有本质区别:

  • 难以穷举:攻击向量无限,传统的代码审计无法覆盖 AI 的所有行为
  • 难以预测:AI 在分布外(Out-of-Distribution)输入下的行为极难预判
  • 隐蔽性强:对抗样本对人眼无差异,但可以欺骗 AI(自动驾驶感知系统的安全威胁)

社会影响

AI 技术的负面社会影响已开始显现:

  • 深度伪造(Deepfake):政治人物的虚假视频影响公众认知
  • AI 生成的虚假信息:大规模生成、传播的低成本虚假新闻
  • 算法歧视:招聘 AI 系统对特定性别、种族的系统性不公平
  • 过度监控:人脸识别技术被威权政府用于政治迫害

本章结构导读

本章涵盖 AI 安全与伦理的完整知识体系:

技术安全部分

  • 对抗攻击:从白盒/黑盒攻击原理到防御策略的工程实践
  • 提示注入攻击:LLM 特有的安全威胁,尤其在 Agent 场景中
  • 越狱(Jailbreak):绕过 LLM 对齐保护的技术与防御
  • AI Red Teaming:主动寻找 AI 系统漏洞的方法论

社会伦理部分

  • AI 偏见问题:偏见来源、检测方法、缓解策略
  • 可解释 AI(XAI):让 AI 决策透明可理解的技术方法
  • AI 法规与合规:EU AI Act、中国监管框架、企业合规义务
  • AI 治理:企业 AI 治理框架与 NIST AI RMF 实施指南

AI 安全不只是技术团队的责任,它需要产品、法务、运营多方协作共同构建。理解 AI 安全的全貌是构建负责任 AI 产品的前提。