AI 安全与伦理概述
AI 安全的两个维度
AI 安全(AI Safety)是一个涵盖范围极广的领域,它至少包含两个截然不同但相互关联的维度。
技术安全(Technical Safety)
技术安全关注 AI 系统在技术层面的可靠性、鲁棒性和防攻击能力:
- 对抗攻击(Adversarial Attacks):通过精心设计的输入扰动欺骗 AI 模型
- 提示注入(Prompt Injection):恶意内容劫持 LLM 的执行路径
- 越狱(Jailbreak):绕过 LLM 的安全限制,使其生成被禁止的内容
- 数据投毒(Data Poisoning):在训练数据中注入恶意样本,使模型学习错误的行为
- 模型反演(Model Inversion):通过模型的输出反推训练数据中的私人信息
技术安全问题的特点:通常可以通过技术手段(更好的训练方法、防御算法、系统设计)来缓解。
社会伦理(Societal Ethics)
社会伦理维度关注 AI 对人类社会的宏观影响,属于更根本性的价值问题:
- 偏见与歧视:AI 系统是否对某些群体产生不公平的对待
- 可解释性:AI 的决策过程是否对受影响的人透明可理解
- 法规合规:AI 产品是否符合各国的法律法规要求
- AI 治理:如何建立有效的机制来监督和管理 AI 系统
- 存在性风险:长期来看,超级 AI 是否对人类构成生存威胁(更长远的讨论)
为何 AI 安全重要
影响力大
AI 系统正在进入越来越多的关键决策场景:
- 刑事司法(累犯风险评估 COMPAS 系统)
- 金融信贷(自动审批贷款申请)
- 医疗诊断(辅助诊断 AI 建议)
- 内容分发(社交媒体算法影响数十亿人的信息获取)
- 武器系统(自主作战决策,争议中)
当 AI 系统的决策覆盖数亿用户时,哪怕 1% 的错误率也意味着数百万人受到不公平对待。
漏洞风险
AI 系统的安全漏洞与传统软件漏洞有本质区别:
- 难以穷举:攻击向量无限,传统的代码审计无法覆盖 AI 的所有行为
- 难以预测:AI 在分布外(Out-of-Distribution)输入下的行为极难预判
- 隐蔽性强:对抗样本对人眼无差异,但可以欺骗 AI(自动驾驶感知系统的安全威胁)
社会影响
AI 技术的负面社会影响已开始显现:
- 深度伪造(Deepfake):政治人物的虚假视频影响公众认知
- AI 生成的虚假信息:大规模生成、传播的低成本虚假新闻
- 算法歧视:招聘 AI 系统对特定性别、种族的系统性不公平
- 过度监控:人脸识别技术被威权政府用于政治迫害
本章结构导读
本章涵盖 AI 安全与伦理的完整知识体系:
技术安全部分
- 对抗攻击:从白盒/黑盒攻击原理到防御策略的工程实践
- 提示注入攻击:LLM 特有的安全威胁,尤其在 Agent 场景中
- 越狱(Jailbreak):绕过 LLM 对齐保护的技术与防御
- AI Red Teaming:主动寻找 AI 系统漏洞的方法论
社会伦理部分
- AI 偏见问题:偏见来源、检测方法、缓解策略
- 可解释 AI(XAI):让 AI 决策透明可理解的技术方法
- AI 法规与合规:EU AI Act、中国监管框架、企业合规义务
- AI 治理:企业 AI 治理框架与 NIST AI RMF 实施指南
AI 安全不只是技术团队的责任,它需要产品、法务、运营多方协作共同构建。理解 AI 安全的全貌是构建负责任 AI 产品的前提。