跳到主要内容

AI 安全与伦理概述

AI 安全的两个维度

AI 安全（AI Safety）是一个涵盖范围极广的领域，它至少包含两个截然不同但相互关联的维度。

技术安全（Technical Safety）

技术安全关注 AI 系统在技术层面的可靠性、鲁棒性和防攻击能力：

对抗攻击（Adversarial Attacks）：通过精心设计的输入扰动欺骗 AI 模型
提示注入（Prompt Injection）：恶意内容劫持 LLM 的执行路径
越狱（Jailbreak）：绕过 LLM 的安全限制，使其生成被禁止的内容
数据投毒（Data Poisoning）：在训练数据中注入恶意样本，使模型学习错误的行为
模型反演（Model Inversion）：通过模型的输出反推训练数据中的私人信息

技术安全问题的特点：通常可以通过技术手段（更好的训练方法、防御算法、系统设计）来缓解。

社会伦理（Societal Ethics）

社会伦理维度关注 AI 对人类社会的宏观影响，属于更根本性的价值问题：

偏见与歧视：AI 系统是否对某些群体产生不公平的对待
可解释性：AI 的决策过程是否对受影响的人透明可理解
法规合规：AI 产品是否符合各国的法律法规要求
AI 治理：如何建立有效的机制来监督和管理 AI 系统
存在性风险：长期来看，超级 AI 是否对人类构成生存威胁（更长远的讨论）

为何 AI 安全重要

影响力大

AI 系统正在进入越来越多的关键决策场景：

刑事司法（累犯风险评估 COMPAS 系统）
金融信贷（自动审批贷款申请）
医疗诊断（辅助诊断 AI 建议）
内容分发（社交媒体算法影响数十亿人的信息获取）
武器系统（自主作战决策，争议中）

当 AI 系统的决策覆盖数亿用户时，哪怕 1% 的错误率也意味着数百万人受到不公平对待。

漏洞风险

AI 系统的安全漏洞与传统软件漏洞有本质区别：

难以穷举：攻击向量无限，传统的代码审计无法覆盖 AI 的所有行为
难以预测：AI 在分布外（Out-of-Distribution）输入下的行为极难预判
隐蔽性强：对抗样本对人眼无差异，但可以欺骗 AI（自动驾驶感知系统的安全威胁）

社会影响

AI 技术的负面社会影响已开始显现：

深度伪造（Deepfake）：政治人物的虚假视频影响公众认知
AI 生成的虚假信息：大规模生成、传播的低成本虚假新闻
算法歧视：招聘 AI 系统对特定性别、种族的系统性不公平
过度监控：人脸识别技术被威权政府用于政治迫害

本章结构导读

本章涵盖 AI 安全与伦理的完整知识体系：

技术安全部分

对抗攻击：从白盒/黑盒攻击原理到防御策略的工程实践
提示注入攻击：LLM 特有的安全威胁，尤其在 Agent 场景中
越狱（Jailbreak）：绕过 LLM 对齐保护的技术与防御
AI Red Teaming：主动寻找 AI 系统漏洞的方法论

社会伦理部分

AI 偏见问题：偏见来源、检测方法、缓解策略
可解释 AI（XAI）：让 AI 决策透明可理解的技术方法
AI 法规与合规：EU AI Act、中国监管框架、企业合规义务
AI 治理：企业 AI 治理框架与 NIST AI RMF 实施指南

AI 安全不只是技术团队的责任，它需要产品、法务、运营多方协作共同构建。理解 AI 安全的全貌是构建负责任 AI 产品的前提。

AI 安全的两个维度
- 技术安全（Technical Safety）
- 社会伦理（Societal Ethics）
为何 AI 安全重要
本章结构导读
- 技术安全部分
- 社会伦理部分