AI 偏见问题

偏见来源

AI 系统中的偏见不是凭空产生的，它是从多个环节"学习"并"放大"了人类社会中已存在的不平等。理解偏见的来源是解决问题的前提。

训练数据偏见

最根本的偏见来源：AI 的世界观由训练数据决定。

历史偏见反映：互联网文本反映了社会历史上存在的偏见（如：医生的搜索结果图片以男性为主，护士以女性为主）
覆盖不均衡：互联网内容以英语、西方视角为主，边缘语言和文化代表性严重不足
时间偏差：旧数据（1990 年代以前）中的社会观念在许多方面比现代更具偏见

标注者偏见

人工标注的数据集引入了标注者自身的偏见：

人口结构偏差：如果标注团队以年轻男性西方人为主，他们对"有害"和"正常"的判断会带入这个视角
文化理解差异：幽默、讽刺、礼貌的定义在不同文化中差异很大
主观判断一致性低：对于边界案例，不同标注者的标注结果往往不一致

算法设计偏见

目标函数设计：优化点击率可能导致极化内容被推荐（更能激起情绪的内容获得更多点击）
特征选择：将邮政编码作为信贷评分特征，可能代理了种族信息
评估指标：只用总体准确率评估模型，可能掩盖在特定亚群体上的表现差异

偏见类型

性别偏见

职业刻板印象：LLM 在描述医生时默认使用"他"，描述护士时默认使用"她"
语言关联：将"才华横溢"与男性关联，将"温柔体贴"与女性关联
招聘 AI：Amazon 的内部招聘 AI 因训练数据以男性简历为主，自动对女性候选人评分偏低（2018年被曝光并废弃）

种族偏见

人脸识别错误率差异：NIST 2019 年研究发现，多款主流人脸识别系统对非裔美国人的误报率比对白人高出 10-100 倍
情感分析偏见：分析非裔美国英语（AAVE，Black English）时往往被标记为更具攻击性
医疗 AI：某商业医疗 AI 系统被发现系统性地为黑人患者分配更少的医疗资源（Obermeyer et al., Science 2019）

年龄偏见

图像生成 AI 在要求生成"领导者"时更多生成中年人，而非老年人或年轻人
简历筛选 AI 可能对年龄较大的候选人给出偏低评分

地域与语言偏见

英语以外的语言在 LLM 能力上普遍较差（低资源语言更明显）
对特定国家或地区的内容审核标准可能不一致

典型案例

COMPAS 刑事风险评估

COMPAS（Correctional Offender Management Profiling for Alternative Sanctions）是美国法院广泛使用的累犯风险评估算法：

ProPublica 2016 年调查发现：COMPAS 对黑人被告的高风险误判率（将低风险人员判为高风险）是白人被告的两倍
而对白人被告的低风险误判率（将高风险人员判为低风险）则更高
这意味着黑人被告受到更严厉对待，而白人被告则受到更宽松对待
该案例引发了学术界对算法公平性定义的激烈争论（不可能同时满足所有公平性指标）

人脸识别种族歧视

MIT Media Lab 研究员 Joy Buolamwini 发现：商业人脸分析系统（IBM、Microsoft、Face++）对深色皮肤女性的性别分类错误率高达 35%，而对浅色皮肤男性的错误率不足 1%
此研究促使 IBM 和 Microsoft 暂停了面向执法机构的人脸识别业务

简历筛选性别偏见

Amazon 内部开发了一套 AI 招聘工具，使用历史简历训练
因为过去10年的招聘以男性为主，AI 学会了对包含"女性"（如：女子大学、女性工程师协会）等词汇的简历降分
2018 年被迫废弃该系统

检测方法

差异化影响测试（Disparate Impact Testing）

统计检测：比较 AI 系统对不同群体的决策结果是否存在显著差异

# 简化示例
approval_rate_group_A = approved_A / total_A
approval_rate_group_B = approved_B / total_B

disparate_impact_ratio = approval_rate_A / approval_rate_B
# EEOC 80% 规则：比率低于 0.8 视为存在差异化影响
if disparate_impact_ratio < 0.8:
    flag_for_review()

对抗性评估（Adversarial Evaluation）

设计专门的测试集，包含仅改变敏感属性（性别、种族）的配对样本：

"张伟（男）申请贷款" vs "张丽（女）申请贷款"（其余条件完全相同）
理想情况下，AI 决策不应因敏感属性改变而改变

词嵌入偏见评估（WEAT）

衡量词嵌入空间中概念的关联关系，检测隐式偏见：

测试"编程""工程"等词是否更接近男性相关词汇
测试"家庭""照顾"等词是否更接近女性相关词汇

缓解策略

数据增强

通过收集更多代表性不足群体的数据来平衡训练集
数据合成：生成少数群体的合成样本（需谨慎，可能引入新的偏见）
反事实数据增强：将已有数据中的敏感属性替换，创建配对样本

对抗去偏（Adversarial Debiasing）

训练一个判别器，专门预测敏感属性；同时训练主模型使判别器无法成功——迫使主模型放弃对敏感属性的依赖。

重新权重（Reweighting）

对训练数据中少数群体的样本赋予更高权重，使模型在各群体上均衡学习。

公平性指标

AI 公平性（Fairness）存在多种不同定义，且这些定义之间存在数学矛盾（不可能同时满足）：

个体公平（Individual Fairness）：相似个体应受到相似对待
群体公平（Group Fairness）：不同群体的错误率应相近
- 均等机会（Equalized Odds）：各群体的真正率和假正率相同
- 人口平等（Demographic Parity）：各群体的通过率相同
- 预测准确性（Calibration）：相同预测分数下各群体的实际风险相同

COMPAS 案例已经从理论上证明：当不同群体的基础率（base rate）不同时，这些公平性定义无法同时满足。选择哪种公平性定义本质上是一个价值判断。

行业自律与监管

欧盟 AI Act：将高风险 AI（用于就业、信贷、教育等领域）的公平性要求纳入法律
美国 CFPB：要求信贷 AI 系统提供拒贷原因说明，可间接约束偏见
企业自律：谷歌、微软、IBM 均发布了 AI 公平性原则和评估工具（Fairlearn、What-If Tool）

偏见来源​

训练数据偏见​

标注者偏见​

算法设计偏见​

偏见类型​

性别偏见​

种族偏见​

年龄偏见​

地域与语言偏见​

典型案例​

COMPAS 刑事风险评估​

人脸识别种族歧视​

简历筛选性别偏见​

检测方法​

差异化影响测试（Disparate Impact Testing）​

对抗性评估（Adversarial Evaluation）​

词嵌入偏见评估（WEAT）​

缓解策略​

数据增强​

对抗去偏（Adversarial Debiasing）​

重新权重（Reweighting）​

公平性指标​

行业自律与监管​