AI 偏见问题
偏见来源
AI 系统中的偏见不是凭空产生的,它是从多个环节"学习"并"放大"了人类社会中已存在的不平等。理解偏见的来源是解决问题的前提。
训练数据偏见
最根本的偏见来源:AI 的世界观由训练数据决定。
- 历史偏见反映:互联网文本反映了社会历史上存在的偏见(如:医生的搜索结果图片以男性为主,护士以女性为主)
- 覆盖不均衡:互联网内容以英语、西方视角为主,边缘语言和文化代表性严重不足
- 时间偏差:旧数据(1990 年代以前)中的社会观念在许多方面比现代更具偏见
标注者偏见
人工标注的数据集引入了标注者自身的偏见:
- 人口结构偏差:如果标注团队以年轻男性西方人为主,他们对"有害"和"正常"的判断会带入这个视角
- 文化理解差异:幽默、讽刺、礼貌的定义在不同文化中差异很大
- 主观判断一致性低:对于边界案例,不同标注者的标注结果往往不一致
算法设计偏见
- 目标函数设计:优化点击率可能导致极化内容被推荐(更能激起情绪的内容获得更多点击)
- 特征选择:将邮政编码作为信贷评分特征,可能代理了种族信息
- 评估指标:只用总体准确率评估模型,可能掩盖在特定亚群体上的表现差异
偏见类型
性别偏见
- 职业刻板印象:LLM 在描述医生时默认使用"他",描述护士时默认使用"她"
- 语言关联:将"才华横溢"与男性关联,将"温柔体贴"与女性关联
- 招聘 AI:Amazon 的内部招聘 AI 因训练数据以男性简历为主,自动对女性候选人评分偏低(2018年被曝光并废弃)
种族偏见
- 人脸识别错误率差异:NIST 2019 年研究发现,多款主流人脸识别系统对非裔美国人的误报率比对白人高出 10-100 倍
- 情感分析偏见:分析非裔美国英语(AAVE,Black English)时往往被标记为更具攻击性
- 医疗 AI:某商业医疗 AI 系统被发现系统性地为黑人患者分配更少的医疗资源(Obermeyer et al., Science 2019)
年龄偏见
- 图像生成 AI 在要求生成"领导者"时更多生成中年人,而非老年人或年轻人
- 简历筛选 AI 可能对年龄较大的候选人给出偏低评分
地域与语言偏见
- 英语以外的语言在 LLM 能力上普遍较差(低资源语言更明显)
- 对特定国家或地区的内容审核标准可能不一致
典型案例
COMPAS 刑事风险评估
COMPAS(Correctional Offender Management Profiling for Alternative Sanctions)是美国法院广泛使用的累犯风险评估算法:
- ProPublica 2016 年调查发现:COMPAS 对黑人被告的高风险误判率(将低风险人员判为高风险)是白人被告的两倍
- 而对白人被告的低风险误判率(将高风险人员判为低风险)则更高
- 这意味着黑人被告受到更严厉对待,而白人被告则受到更宽松对待
- 该案例引发了学术界对算法公平性定义的激烈争论(不可能同时满足所有公平性指标)
人脸识别种族歧视
- MIT Media Lab 研究员 Joy Buolamwini 发现:商业人脸分析系统(IBM、Microsoft、Face++)对深色皮肤女性的性别分类错误率高达 35%,而对浅色皮肤男性的错误率不足 1%
- 此研究促使 IBM 和 Microsoft 暂停了面向执法机构的人脸识别业务
简历筛选性别偏见
- Amazon 内部开发了一套 AI 招聘工具,使用历史简历训练
- 因为过去10年的招聘以男性为主,AI 学会了对包含"女性"(如:女子大学、女性工程师协会)等词汇的简历降分
- 2018 年被迫废弃该系统
检测方法
差异化影响测试(Disparate Impact Testing)
统计检测:比较 AI 系统对不同群体的决策结果是否存在显著差异
# 简化示例
approval_rate_group_A = approved_A / total_A
approval_rate_group_B = approved_B / total_B
disparate_impact_ratio = approval_rate_A / approval_rate_B
# EEOC 80% 规则:比率低于 0.8 视为存在差异化影响
if disparate_impact_ratio < 0.8:
flag_for_review()
对抗性评估(Adversarial Evaluation)
设计专门的测试集,包含仅改变敏感属性(性别、种族)的配对样本:
- "张伟(男)申请贷款" vs "张丽(女)申请贷款"(其余条件完全相同)
- 理想情况下,AI 决策不应因敏感属性改变而改变
词嵌入偏见评估(WEAT)
衡量词嵌入空间中概念的关联关系,检测隐式偏见:
- 测试"编程""工程"等词是否更接近男性相关词汇
- 测试"家庭""照顾"等词是否更接近女性相关词汇
缓解策略
数据增强
- 通过收集更多代表性不足群体的数据来平衡训练集
- 数据合成:生成少数群体的合成样本(需谨慎,可能引入新的偏见)
- 反事实数据增强:将已有数据中的敏感属性替换,创建配对样本
对抗去偏(Adversarial Debiasing)
训练一个判别器,专门预测敏感属性;同时训练主模型使判别器无法成功——迫使主模型放弃对敏感属性的依赖。
重新权重(Reweighting)
对训练数据中少数群体的样本赋予更高权重,使模型在各群体上均衡学习。
公平性指标
AI 公平性(Fairness)存在多种不同定义,且这些定义之间存在数学矛盾(不可能同时满足):
- 个体公平(Individual Fairness):相似个体应受到相似对待
- 群体公平(Group Fairness):不同群体的错误率应相近
- 均等机会(Equalized Odds):各群体的真正率和假正率相同
- 人口平等(Demographic Parity):各群体的通过率相同
- 预测准确性(Calibration):相同预测分数下各群体的实际风险相同
COMPAS 案例已经从理论上证明:当不同群体的基础率(base rate)不同时,这些公平性定义无法同时满足。选择哪种公平性定义本质上是一个价值判断。
行业自律与监管
- 欧盟 AI Act:将高风险 AI(用于就业、信贷、教育等领域)的公平性要求纳入法律
- 美国 CFPB:要求信贷 AI 系统提供拒贷原因说明,可间接约束偏见
- 企业自律:谷歌、微软、IBM 均发布了 AI 公平性原则和评估工具(Fairlearn、What-If Tool)