跳到主要内容

AI 偏见问题

偏见来源

AI 系统中的偏见不是凭空产生的,它是从多个环节"学习"并"放大"了人类社会中已存在的不平等。理解偏见的来源是解决问题的前提。

训练数据偏见

最根本的偏见来源:AI 的世界观由训练数据决定。

  • 历史偏见反映:互联网文本反映了社会历史上存在的偏见(如:医生的搜索结果图片以男性为主,护士以女性为主)
  • 覆盖不均衡:互联网内容以英语、西方视角为主,边缘语言和文化代表性严重不足
  • 时间偏差:旧数据(1990 年代以前)中的社会观念在许多方面比现代更具偏见

标注者偏见

人工标注的数据集引入了标注者自身的偏见:

  • 人口结构偏差:如果标注团队以年轻男性西方人为主,他们对"有害"和"正常"的判断会带入这个视角
  • 文化理解差异:幽默、讽刺、礼貌的定义在不同文化中差异很大
  • 主观判断一致性低:对于边界案例,不同标注者的标注结果往往不一致

算法设计偏见

  • 目标函数设计:优化点击率可能导致极化内容被推荐(更能激起情绪的内容获得更多点击)
  • 特征选择:将邮政编码作为信贷评分特征,可能代理了种族信息
  • 评估指标:只用总体准确率评估模型,可能掩盖在特定亚群体上的表现差异

偏见类型

性别偏见

  • 职业刻板印象:LLM 在描述医生时默认使用"他",描述护士时默认使用"她"
  • 语言关联:将"才华横溢"与男性关联,将"温柔体贴"与女性关联
  • 招聘 AI:Amazon 的内部招聘 AI 因训练数据以男性简历为主,自动对女性候选人评分偏低(2018年被曝光并废弃)

种族偏见

  • 人脸识别错误率差异:NIST 2019 年研究发现,多款主流人脸识别系统对非裔美国人的误报率比对白人高出 10-100 倍
  • 情感分析偏见:分析非裔美国英语(AAVE,Black English)时往往被标记为更具攻击性
  • 医疗 AI:某商业医疗 AI 系统被发现系统性地为黑人患者分配更少的医疗资源(Obermeyer et al., Science 2019)

年龄偏见

  • 图像生成 AI 在要求生成"领导者"时更多生成中年人,而非老年人或年轻人
  • 简历筛选 AI 可能对年龄较大的候选人给出偏低评分

地域与语言偏见

  • 英语以外的语言在 LLM 能力上普遍较差(低资源语言更明显)
  • 对特定国家或地区的内容审核标准可能不一致

典型案例

COMPAS 刑事风险评估

COMPAS(Correctional Offender Management Profiling for Alternative Sanctions)是美国法院广泛使用的累犯风险评估算法:

  • ProPublica 2016 年调查发现:COMPAS 对黑人被告的高风险误判率(将低风险人员判为高风险)是白人被告的两倍
  • 而对白人被告的低风险误判率(将高风险人员判为低风险)则更高
  • 这意味着黑人被告受到更严厉对待,而白人被告则受到更宽松对待
  • 该案例引发了学术界对算法公平性定义的激烈争论(不可能同时满足所有公平性指标)

人脸识别种族歧视

  • MIT Media Lab 研究员 Joy Buolamwini 发现:商业人脸分析系统(IBM、Microsoft、Face++)对深色皮肤女性的性别分类错误率高达 35%,而对浅色皮肤男性的错误率不足 1%
  • 此研究促使 IBM 和 Microsoft 暂停了面向执法机构的人脸识别业务

简历筛选性别偏见

  • Amazon 内部开发了一套 AI 招聘工具,使用历史简历训练
  • 因为过去10年的招聘以男性为主,AI 学会了对包含"女性"(如:女子大学、女性工程师协会)等词汇的简历降分
  • 2018 年被迫废弃该系统

检测方法

差异化影响测试(Disparate Impact Testing)

统计检测:比较 AI 系统对不同群体的决策结果是否存在显著差异

# 简化示例
approval_rate_group_A = approved_A / total_A
approval_rate_group_B = approved_B / total_B

disparate_impact_ratio = approval_rate_A / approval_rate_B
# EEOC 80% 规则:比率低于 0.8 视为存在差异化影响
if disparate_impact_ratio < 0.8:
flag_for_review()

对抗性评估(Adversarial Evaluation)

设计专门的测试集,包含仅改变敏感属性(性别、种族)的配对样本:

  • "张伟(男)申请贷款" vs "张丽(女)申请贷款"(其余条件完全相同)
  • 理想情况下,AI 决策不应因敏感属性改变而改变

词嵌入偏见评估(WEAT)

衡量词嵌入空间中概念的关联关系,检测隐式偏见:

  • 测试"编程""工程"等词是否更接近男性相关词汇
  • 测试"家庭""照顾"等词是否更接近女性相关词汇

缓解策略

数据增强

  • 通过收集更多代表性不足群体的数据来平衡训练集
  • 数据合成:生成少数群体的合成样本(需谨慎,可能引入新的偏见)
  • 反事实数据增强:将已有数据中的敏感属性替换,创建配对样本

对抗去偏(Adversarial Debiasing)

训练一个判别器,专门预测敏感属性;同时训练主模型使判别器无法成功——迫使主模型放弃对敏感属性的依赖。

重新权重(Reweighting)

对训练数据中少数群体的样本赋予更高权重,使模型在各群体上均衡学习。


公平性指标

AI 公平性(Fairness)存在多种不同定义,且这些定义之间存在数学矛盾(不可能同时满足):

  • 个体公平(Individual Fairness):相似个体应受到相似对待
  • 群体公平(Group Fairness):不同群体的错误率应相近
    • 均等机会(Equalized Odds):各群体的真正率和假正率相同
    • 人口平等(Demographic Parity):各群体的通过率相同
    • 预测准确性(Calibration):相同预测分数下各群体的实际风险相同

COMPAS 案例已经从理论上证明:当不同群体的基础率(base rate)不同时,这些公平性定义无法同时满足。选择哪种公平性定义本质上是一个价值判断。


行业自律与监管

  • 欧盟 AI Act:将高风险 AI(用于就业、信贷、教育等领域)的公平性要求纳入法律
  • 美国 CFPB:要求信贷 AI 系统提供拒贷原因说明,可间接约束偏见
  • 企业自律:谷歌、微软、IBM 均发布了 AI 公平性原则和评估工具(Fairlearn、What-If Tool)