跳到主要内容

LLM 评测体系

随着大语言模型的快速发展,如何科学、客观地评估模型能力成为关键问题。本文系统介绍 LLM 评测的维度、主流基准数据集、排行榜以及评测体系的局限性。

评测维度

LLM 的能力是多维度的,单一基准无法全面衡量模型质量。主要评测维度包括:

知识与理解

  • 多学科知识的广度和准确性(医学、法律、科学、历史等)
  • 常识推理与世界知识
  • 多语言理解能力

推理能力

  • 数学推理(多步计算、代数、几何)
  • 逻辑推理(演绎、归纳、类比)
  • 科学推理(物理、化学问题求解)

代码生成

  • 代码正确性(能否通过测试用例)
  • 代码质量(可读性、效率)
  • 代码调试(找出并修复 Bug)
  • 真实工程任务(修复 GitHub Issue)

安全性

  • 有害内容生成率(红队测试)
  • 越狱(Jailbreak)抵抗性
  • 敏感话题处理的一致性

指令遵循

  • 复杂、多步骤指令的准确执行
  • 格式要求的遵循(如"以 JSON 格式输出")
  • 约束条件的满足

长上下文理解

  • 从超长文档中精确检索信息
  • 长文档摘要的准确性
  • 跨多文档的信息综合

主要英文基准

MMLU(Massive Multitask Language Understanding)

  • 题目数量:约 57 个学科,14,000+ 多项选择题
  • 覆盖范围:数学、物理、历史、法律、医学、计算机科学等
  • 格式:四选一多项选择,零样本或少样本
  • 用途:衡量模型广泛知识覆盖能力
  • 局限:多项选择格式与真实对话差距大;高分模型之间区分度下降(天花板效应)

代表性得分(截至 2024 年底):

  • GPT-4o:约 88.7%
  • Claude 3.5 Sonnet:约 88.7%
  • LLaMA 3.1 405B:约 88.6%
  • 人类专家:约 89.8%

HumanEval(代码)

  • 题目数量:164 道 Python 编程题
  • 评测方式:pass@k(k次生成中至少一次通过所有测试用例的比例)
  • 覆盖范围:字符串处理、数学计算、列表操作等基础编程
  • 用途:衡量代码生成基础能力

GSM8K(小学数学)

  • 题目数量:8,500 道小学数学文字题(训练集 7,473,测试集 1,319)
  • 格式:多步骤文字题,要求逐步推理并给出数值答案
  • 用途:衡量基础数学推理能力
  • 现状:顶级模型(GPT-4o、Claude 3.5)已接近满分(98%+),区分度不足

HellaSwag(常识推理)

  • 任务:给定情境描述,选择最合理的续写(四选一)
  • 人类准确率:约 95%,早期 LLM(GPT-2)仅约 40%
  • 现状:顶级模型已接近人类水平,区分度有限

MATH(竞赛数学)

  • 题目数量:12,500 道数学竞赛题(AMC、AIME 级别)
  • 难度:从初级竞赛到 IMO 预选题
  • 格式:开放作答,需精确生成数学表达式或数值
  • 用途:衡量高阶数学推理,仍有良好区分度
  • 代表性得分:GPT-4o 约 76%,o1 约 94%,o3 接近 97%

GPQA(Graduate-Level Problem-Solving)

  • 题目数量:448 道研究生级别多项选择题(生物学、物理学、化学)
  • 人类专家(博士)准确率:约 65%
  • 特点:题目需要真正的深度理解,即使通过搜索引擎也难以作答
  • 代表性得分:GPT-4o 约 53%,Claude 3.5 Sonnet 约 59%,o1 约 78%

中文基准

C-Eval

  • 题目数量:13,948 道多项选择题,52 个学科
  • 语言:中文
  • 覆盖:中国高中到大学专业知识,包含中国特色学科(马克思主义、中国近代史)
  • 用途:衡量模型对中文知识和中国教育体系的掌握程度

CMMLU(Chinese Massive Multitask Language Understanding)

  • 中文版 MMLU,覆盖 67 个科目
  • 包含更多中国本土文化、历史、法律知识
  • 与 C-Eval 互补,更全面覆盖中文知识

AlignBench

  • 评测方式:基于 GPT-4 的自动评分,人工校验
  • 覆盖维度:中文写作、中文推理、中文知识、角色扮演、代码、数学等
  • 特点:评测模型的综合中文能力,使用裁判模型(Judge LM)打分
  • 由智源研究院(BAAI)开发

代码评测

LiveCodeBench

  • 特点:持续收集竞赛编程平台(LeetCode、Codeforces、AtCoder)的最新题目
  • 优势:防止数据污染(题目发布在模型训练数据截止日期之后)
  • 格式:算法竞赛题,多个测试用例验证

SWE-Bench(真实工程任务)

  • 任务:给定真实 GitHub Issue,要求模型修改代码库使相应测试用例通过
  • SWE-Bench Verified:人工验证的 500 个可解 Issue
  • 代表性得分(2024 年):
    • Claude 3.5 Sonnet:约 49%(使用 Scaffold)
    • GPT-4o:约 38%
    • 开源最佳:约 35%
  • 意义:最接近真实软件工程场景的代码评测

竞技场排行

Chatbot Arena(LMSYS)

  • 机制:用户与两个匿名 LLM 对话,对比后投票选出更好的回答(盲测)
  • 评分系统:Elo 评分(来自国际象棋等竞技系统)
  • 数据量:数百万次人工投票,覆盖多种语言和任务类型
  • 优势:基于真实用户偏好,不可游榜(模型身份对用户隐藏)
  • 局限:用户分布有偏(技术用户偏多),任务分布与真实应用有差异

Chatbot Arena 被广泛认为是最能反映"真实用户满意度"的 LLM 排行榜。

评测的局限性

数据污染(Data Contamination)

  • 评测数据集可能已出现在模型训练语料中(通过爬虫)
  • 模型可能是在"记忆答案"而非真正理解
  • 缓解方法:使用动态更新的评测集(如 LiveCodeBench)、在训练数据截止后发布测试集

游榜问题(Benchmark Gaming)

  • 模型开发者针对特定基准进行专项优化(如大量使用与基准风格相近的训练数据)
  • 基准分数提升,但真实能力并未等比提升
  • 典型案例:某些模型在 MMLU 上刷分但在 Chatbot Arena 上排名远低于预期

主观偏好的不可测量性

  • 许多真实应用中最重要的因素(如回答的有趣程度、写作风格)难以量化
  • 不同用户对"好回答"的定义可能截然不同
  • 文化差异导致评测结果在不同地区的适用性存疑

评测覆盖不完整

  • 现有基准主要评测知识和推理,对"长期对话一致性""复杂 Agent 任务"等能力覆盖不足
  • 安全性评测(红队测试)难以系统化,存在"猫鼠游戏"问题

自动评测 vs 人工评测

维度自动评测人工评测
成本低(可大规模运行)高(人力密集)
速度快(分钟级)慢(天到周级)
一致性高(完全可复现)低(标注员差异)
主观任务差(需要裁判模型,引入偏差)好(人类能感知微妙差异)
覆盖面有限(已有数据集范围内)灵活(可评测任意任务)
代表性有限(可能不反映真实用例)高(用户真实感受)

**裁判模型(LLM-as-Judge)**是近年兴起的折中方案:用 GPT-4 等强大模型对 LLM 输出打分,结合自动评测的速度和人工评测的灵活性,但继承了裁判模型自身的偏见(如偏好自身风格、偏爱较长回答等)。

构建全面可信的 LLM 评测体系,是 AI 研究社区当前面临的重要方法论挑战之一。