LLM 评测体系

随着大语言模型的快速发展，如何科学、客观地评估模型能力成为关键问题。本文系统介绍 LLM 评测的维度、主流基准数据集、排行榜以及评测体系的局限性。

评测维度

LLM 的能力是多维度的，单一基准无法全面衡量模型质量。主要评测维度包括：

知识与理解

多学科知识的广度和准确性（医学、法律、科学、历史等）
常识推理与世界知识
多语言理解能力

推理能力

数学推理（多步计算、代数、几何）
逻辑推理（演绎、归纳、类比）
科学推理（物理、化学问题求解）

代码生成

代码正确性（能否通过测试用例）
代码质量（可读性、效率）
代码调试（找出并修复 Bug）
真实工程任务（修复 GitHub Issue）

安全性

有害内容生成率（红队测试）
越狱（Jailbreak）抵抗性
敏感话题处理的一致性

指令遵循

复杂、多步骤指令的准确执行
格式要求的遵循（如"以 JSON 格式输出"）
约束条件的满足

长上下文理解

从超长文档中精确检索信息
长文档摘要的准确性
跨多文档的信息综合

主要英文基准

MMLU（Massive Multitask Language Understanding）

题目数量：约 57 个学科，14,000+ 多项选择题
覆盖范围：数学、物理、历史、法律、医学、计算机科学等
格式：四选一多项选择，零样本或少样本
用途：衡量模型广泛知识覆盖能力
局限：多项选择格式与真实对话差距大；高分模型之间区分度下降（天花板效应）

代表性得分（截至 2024 年底）：

GPT-4o：约 88.7%
Claude 3.5 Sonnet：约 88.7%
LLaMA 3.1 405B：约 88.6%
人类专家：约 89.8%

HumanEval（代码）

题目数量：164 道 Python 编程题
评测方式：pass@k（k次生成中至少一次通过所有测试用例的比例）
覆盖范围：字符串处理、数学计算、列表操作等基础编程
用途：衡量代码生成基础能力

GSM8K（小学数学）

题目数量：8,500 道小学数学文字题（训练集 7,473，测试集 1,319）
格式：多步骤文字题，要求逐步推理并给出数值答案
用途：衡量基础数学推理能力
现状：顶级模型（GPT-4o、Claude 3.5）已接近满分（98%+），区分度不足

HellaSwag（常识推理）

任务：给定情境描述，选择最合理的续写（四选一）
人类准确率：约 95%，早期 LLM（GPT-2）仅约 40%
现状：顶级模型已接近人类水平，区分度有限

MATH（竞赛数学）

题目数量：12,500 道数学竞赛题（AMC、AIME 级别）
难度：从初级竞赛到 IMO 预选题
格式：开放作答，需精确生成数学表达式或数值
用途：衡量高阶数学推理，仍有良好区分度
代表性得分：GPT-4o 约 76%，o1 约 94%，o3 接近 97%

GPQA（Graduate-Level Problem-Solving）

题目数量：448 道研究生级别多项选择题（生物学、物理学、化学）
人类专家（博士）准确率：约 65%
特点：题目需要真正的深度理解，即使通过搜索引擎也难以作答
代表性得分：GPT-4o 约 53%，Claude 3.5 Sonnet 约 59%，o1 约 78%

中文基准

C-Eval

题目数量：13,948 道多项选择题，52 个学科
语言：中文
覆盖：中国高中到大学专业知识，包含中国特色学科（马克思主义、中国近代史）
用途：衡量模型对中文知识和中国教育体系的掌握程度

CMMLU（Chinese Massive Multitask Language Understanding）

中文版 MMLU，覆盖 67 个科目
包含更多中国本土文化、历史、法律知识
与 C-Eval 互补，更全面覆盖中文知识

AlignBench

评测方式：基于 GPT-4 的自动评分，人工校验
覆盖维度：中文写作、中文推理、中文知识、角色扮演、代码、数学等
特点：评测模型的综合中文能力，使用裁判模型（Judge LM）打分
由智源研究院（BAAI）开发

代码评测

LiveCodeBench

特点：持续收集竞赛编程平台（LeetCode、Codeforces、AtCoder）的最新题目
优势：防止数据污染（题目发布在模型训练数据截止日期之后）
格式：算法竞赛题，多个测试用例验证

SWE-Bench（真实工程任务）

任务：给定真实 GitHub Issue，要求模型修改代码库使相应测试用例通过
SWE-Bench Verified：人工验证的 500 个可解 Issue
代表性得分（2024 年）：
- Claude 3.5 Sonnet：约 49%（使用 Scaffold）
- GPT-4o：约 38%
- 开源最佳：约 35%
意义：最接近真实软件工程场景的代码评测

竞技场排行

Chatbot Arena（LMSYS）

机制：用户与两个匿名 LLM 对话，对比后投票选出更好的回答（盲测）
评分系统：Elo 评分（来自国际象棋等竞技系统）
数据量：数百万次人工投票，覆盖多种语言和任务类型
优势：基于真实用户偏好，不可游榜（模型身份对用户隐藏）
局限：用户分布有偏（技术用户偏多），任务分布与真实应用有差异

Chatbot Arena 被广泛认为是最能反映"真实用户满意度"的 LLM 排行榜。

评测的局限性

数据污染（Data Contamination）

评测数据集可能已出现在模型训练语料中（通过爬虫）
模型可能是在"记忆答案"而非真正理解
缓解方法：使用动态更新的评测集（如 LiveCodeBench）、在训练数据截止后发布测试集

游榜问题（Benchmark Gaming）

模型开发者针对特定基准进行专项优化（如大量使用与基准风格相近的训练数据）
基准分数提升，但真实能力并未等比提升
典型案例：某些模型在 MMLU 上刷分但在 Chatbot Arena 上排名远低于预期

主观偏好的不可测量性

许多真实应用中最重要的因素（如回答的有趣程度、写作风格）难以量化
不同用户对"好回答"的定义可能截然不同
文化差异导致评测结果在不同地区的适用性存疑

评测覆盖不完整

现有基准主要评测知识和推理，对"长期对话一致性""复杂 Agent 任务"等能力覆盖不足
安全性评测（红队测试）难以系统化，存在"猫鼠游戏"问题

自动评测 vs 人工评测

维度	自动评测	人工评测
成本	低（可大规模运行）	高（人力密集）
速度	快（分钟级）	慢（天到周级）
一致性	高（完全可复现）	低（标注员差异）
主观任务	差（需要裁判模型，引入偏差）	好（人类能感知微妙差异）
覆盖面	有限（已有数据集范围内）	灵活（可评测任意任务）
代表性	有限（可能不反映真实用例）	高（用户真实感受）

**裁判模型（LLM-as-Judge）**是近年兴起的折中方案：用 GPT-4 等强大模型对 LLM 输出打分，结合自动评测的速度和人工评测的灵活性，但继承了裁判模型自身的偏见（如偏好自身风格、偏爱较长回答等）。

构建全面可信的 LLM 评测体系，是 AI 研究社区当前面临的重要方法论挑战之一。

评测维度​

知识与理解​

推理能力​

代码生成​

安全性​

指令遵循​

长上下文理解​

主要英文基准​

MMLU（Massive Multitask Language Understanding）​

HumanEval（代码）​

GSM8K（小学数学）​

HellaSwag（常识推理）​

MATH（竞赛数学）​

GPQA（Graduate-Level Problem-Solving）​

中文基准​

C-Eval​

CMMLU（Chinese Massive Multitask Language Understanding）​

AlignBench​

代码评测​

LiveCodeBench​

SWE-Bench（真实工程任务）​

竞技场排行​

Chatbot Arena（LMSYS）​

评测的局限性​

数据污染（Data Contamination）​

游榜问题（Benchmark Gaming）​

主观偏好的不可测量性​

评测覆盖不完整​

自动评测 vs 人工评测​