大语言模型（LLM）概述

大语言模型（Large Language Model，LLM）是近年来人工智能领域最具变革性的技术成果之一。本章将从定义出发，逐步深入介绍 LLM 的核心概念、能力特征以及章节结构。

什么是大语言模型

大语言模型是一类基于 Transformer 架构、在海量文本数据上预训练的神经网络模型。其"大"体现在两个维度：

参数规模大：从数十亿（Billion）到数千亿参数不等，例如 GPT-3 拥有 1750 亿参数，GPT-4 据估计超过万亿参数
训练数据大：预训练语料通常达到万亿（Trillion）Token 级别，涵盖网页、书籍、代码、学术论文等多种来源

LLM 的核心任务是语言建模（Language Modeling）：给定一段文本上下文，预测下一个 Token 的概率分布。看似简单的目标，却在足够大的规模下催生了惊人的通用能力。

与传统 NLP 的本质区别

在 LLM 兴起之前，自然语言处理（NLP）领域以任务专用模型为主导。每个任务（情感分析、命名实体识别、机器翻译、问答等）都需要单独设计模型结构、收集标注数据、训练和调优。

LLM 带来的范式转变体现在以下几个方面：

通用性：单一模型可以处理数百种下游任务，无需任务专用的结构设计
少样本学习（Few-Shot Learning）：通过在 Prompt 中给出少量示例，无需梯度更新即可适配新任务
零样本能力（Zero-Shot）：对于从未明确训练过的任务，仅凭自然语言描述即可给出合理输出
涌现能力（Emergent Abilities）：某些能力（如多步推理、代码生成）在模型规模超过特定阈值后突然出现，小模型完全不具备
交互方式：从"写代码调用 API"转变为"用自然语言对话"，极大降低使用门槛

传统 NLP 流程需要：标注数据 → 特征工程 → 模型训练 → 任务部署。LLM 将这一流程压缩为：写 Prompt → 调用 API。

能力涌现：规模带来的质变

涌现能力（Emergent Abilities）是 LLM 区别于小型模型最神秘、最重要的特性之一。研究人员发现，当模型参数量跨越某个阈值时，某些能力会从"几乎为零"跃升至"相当可用"，呈现出非线性的跳跃式增长，而非随规模线性提升。

典型的涌现能力包括：

思维链推理（Chain-of-Thought）：100B 参数以上的模型在特定提示下能够逐步推理解题
指令遵循：模型理解并执行复杂、多步骤自然语言指令的能力
代码生成与调试：在足够大的规模下，模型能够编写可运行的完整程序
少样本类比：从极少量示例中归纳规律并应用到新样本

涌现能力的存在意味着，评估 LLM 能力不能简单外推小模型的表现，必须在目标规模下实测。这也是 Scaling Law 研究的核心驱动力之一。

大语言模型的应用场景

LLM 已在多个领域展示出实用价值：

对话助手：ChatGPT、Claude、Gemini 等产品为数亿用户提供问答、写作、分析服务
代码辅助：GitHub Copilot、Cursor 等工具显著提升开发者生产力
内容创作：营销文案、新闻摘要、学术写作辅助
知识检索：结合 RAG（检索增强生成）提供基于私有知识库的问答
Agent 系统：LLM 作为推理核心，调用外部工具完成复杂任务

本章结构导读

本章内容按照"原理 → 模型 → 训练 → 评测"的逻辑顺序组织：

原理篇

深入讲解支撑 LLM 运作的核心技术机制：

自回归语言模型：next-token prediction 的数学本质与推理策略
Tokenization 与词汇表：文本如何被切分为模型可处理的 Token 序列
Scaling Law：参数量、数据量、计算量之间的定量关系
注意力机制详解：Transformer 架构的核心组件及其工程优化

模型篇

梳理当前主流 LLM 产品与开源模型的发展脉络：

GPT 系列：OpenAI 从 GPT-1 到 o3 的技术演进
Claude 系列：Anthropic 的安全优先路线
Gemini 系列：Google DeepMind 的多模态原生设计
LLaMA 系列：Meta 的开源战略与生态影响
开源全景：Mistral、Qwen、DeepSeek 等多元选择

训练篇

解析将原始语言模型训练为实用助手的完整流程：

大规模预训练：数据准备、训练目标与工程挑战
监督微调（SFT）：指令遵循能力的建立
RLHF 与偏好优化：人类反馈强化学习与 DPO 简化方案
LoRA 与参数高效微调：低资源场景下的模型定制
模型对齐：安全、无害、诚实目标的技术实现

评测篇

建立系统化的模型评估视角：

LLM 评测体系：基准数据集、排行榜与评测局限性分析

什么是大语言模型​

与传统 NLP 的本质区别​

能力涌现：规模带来的质变​

大语言模型的应用场景​

本章结构导读​

原理篇​

模型篇​

训练篇​

评测篇​

什么是大语言模型

与传统 NLP 的本质区别

能力涌现：规模带来的质变

大语言模型的应用场景

本章结构导读

原理篇

模型篇

训练篇

评测篇