跳到主要内容

大语言模型(LLM)概述

大语言模型(Large Language Model,LLM)是近年来人工智能领域最具变革性的技术成果之一。本章将从定义出发,逐步深入介绍 LLM 的核心概念、能力特征以及章节结构。

什么是大语言模型

大语言模型是一类基于 Transformer 架构、在海量文本数据上预训练的神经网络模型。其"大"体现在两个维度:

  • 参数规模大:从数十亿(Billion)到数千亿参数不等,例如 GPT-3 拥有 1750 亿参数,GPT-4 据估计超过万亿参数
  • 训练数据大:预训练语料通常达到万亿(Trillion)Token 级别,涵盖网页、书籍、代码、学术论文等多种来源

LLM 的核心任务是语言建模(Language Modeling):给定一段文本上下文,预测下一个 Token 的概率分布。看似简单的目标,却在足够大的规模下催生了惊人的通用能力。

与传统 NLP 的本质区别

在 LLM 兴起之前,自然语言处理(NLP)领域以任务专用模型为主导。每个任务(情感分析、命名实体识别、机器翻译、问答等)都需要单独设计模型结构、收集标注数据、训练和调优。

LLM 带来的范式转变体现在以下几个方面:

  • 通用性:单一模型可以处理数百种下游任务,无需任务专用的结构设计
  • 少样本学习(Few-Shot Learning):通过在 Prompt 中给出少量示例,无需梯度更新即可适配新任务
  • 零样本能力(Zero-Shot):对于从未明确训练过的任务,仅凭自然语言描述即可给出合理输出
  • 涌现能力(Emergent Abilities):某些能力(如多步推理、代码生成)在模型规模超过特定阈值后突然出现,小模型完全不具备
  • 交互方式:从"写代码调用 API"转变为"用自然语言对话",极大降低使用门槛

传统 NLP 流程需要:标注数据 → 特征工程 → 模型训练 → 任务部署。LLM 将这一流程压缩为:写 Prompt → 调用 API。

能力涌现:规模带来的质变

涌现能力(Emergent Abilities)是 LLM 区别于小型模型最神秘、最重要的特性之一。研究人员发现,当模型参数量跨越某个阈值时,某些能力会从"几乎为零"跃升至"相当可用",呈现出非线性的跳跃式增长,而非随规模线性提升。

典型的涌现能力包括:

  • 思维链推理(Chain-of-Thought):100B 参数以上的模型在特定提示下能够逐步推理解题
  • 指令遵循:模型理解并执行复杂、多步骤自然语言指令的能力
  • 代码生成与调试:在足够大的规模下,模型能够编写可运行的完整程序
  • 少样本类比:从极少量示例中归纳规律并应用到新样本

涌现能力的存在意味着,评估 LLM 能力不能简单外推小模型的表现,必须在目标规模下实测。这也是 Scaling Law 研究的核心驱动力之一。

大语言模型的应用场景

LLM 已在多个领域展示出实用价值:

  • 对话助手:ChatGPT、Claude、Gemini 等产品为数亿用户提供问答、写作、分析服务
  • 代码辅助:GitHub Copilot、Cursor 等工具显著提升开发者生产力
  • 内容创作:营销文案、新闻摘要、学术写作辅助
  • 知识检索:结合 RAG(检索增强生成)提供基于私有知识库的问答
  • Agent 系统:LLM 作为推理核心,调用外部工具完成复杂任务

本章结构导读

本章内容按照"原理 → 模型 → 训练 → 评测"的逻辑顺序组织:

原理篇

深入讲解支撑 LLM 运作的核心技术机制:

  • 自回归语言模型:next-token prediction 的数学本质与推理策略
  • Tokenization 与词汇表:文本如何被切分为模型可处理的 Token 序列
  • Scaling Law:参数量、数据量、计算量之间的定量关系
  • 注意力机制详解:Transformer 架构的核心组件及其工程优化

模型篇

梳理当前主流 LLM 产品与开源模型的发展脉络:

  • GPT 系列:OpenAI 从 GPT-1 到 o3 的技术演进
  • Claude 系列:Anthropic 的安全优先路线
  • Gemini 系列:Google DeepMind 的多模态原生设计
  • LLaMA 系列:Meta 的开源战略与生态影响
  • 开源全景:Mistral、Qwen、DeepSeek 等多元选择

训练篇

解析将原始语言模型训练为实用助手的完整流程:

  • 大规模预训练:数据准备、训练目标与工程挑战
  • 监督微调(SFT):指令遵循能力的建立
  • RLHF 与偏好优化:人类反馈强化学习与 DPO 简化方案
  • LoRA 与参数高效微调:低资源场景下的模型定制
  • 模型对齐:安全、无害、诚实目标的技术实现

评测篇

建立系统化的模型评估视角:

  • LLM 评测体系:基准数据集、排行榜与评测局限性分析