跳到主要内容

LLaMA 系列与 Meta AI

LLaMA(Large Language Model Meta AI)是 Meta 发布的开源大语言模型系列,以开放权重(Open Weights)策略重塑了 LLM 生态,催生了数以百计的开源派生模型,成为开源 AI 运动最重要的里程碑之一。

Meta 的开源战略逻辑

Meta(前 Facebook)选择开源大模型,与 OpenAI 的闭源路线形成鲜明对比。其战略逻辑包括:

  • 平台竞争:Meta 不以 AI API 为主要商业模式,开源 LLaMA 可打压竞争对手的 API 定价,降低整个行业的使用成本,从而将竞争转移到 Meta 更擅长的社交/广告生态
  • 研究生态:开放模型权重吸引学术界和开发者社区,产生大量高质量研究成果,反哺 Meta 的 AI 研究
  • 人才吸引:开源贡献提升 Meta AI Research 在技术社区的声誉
  • 商业实用性:降低内部团队使用 AI 的成本和复杂度
  • Yann LeCun 的技术信念:Meta 首席 AI 科学家 Yann LeCun 长期倡导开放科学,认为开源是 AI 良性发展的关键

LLaMA 1(2023 年 2 月):学术开放

论文LLaMA: Open and Efficient Foundation Language Models

  • 模型规模:7B、13B、33B、65B 参数
  • 训练数据:约 1.4T Token(Common Crawl、GitHub、Wikipedia、Books、ArXiv、StackExchange)
  • 授权:仅限非商业研究用途

LLaMA 1 的关键技术选择:

  • 采用**Pre-normalization(RMSNorm)**而非 Post-normalization
  • 使用 SwiGLU 激活函数(优于 ReLU 和 GeLU)
  • 使用 RoPE(旋转位置编码)代替绝对位置编码
  • 这些选择后来被几乎所有主流开源模型沿用

LLaMA 1 在发布后不久,模型权重通过 BitTorrent 泄露,实际上流向了整个社区。这次"意外"泄露大大加速了开源生态的发展。

LLaMA 2(2023 年 7 月):商业开放

论文Llama 2: Open Foundation and Fine-Tuned Chat Models

  • 模型规模:7B、13B、34B(部分发布)、70B
  • 训练数据:约 2T Token,数据质量大幅提升
  • 授权:商业可用(月活跃用户超 7 亿的产品需额外申请)
  • Chat 版本:同时发布 Llama-2-Chat,经过 RLHF 对齐,可直接用于对话

LLaMA 2 的改进:

  • 上下文窗口从 2K 扩展至 4K Token
  • 70B 模型性能接近但略低于 GPT-3.5
  • Ghost Attention(GAttI):在 RLHF 训练中保持系统提示的连贯性

LLaMA 3(2024 年 4 月):大幅跃升

论文The Llama 3 Herd of Models

  • 模型规模:8B、70B、405B
  • 训练数据:超过 15T Token(约为 LLaMA 2 的 7 倍)
  • 词汇表:从 32K 扩展至 128K Token(大幅提升多语言覆盖率)
  • 上下文:8K Token(后续版本扩展至 128K)

关键技术升级:

  • GQA(分组查询注意力):应用于 8B 和 70B,减少 KV Cache,提升推理效率
  • 超过 Chinchilla 最优的数据量:用更多 Token 训练更小模型,优化推理效率
  • 更高质量的指令微调数据:超过 1000 万条精心筛选的 SFT 数据

性能:

  • LLaMA 3 8B 超越 LLaMA 2 70B 的多项能力
  • LLaMA 3 70B 在代码(HumanEval)、推理(MATH)、对话上接近 GPT-4

LLaMA 3.1/3.2/3.3:快速迭代

LLaMA 3.1(2024 年 7 月)

  • 405B 参数旗舰模型发布,与 GPT-4o 和 Claude 3.5 Sonnet 正面竞争
  • 上下文扩展至 128K Token
  • 8B 和 70B 同步升级至 128K 上下文
  • 强化工具调用(Function Calling)能力

LLaMA 3.2(2024 年 9 月)

  • 新增多模态变体:11B 和 90B 视觉语言模型(Vision LM)
  • 新增轻量级设备端模型:1B 和 3B(面向手机端本地推理)
  • 1B/3B 模型针对边缘设备(手机/笔记本)进行量化优化

LLaMA 3.3(2024 年 12 月)

  • 70B 指令调优版本(工具调用、代码能力进一步提升)
  • 接近 LLaMA 3.1 405B 的能力,仅需 70B 的计算成本

开源生态影响

LLaMA 发布后,开源社区围绕其权重构建了极其丰富的生态:

早期派生模型(基于 LLaMA 1/2)

  • Alpaca(Stanford):5 万条 Self-Instruct 数据微调,成本约 600 美元,展示了廉价指令微调的可行性
  • Vicuna(Berkeley/CMU):用 ShareGPT 数据(真实 ChatGPT 对话)微调,接近 ChatGPT 90% 能力
  • WizardLM(Microsoft):Evol-Instruct 方法自动生成复杂指令数据
  • Code Llama(Meta 自研):专门针对代码场景微调

独立新架构(受 LLaMA 启发)

  • Mistral 7B:新架构(Sliding Window Attention),以小模型在多个基准上超越 LLaMA 2 13B
  • Mixtral 8x7B:Mistral 的 MoE 架构版本

量化与本地部署

  • llama.cpp(Georgi Gerganov):纯 C++ 实现,支持 CPU 推理,使 LLaMA 在普通笔记本上可运行
  • Ollama:封装 llama.cpp,一行命令运行本地 LLM
  • LM Studio:图形化本地 LLM 管理工具

本地部署可行性

LLaMA 系列开创了消费级硬件运行 LLM 的可能性:

模型量化版本推荐显存/内存典型硬件
LLaMA 3 8BQ4_K_M6-8 GBRTX 3060 / M2 MacBook
LLaMA 3 8BFP1616 GBRTX 4080 / M2 Pro
LLaMA 3 70BQ4_K_M40-48 GB双 RTX 4090 / Mac Studio
LLaMA 3.1 405BQ4~200 GB8×A100 集群

量化(Quantization)是本地部署的关键技术:通过将 FP16(16位浮点)权重压缩至 4bit 或 8bit 整数,模型体积减少 75%,推理速度在 CPU 上可接受,精度损失通常在 5% 以内。

Meta vs OpenAI:开源对决的深远影响

LLaMA 的开源策略对整个 AI 行业产生了深刻影响:

  • 定价压力:开源模型的存在迫使 OpenAI、Anthropic 等持续降低 API 价格
  • 隐私与控制:企业可以部署本地 LLaMA 模型,数据不离开内网
  • 定制化:允许在私有数据上微调,不依赖第三方 API
  • 研究加速:数百个研究团队基于 LLaMA 发表论文,推动对 LLM 机制的理解
  • 监管讨论:欧盟 AI 法规是否对开源模型同等约束成为政策争议热点