LLaMA 系列与 Meta AI

LLaMA（Large Language Model Meta AI）是 Meta 发布的开源大语言模型系列，以开放权重（Open Weights）策略重塑了 LLM 生态，催生了数以百计的开源派生模型，成为开源 AI 运动最重要的里程碑之一。

Meta 的开源战略逻辑

Meta（前 Facebook）选择开源大模型，与 OpenAI 的闭源路线形成鲜明对比。其战略逻辑包括：

平台竞争：Meta 不以 AI API 为主要商业模式，开源 LLaMA 可打压竞争对手的 API 定价，降低整个行业的使用成本，从而将竞争转移到 Meta 更擅长的社交/广告生态
研究生态：开放模型权重吸引学术界和开发者社区，产生大量高质量研究成果，反哺 Meta 的 AI 研究
人才吸引：开源贡献提升 Meta AI Research 在技术社区的声誉
商业实用性：降低内部团队使用 AI 的成本和复杂度
Yann LeCun 的技术信念：Meta 首席 AI 科学家 Yann LeCun 长期倡导开放科学，认为开源是 AI 良性发展的关键

LLaMA 1（2023 年 2 月）：学术开放

论文：LLaMA: Open and Efficient Foundation Language Models

模型规模：7B、13B、33B、65B 参数
训练数据：约 1.4T Token（Common Crawl、GitHub、Wikipedia、Books、ArXiv、StackExchange）
授权：仅限非商业研究用途

LLaMA 1 的关键技术选择：

采用**Pre-normalization（RMSNorm）**而非 Post-normalization
使用 SwiGLU 激活函数（优于 ReLU 和 GeLU）
使用 RoPE（旋转位置编码）代替绝对位置编码
这些选择后来被几乎所有主流开源模型沿用

LLaMA 1 在发布后不久，模型权重通过 BitTorrent 泄露，实际上流向了整个社区。这次"意外"泄露大大加速了开源生态的发展。

LLaMA 2（2023 年 7 月）：商业开放

论文：Llama 2: Open Foundation and Fine-Tuned Chat Models

模型规模：7B、13B、34B（部分发布）、70B
训练数据：约 2T Token，数据质量大幅提升
授权：商业可用（月活跃用户超 7 亿的产品需额外申请）
Chat 版本：同时发布 Llama-2-Chat，经过 RLHF 对齐，可直接用于对话

LLaMA 2 的改进：

上下文窗口从 2K 扩展至 4K Token
70B 模型性能接近但略低于 GPT-3.5
Ghost Attention（GAttI）：在 RLHF 训练中保持系统提示的连贯性

LLaMA 3（2024 年 4 月）：大幅跃升

论文：The Llama 3 Herd of Models

模型规模：8B、70B、405B
训练数据：超过 15T Token（约为 LLaMA 2 的 7 倍）
词汇表：从 32K 扩展至 128K Token（大幅提升多语言覆盖率）
上下文：8K Token（后续版本扩展至 128K）

关键技术升级：

GQA（分组查询注意力）：应用于 8B 和 70B，减少 KV Cache，提升推理效率
超过 Chinchilla 最优的数据量：用更多 Token 训练更小模型，优化推理效率
更高质量的指令微调数据：超过 1000 万条精心筛选的 SFT 数据

性能：

LLaMA 3 8B 超越 LLaMA 2 70B 的多项能力
LLaMA 3 70B 在代码（HumanEval）、推理（MATH）、对话上接近 GPT-4

LLaMA 3.1/3.2/3.3：快速迭代

LLaMA 3.1（2024 年 7 月）：

405B 参数旗舰模型发布，与 GPT-4o 和 Claude 3.5 Sonnet 正面竞争
上下文扩展至 128K Token
8B 和 70B 同步升级至 128K 上下文
强化工具调用（Function Calling）能力

LLaMA 3.2（2024 年 9 月）：

新增多模态变体：11B 和 90B 视觉语言模型（Vision LM）
新增轻量级设备端模型：1B 和 3B（面向手机端本地推理）
1B/3B 模型针对边缘设备（手机/笔记本）进行量化优化

LLaMA 3.3（2024 年 12 月）：

70B 指令调优版本（工具调用、代码能力进一步提升）
接近 LLaMA 3.1 405B 的能力，仅需 70B 的计算成本

开源生态影响

LLaMA 发布后，开源社区围绕其权重构建了极其丰富的生态：

早期派生模型（基于 LLaMA 1/2）

Alpaca（Stanford）：5 万条 Self-Instruct 数据微调，成本约 600 美元，展示了廉价指令微调的可行性
Vicuna（Berkeley/CMU）：用 ShareGPT 数据（真实 ChatGPT 对话）微调，接近 ChatGPT 90% 能力
WizardLM（Microsoft）：Evol-Instruct 方法自动生成复杂指令数据
Code Llama（Meta 自研）：专门针对代码场景微调

独立新架构（受 LLaMA 启发）

Mistral 7B：新架构（Sliding Window Attention），以小模型在多个基准上超越 LLaMA 2 13B
Mixtral 8x7B：Mistral 的 MoE 架构版本

量化与本地部署

llama.cpp（Georgi Gerganov）：纯 C++ 实现，支持 CPU 推理，使 LLaMA 在普通笔记本上可运行
Ollama：封装 llama.cpp，一行命令运行本地 LLM
LM Studio：图形化本地 LLM 管理工具

本地部署可行性

LLaMA 系列开创了消费级硬件运行 LLM 的可能性：

模型	量化版本	推荐显存/内存	典型硬件
LLaMA 3 8B	Q4_K_M	6-8 GB	RTX 3060 / M2 MacBook
LLaMA 3 8B	FP16	16 GB	RTX 4080 / M2 Pro
LLaMA 3 70B	Q4_K_M	40-48 GB	双 RTX 4090 / Mac Studio
LLaMA 3.1 405B	Q4	~200 GB	8×A100 集群

量化（Quantization）是本地部署的关键技术：通过将 FP16（16位浮点）权重压缩至 4bit 或 8bit 整数，模型体积减少 75%，推理速度在 CPU 上可接受，精度损失通常在 5% 以内。

Meta vs OpenAI：开源对决的深远影响

LLaMA 的开源策略对整个 AI 行业产生了深刻影响：

定价压力：开源模型的存在迫使 OpenAI、Anthropic 等持续降低 API 价格
隐私与控制：企业可以部署本地 LLaMA 模型，数据不离开内网
定制化：允许在私有数据上微调，不依赖第三方 API
研究加速：数百个研究团队基于 LLaMA 发表论文，推动对 LLM 机制的理解
监管讨论：欧盟 AI 法规是否对开源模型同等约束成为政策争议热点

Meta 的开源战略逻辑​

LLaMA 1（2023 年 2 月）：学术开放​

LLaMA 2（2023 年 7 月）：商业开放​

LLaMA 3（2024 年 4 月）：大幅跃升​

LLaMA 3.1/3.2/3.3：快速迭代​

开源生态影响​

早期派生模型（基于 LLaMA 1/2）​

独立新架构（受 LLaMA 启发）​

量化与本地部署​

本地部署可行性​

Meta vs OpenAI：开源对决的深远影响​