开源大模型全景
除 Meta 的 LLaMA 系列外,开源 LLM 生态中还涌现出多个重要玩家。本文梳理当前主流开源模型的核心特点、技术创新与适用场景,并提供模型选型指南。
Mistral 7B:高密度小模型的标杆
Mistral AI(法国,2023 年成立)以"用更小的模型做更多的事"为核心理念。
Mistral 7B(2023 年 9 月):
- 7B 参数,但在多项基准上超越 LLaMA 2 13B
- 核心技术创新:
- Sliding Window Attention(SWA):每个 Token 只关注固定窗口内的位置(如最近 4096 个 Token),通过递归传递捕捉长程依赖,大幅降低注意力计算复杂度
- GQA(分组查询注意力):减少 KV Cache 显存占用
- Apache 2.0 完全开源(无商业限制)
- 推理速度:小体积带来高吞吐量,适合批量推理
Mistral 7B 的出现打破了"性能随参数量线性增长"的惯性认知,推动行业重视模型密度(单位参数的能力)而非单纯参数规模。
Mixtral 8x7B:MoE 架构的开源代表
Mixtral 8x7B(2023 年 12 月):
- 采用 Mixture of Experts(MoE,混合专家) 架构
- 共有 8 个专家网络(Expert),每个 Token 推理时只激活 2 个专家
- 总参数 46.7B,但每个 Token 的实际计算量仅相当于 12.9B 模型
- 性能超越 LLaMA 2 70B,接近 GPT-3.5
MoE 架构的优势:
- 计算效率高:总参数大(知识容量大),激活参数少(推理速度快)
- 专业化分工:不同专家自发学习不同类型的知识/任务
- 可扩展性强:理论上可添加更多专家而不成比例增加推理成本
MoE 的挑战:
- 显存需求按总参数量而非激活参数量,需加载全部专家权重
- 负载均衡:防止某些专家过度使用,某些几乎未使用
Qwen2.5 系列:阿里云的中文最强
Qwen(通义千问)是阿里云 AI 事业部开发的模型系列,在中文能力方面名列前茅。
Qwen2.5 系列(2024 年 9 月):
- 规模覆盖:0.5B、1.5B、3B、7B、14B、32B、72B
- 词汇表:151,936 个 Token(包含大量中文高频词组)
- 训练数据:超过 18T Token,其中大量中文高质量数据
- 上下文窗口:128K Token
- 在中文理解、中文创作、中文知识问答等任务上位居开源模型前列
专项模型:
- Qwen2.5-Coder:代码专用,72B 版本在代码生成基准上接近 GPT-4o
- Qwen2.5-Math:数学专用,中英文数学推理能力突出
- Qwen-VL:视觉语言多模态版本
- Qwen-Audio:音频理解版本
授权:多数版本采用 Apache 2.0 或 Qwen License(商业用途可申请)。
DeepSeek R1/V3:国产顶级的成本革命
DeepSeek(深度求索,杭州)是 2024 年最引人注目的中国 AI 公司,以超低训练成本取得顶尖效果震惊业界。
DeepSeek-V3(2024 年 12 月):
- 671B 总参数,MoE 架构,37B 激活参数
- 训练成本约 557 万美元(使用约 2048 块 H800 GPU,约 278 万 H800 GPU 小时)
- 相比 GPT-4 等同级模型,训练成本不足其 1/10
- 在代码(LiveCodeBench)、数学(MATH-500)等多项基准上超越 GPT-4o 和 Claude 3.5 Sonnet
关键工程创新:
- FP8 混合精度训练:使用 8 位浮点数训练大型 MoE,显著降低显存和带宽需求
- DualPipe 流水线并行:通过前向-反向重叠减少 GPU 空置时间
- 辅助损失无负载均衡:创新的 MoE 负载均衡方法,不影响模型性能
- MLA(Multi-head Latent Attention):低秩 KV 缓存压缩,减少 KV Cache 显存
DeepSeek-R1(2025 年 1 月):
- 基于 V3 的推理模型,类似 OpenAI o1
- 通过强化学习(GRPO 算法)训练长链推理(无需人工标注推理步骤)
- 在数学竞赛、代码竞赛基准上与 o1 持平或超越
- 完整开源(MIT 许可证),包括训练细节
- DeepSeek-R1 的发布引发全球 AI 行业震动,引起对西方 AI 主导地位的广泛讨论
Yi 系列(零一万物)
零一万物由前 Google Brain 科学家、Transformer 论文联合作者 Kai-Fu Lee(李开复)创立。
- Yi-34B:高质量 34B 模型,英中双语均衡
- Yi-9B:高效小模型
- Yi-VL:视觉语言版本
- 训练数据包含大量经过质量过滤的中英文语料
Phi-3/4 系列(微软):小但强
微软研究院的 Phi 系列专注于"小而强"的路线,探索高质量数据对小模型的影响上限:
Phi-3(2024 年 4 月):
- Phi-3-mini(3.8B):在 MMLU、HumanEval 上超越 LLaMA 2 13B
- 核心理念:高质量"教科书级"合成数据可让小模型媲美大模型
- Phi-3-small(7B)、Phi-3-medium(14B)持续扩展
Phi-4(2024 年 12 月):
- 14B 参数,在数学推理上超越 GPT-4o(MATH 基准)
- 大量使用合成数据(Synthetic Data)训练
- 表明合成数据是突破真实数据瓶颈的有效路径
开源 vs 闭源的系统对比
| 维度 | 开源模型 | 闭源 API |
|---|---|---|
| 成本 | 推理成本(GPU 费用),高并发下可能更低 | 按 Token 计费,低并发下较便宜 |
| 隐私 | 数据不离开本地/内网,完全可控 | 数据发送至第三方服务器 |
| 定制化 | 可在私有数据上微调,改变模型行为 | 通常只能通过 Prompt Engineering |
| 控制权 | 完全控制模型版本和行为 | 供应商可随时更新或停止服务 |
| 维护成本 | 需要自建推理基础设施 | 零运维 |
| 能力上限 | 通常略低于最新闭源旗舰 | 持续更新,能力领先 |
| 合规性 | 适合金融、医疗等数据不出境要求 | 需评估数据合规风险 |
开源模型选型指南
根据应用场景选择模型:
对话助手、通用任务(资源充足):
- LLaMA 3.1 70B 或 Qwen2.5 72B
- 具备强大推理和指令遵循能力
代码生成与开发辅助:
- DeepSeek-V3 / Qwen2.5-Coder 72B(顶级效果)
- Code LLaMA 70B / Qwen2.5-Coder 32B(成本平衡)
中文任务优先:
- Qwen2.5 72B(综合最强)
- DeepSeek-V3(能力顶尖)
数学与逻辑推理:
- DeepSeek-R1 / Qwen2.5-Math 72B
设备端/边缘推理:
- LLaMA 3.2 1B/3B(Meta 官方)
- Phi-3 Mini 3.8B(微软)
- Qwen2.5 0.5B/1.5B
成本极度敏感的批量推理:
- Mistral 7B / LLaMA 3 8B(高吞吐量)
开源 LLM 生态在 2024 年的快速演进使得许多任务场景下,开源模型的能力已足够满足生产需求,同时提供了闭源 API 无法给予的控制权和隐私保障。