开源大模型全景

除 Meta 的 LLaMA 系列外，开源 LLM 生态中还涌现出多个重要玩家。本文梳理当前主流开源模型的核心特点、技术创新与适用场景，并提供模型选型指南。

Mistral 7B：高密度小模型的标杆

Mistral AI（法国，2023 年成立）以"用更小的模型做更多的事"为核心理念。

Mistral 7B（2023 年 9 月）：

7B 参数，但在多项基准上超越 LLaMA 2 13B
核心技术创新：
- Sliding Window Attention（SWA）：每个 Token 只关注固定窗口内的位置（如最近 4096 个 Token），通过递归传递捕捉长程依赖，大幅降低注意力计算复杂度
- GQA（分组查询注意力）：减少 KV Cache 显存占用
Apache 2.0 完全开源（无商业限制）
推理速度：小体积带来高吞吐量，适合批量推理

Mistral 7B 的出现打破了"性能随参数量线性增长"的惯性认知，推动行业重视模型密度（单位参数的能力）而非单纯参数规模。

Mixtral 8x7B：MoE 架构的开源代表

Mixtral 8x7B（2023 年 12 月）：

采用 Mixture of Experts（MoE，混合专家） 架构
共有 8 个专家网络（Expert），每个 Token 推理时只激活 2 个专家
总参数 46.7B，但每个 Token 的实际计算量仅相当于 12.9B 模型
性能超越 LLaMA 2 70B，接近 GPT-3.5

MoE 架构的优势：

计算效率高：总参数大（知识容量大），激活参数少（推理速度快）
专业化分工：不同专家自发学习不同类型的知识/任务
可扩展性强：理论上可添加更多专家而不成比例增加推理成本

MoE 的挑战：

显存需求按总参数量而非激活参数量，需加载全部专家权重
负载均衡：防止某些专家过度使用，某些几乎未使用

Qwen2.5 系列：阿里云的中文最强

Qwen（通义千问）是阿里云 AI 事业部开发的模型系列，在中文能力方面名列前茅。

Qwen2.5 系列（2024 年 9 月）：

规模覆盖：0.5B、1.5B、3B、7B、14B、32B、72B
词汇表：151,936 个 Token（包含大量中文高频词组）
训练数据：超过 18T Token，其中大量中文高质量数据
上下文窗口：128K Token
在中文理解、中文创作、中文知识问答等任务上位居开源模型前列

专项模型：

Qwen2.5-Coder：代码专用，72B 版本在代码生成基准上接近 GPT-4o
Qwen2.5-Math：数学专用，中英文数学推理能力突出
Qwen-VL：视觉语言多模态版本
Qwen-Audio：音频理解版本

授权：多数版本采用 Apache 2.0 或 Qwen License（商业用途可申请）。

DeepSeek R1/V3：国产顶级的成本革命

DeepSeek（深度求索，杭州）是 2024 年最引人注目的中国 AI 公司，以超低训练成本取得顶尖效果震惊业界。

DeepSeek-V3（2024 年 12 月）：

671B 总参数，MoE 架构，37B 激活参数
训练成本约 557 万美元（使用约 2048 块 H800 GPU，约 278 万 H800 GPU 小时）
相比 GPT-4 等同级模型，训练成本不足其 1/10
在代码（LiveCodeBench）、数学（MATH-500）等多项基准上超越 GPT-4o 和 Claude 3.5 Sonnet

关键工程创新：

FP8 混合精度训练：使用 8 位浮点数训练大型 MoE，显著降低显存和带宽需求
DualPipe 流水线并行：通过前向-反向重叠减少 GPU 空置时间
辅助损失无负载均衡：创新的 MoE 负载均衡方法，不影响模型性能
MLA（Multi-head Latent Attention）：低秩 KV 缓存压缩，减少 KV Cache 显存

DeepSeek-R1（2025 年 1 月）：

基于 V3 的推理模型，类似 OpenAI o1
通过强化学习（GRPO 算法）训练长链推理（无需人工标注推理步骤）
在数学竞赛、代码竞赛基准上与 o1 持平或超越
完整开源（MIT 许可证），包括训练细节
DeepSeek-R1 的发布引发全球 AI 行业震动，引起对西方 AI 主导地位的广泛讨论

Yi 系列（零一万物）

零一万物由前 Google Brain 科学家、Transformer 论文联合作者 Kai-Fu Lee（李开复）创立。

Yi-34B：高质量 34B 模型，英中双语均衡
Yi-9B：高效小模型
Yi-VL：视觉语言版本
训练数据包含大量经过质量过滤的中英文语料

Phi-3/4 系列（微软）：小但强

微软研究院的 Phi 系列专注于"小而强"的路线，探索高质量数据对小模型的影响上限：

Phi-3（2024 年 4 月）：

Phi-3-mini（3.8B）：在 MMLU、HumanEval 上超越 LLaMA 2 13B
核心理念：高质量"教科书级"合成数据可让小模型媲美大模型
Phi-3-small（7B）、Phi-3-medium（14B）持续扩展

Phi-4（2024 年 12 月）：

14B 参数，在数学推理上超越 GPT-4o（MATH 基准）
大量使用合成数据（Synthetic Data）训练
表明合成数据是突破真实数据瓶颈的有效路径

开源 vs 闭源的系统对比

维度	开源模型	闭源 API
成本	推理成本（GPU 费用），高并发下可能更低	按 Token 计费，低并发下较便宜
隐私	数据不离开本地/内网，完全可控	数据发送至第三方服务器
定制化	可在私有数据上微调，改变模型行为	通常只能通过 Prompt Engineering
控制权	完全控制模型版本和行为	供应商可随时更新或停止服务
维护成本	需要自建推理基础设施	零运维
能力上限	通常略低于最新闭源旗舰	持续更新，能力领先
合规性	适合金融、医疗等数据不出境要求	需评估数据合规风险

开源模型选型指南

根据应用场景选择模型：

对话助手、通用任务（资源充足）：

LLaMA 3.1 70B 或 Qwen2.5 72B
具备强大推理和指令遵循能力

代码生成与开发辅助：

DeepSeek-V3 / Qwen2.5-Coder 72B（顶级效果）
Code LLaMA 70B / Qwen2.5-Coder 32B（成本平衡）

中文任务优先：

Qwen2.5 72B（综合最强）
DeepSeek-V3（能力顶尖）

数学与逻辑推理：

DeepSeek-R1 / Qwen2.5-Math 72B

设备端/边缘推理：

LLaMA 3.2 1B/3B（Meta 官方）
Phi-3 Mini 3.8B（微软）
Qwen2.5 0.5B/1.5B

成本极度敏感的批量推理：

Mistral 7B / LLaMA 3 8B（高吞吐量）

开源 LLM 生态在 2024 年的快速演进使得许多任务场景下，开源模型的能力已足够满足生产需求，同时提供了闭源 API 无法给予的控制权和隐私保障。

Mistral 7B：高密度小模型的标杆​

Mixtral 8x7B：MoE 架构的开源代表​

Qwen2.5 系列：阿里云的中文最强​

DeepSeek R1/V3：国产顶级的成本革命​

Yi 系列（零一万物）​

Phi-3/4 系列（微软）：小但强​

开源 vs 闭源的系统对比​

开源模型选型指南​