跳到主要内容

开源大模型全景

除 Meta 的 LLaMA 系列外,开源 LLM 生态中还涌现出多个重要玩家。本文梳理当前主流开源模型的核心特点、技术创新与适用场景,并提供模型选型指南。

Mistral 7B:高密度小模型的标杆

Mistral AI(法国,2023 年成立)以"用更小的模型做更多的事"为核心理念。

Mistral 7B(2023 年 9 月)

  • 7B 参数,但在多项基准上超越 LLaMA 2 13B
  • 核心技术创新:
    • Sliding Window Attention(SWA):每个 Token 只关注固定窗口内的位置(如最近 4096 个 Token),通过递归传递捕捉长程依赖,大幅降低注意力计算复杂度
    • GQA(分组查询注意力):减少 KV Cache 显存占用
  • Apache 2.0 完全开源(无商业限制)
  • 推理速度:小体积带来高吞吐量,适合批量推理

Mistral 7B 的出现打破了"性能随参数量线性增长"的惯性认知,推动行业重视模型密度(单位参数的能力)而非单纯参数规模。

Mixtral 8x7B:MoE 架构的开源代表

Mixtral 8x7B(2023 年 12 月)

  • 采用 Mixture of Experts(MoE,混合专家) 架构
  • 共有 8 个专家网络(Expert),每个 Token 推理时只激活 2 个专家
  • 总参数 46.7B,但每个 Token 的实际计算量仅相当于 12.9B 模型
  • 性能超越 LLaMA 2 70B,接近 GPT-3.5

MoE 架构的优势:

  • 计算效率高:总参数大(知识容量大),激活参数少(推理速度快)
  • 专业化分工:不同专家自发学习不同类型的知识/任务
  • 可扩展性强:理论上可添加更多专家而不成比例增加推理成本

MoE 的挑战:

  • 显存需求按总参数量而非激活参数量,需加载全部专家权重
  • 负载均衡:防止某些专家过度使用,某些几乎未使用

Qwen2.5 系列:阿里云的中文最强

Qwen(通义千问)是阿里云 AI 事业部开发的模型系列,在中文能力方面名列前茅。

Qwen2.5 系列(2024 年 9 月)

  • 规模覆盖:0.5B、1.5B、3B、7B、14B、32B、72B
  • 词汇表:151,936 个 Token(包含大量中文高频词组)
  • 训练数据:超过 18T Token,其中大量中文高质量数据
  • 上下文窗口:128K Token
  • 在中文理解、中文创作、中文知识问答等任务上位居开源模型前列

专项模型:

  • Qwen2.5-Coder:代码专用,72B 版本在代码生成基准上接近 GPT-4o
  • Qwen2.5-Math:数学专用,中英文数学推理能力突出
  • Qwen-VL:视觉语言多模态版本
  • Qwen-Audio:音频理解版本

授权:多数版本采用 Apache 2.0 或 Qwen License(商业用途可申请)。

DeepSeek R1/V3:国产顶级的成本革命

DeepSeek(深度求索,杭州)是 2024 年最引人注目的中国 AI 公司,以超低训练成本取得顶尖效果震惊业界。

DeepSeek-V3(2024 年 12 月)

  • 671B 总参数,MoE 架构,37B 激活参数
  • 训练成本约 557 万美元(使用约 2048 块 H800 GPU,约 278 万 H800 GPU 小时)
  • 相比 GPT-4 等同级模型,训练成本不足其 1/10
  • 在代码(LiveCodeBench)、数学(MATH-500)等多项基准上超越 GPT-4o 和 Claude 3.5 Sonnet

关键工程创新:

  • FP8 混合精度训练:使用 8 位浮点数训练大型 MoE,显著降低显存和带宽需求
  • DualPipe 流水线并行:通过前向-反向重叠减少 GPU 空置时间
  • 辅助损失无负载均衡:创新的 MoE 负载均衡方法,不影响模型性能
  • MLA(Multi-head Latent Attention):低秩 KV 缓存压缩,减少 KV Cache 显存

DeepSeek-R1(2025 年 1 月)

  • 基于 V3 的推理模型,类似 OpenAI o1
  • 通过强化学习(GRPO 算法)训练长链推理(无需人工标注推理步骤)
  • 在数学竞赛、代码竞赛基准上与 o1 持平或超越
  • 完整开源(MIT 许可证),包括训练细节
  • DeepSeek-R1 的发布引发全球 AI 行业震动,引起对西方 AI 主导地位的广泛讨论

Yi 系列(零一万物)

零一万物由前 Google Brain 科学家、Transformer 论文联合作者 Kai-Fu Lee(李开复)创立。

  • Yi-34B:高质量 34B 模型,英中双语均衡
  • Yi-9B:高效小模型
  • Yi-VL:视觉语言版本
  • 训练数据包含大量经过质量过滤的中英文语料

Phi-3/4 系列(微软):小但强

微软研究院的 Phi 系列专注于"小而强"的路线,探索高质量数据对小模型的影响上限:

Phi-3(2024 年 4 月)

  • Phi-3-mini(3.8B):在 MMLU、HumanEval 上超越 LLaMA 2 13B
  • 核心理念:高质量"教科书级"合成数据可让小模型媲美大模型
  • Phi-3-small(7B)、Phi-3-medium(14B)持续扩展

Phi-4(2024 年 12 月)

  • 14B 参数,在数学推理上超越 GPT-4o(MATH 基准)
  • 大量使用合成数据(Synthetic Data)训练
  • 表明合成数据是突破真实数据瓶颈的有效路径

开源 vs 闭源的系统对比

维度开源模型闭源 API
成本推理成本(GPU 费用),高并发下可能更低按 Token 计费,低并发下较便宜
隐私数据不离开本地/内网,完全可控数据发送至第三方服务器
定制化可在私有数据上微调,改变模型行为通常只能通过 Prompt Engineering
控制权完全控制模型版本和行为供应商可随时更新或停止服务
维护成本需要自建推理基础设施零运维
能力上限通常略低于最新闭源旗舰持续更新,能力领先
合规性适合金融、医疗等数据不出境要求需评估数据合规风险

开源模型选型指南

根据应用场景选择模型:

对话助手、通用任务(资源充足)

  • LLaMA 3.1 70B 或 Qwen2.5 72B
  • 具备强大推理和指令遵循能力

代码生成与开发辅助

  • DeepSeek-V3 / Qwen2.5-Coder 72B(顶级效果)
  • Code LLaMA 70B / Qwen2.5-Coder 32B(成本平衡)

中文任务优先

  • Qwen2.5 72B(综合最强)
  • DeepSeek-V3(能力顶尖)

数学与逻辑推理

  • DeepSeek-R1 / Qwen2.5-Math 72B

设备端/边缘推理

  • LLaMA 3.2 1B/3B(Meta 官方)
  • Phi-3 Mini 3.8B(微软)
  • Qwen2.5 0.5B/1.5B

成本极度敏感的批量推理

  • Mistral 7B / LLaMA 3 8B(高吞吐量)

开源 LLM 生态在 2024 年的快速演进使得许多任务场景下,开源模型的能力已足够满足生产需求,同时提供了闭源 API 无法给予的控制权和隐私保障。