跳到主要内容

AI 成本模型

LLM 成本结构

调用外部 LLM API 的成本可以用一个简单公式表达:

单次请求成本 = 输入 Token 数 × 输入单价 + 输出 Token 数 × 输出单价

举例:

  • 用户发送一个 1,000 Token 的 Prompt(含历史对话)
  • AI 回复 500 Token
  • 使用 GPT-4o(输入 $2.5/M,输出 $10/M)
成本 = 1,000 × $2.5/1,000,000 + 500 × $10/1,000,000
= $0.0025 + $0.005
= $0.0075 / 次请求

一个月有 10,000 次这样的请求,月成本 = $75。


主流模型价格对比表(2024 Q4)

模型提供商输入($/M Token)输出($/M Token)Context Window
GPT-4oOpenAI$2.50$10.00128K
GPT-4o miniOpenAI$0.15$0.60128K
o1OpenAI$15.00$60.00128K
Claude 3.5 SonnetAnthropic$3.00$15.00200K
Claude 3.5 HaikuAnthropic$0.80$4.00200K
Gemini 1.5 ProGoogle$1.25$5.001M
Gemini 1.5 FlashGoogle$0.075$0.301M
DeepSeek V3DeepSeek$0.27$1.1064K
Llama 3.1 70B(推断)Together AI$0.88$0.88128K

注:价格随时间变化,以官方文档为准。DeepSeek 的低价对市场产生了显著冲击。


上下文长度对成本的影响

随着对话轮次增加,Context Window 中积累的 Token 越来越多,每次请求的输入成本线性增长。

多轮对话的成本积累

第 1 轮:100 Token 输入 + 100 Token 输出 = 200 Token
第 2 轮:200 Token(含第1轮)+ 100 Token 输入 + 100 Token 输出 = 再消耗 300 Token
第 3 轮:消耗 500 Token
第 N 轮:输入成本 ≈ N × (N+1) / 2 × 平均每轮 Token 数

10 轮对话(每轮 100 Token 输入输出)的总输入 Token 数约为 550,而非 10 × 100 = 1,000(如果不包含历史)。

长上下文的额外成本

  • Gemini 1.5 Pro 的 1M Context 看似性价比极高,但实际上当你发送 100K Token 的长文档时,成本已经是 $0.125 每次请求

缓存策略节省比例

Prompt 缓存(KV Cache)

主流 LLM 提供商已开始支持 Prompt 缓存,对重复的 System Prompt 部分不重复计算:

  • Anthropic Prompt Caching:缓存命中时,输入 Token 成本降至原来的 10%($0.30/M vs $3.00/M)

    • 首次写入缓存:有额外的写入费用
    • 缓存有效期:通常 5 分钟(触及后延长)
  • OpenAI Prompt Caching:自动启用,缓存命中时输入 Token 折半($1.25/M vs $2.50/M)

适合缓存的场景

  • 固定的 System Prompt(如:角色设定、格式要求、知识库文档)
  • 高复用的上下文(如:用于代码审查的代码文件)
  • 批量处理相同前缀的任务

节省估算

假设 System Prompt 占输入 Token 的 60%,缓存命中率 80%:

节省比例 = 60% × 80% × (1 - 10%) = 43.2%(Anthropic 缓存)
= 60% × 80% × (1 - 50%) = 24%(OpenAI 缓存)

算力成本(自建推理场景)

对于选择自建推理服务的团队,算力成本是核心支出。

GPU 租用 vs 购买

GPU 云租用(按小时计费)

GPU云厂商按需价格预留价格(1年)
A100 80GBAWS p4d~$3.2/小时~$2.0/小时
H100 80GBCoreWeave~$4.25/小时~$2.5/小时
A10G 24GBAWS g5~$1.0/小时~$0.6/小时

自购 GPU(一次性投入)

  • NVIDIA H100 SXM:约 $30,000-$40,000/张(2024 年)
  • 配套服务器、网络、机柜、运维成本需要额外计算
  • 折旧周期通常按 3-5 年计算

决策建议:用量 < 100 GPU·小时/天时,按需云租用更灵活;持续高负载(> 1,000 GPU·小时/天)时,考虑预留实例或自购。


边际成本随规模变化

AI 产品的单位经济(Unit Economics)与传统 SaaS 不同:

不同规模阶段的成本结构

早期(<1,000 用户)

  • 边际成本高(小量调用无法获取批量折扣)
  • 工程成本摊薄不足(服务器、人力)
  • 毛利率可能为负

成长期(1,000 - 100,000 用户)

  • 用量达到与 API 提供商谈判折扣的门槛
  • 服务器成本开始摊薄
  • 毛利率转正(如果定价合理)

规模化(>100,000 用户)

  • 批量定价显著降低 API 成本
  • 可能开始考虑自建推理(进一步降低边际成本)
  • 通过缓存和 Prompt 优化持续压缩成本

商业模式下的毛利率估算

以一个月费 $20/用户的 AI 写作助手为例:

月收入:$20
AI 成本:$3(假设平均每用户每月消耗 300K Token,混合单价 $10/M)
其他变动成本(带宽、存储):$0.5
毛利润:$16.5
毛利率:82.5%

然而,如果重度用户(占 10% 用户,贡献 50% 成本)不受限制:

AI 成本(考虑重度用户):$8
毛利率降至:60%

这说明对重度用户的成本管控(用量限制、分层定价)对 AI SaaS 的盈利能力至关重要。


成本优化路径

Prompt 压缩

减少输入 Token 数量是最直接的降本手段:

  • 删减冗余:去除重复的格式要求、不必要的示例
  • 摘要压缩:对历史对话进行摘要,而非保留完整记录(会损失一定信息)
  • 动态截断:当 Context 超出阈值时,智能删除最早的轮次
  • 压缩工具:LLMLingua、Selective Context 等 Prompt 压缩库(通常可压缩 2-5 倍)

缓存

  • Prompt Cache(见上)
  • 语义缓存:对语义相似的问题返回缓存答案(GPTCache、Cachix)
  • 结果缓存:对确定性输入的 AI 输出进行 Redis 缓存

模型降级(Model Routing)

根据任务复杂度自动选择合适的模型:

简单分类任务 → GPT-4o mini(成本降低 94%)
复杂推理任务 → GPT-4o 或 o1
高频低难度任务 → 本地部署的小模型(Qwen 2.5 7B)

批处理(Batch Processing)

OpenAI、Anthropic 均提供批量推理 API,价格约为实时 API 的 50%:

  • 适合非实时任务(报告生成、数据标注、离线分析)
  • 提交批次后异步等待结果(通常在 24 小时内完成)

成本优化综合效果

优化手段典型节省比例
Prompt 压缩30-60% 输入 Token
Prompt 缓存20-50% 输入成本
模型降级(部分请求)40-90% 成本
批量 API50% 实时成本
结果缓存(命中率 20%)20% 总成本