AI 成本模型
LLM 成本结构
调用外部 LLM API 的成本可以用一个简单公式表达:
单次请求成本 = 输入 Token 数 × 输入单价 + 输出 Token 数 × 输出单价
举例:
- 用户发送一个 1,000 Token 的 Prompt(含历史对话)
- AI 回复 500 Token
- 使用 GPT-4o(输入 $2.5/M,输出 $10/M)
成本 = 1,000 × $2.5/1,000,000 + 500 × $10/1,000,000
= $0.0025 + $0.005
= $0.0075 / 次请求
一个月有 10,000 次这样的请求,月成本 = $75。
主流模型价格对比表(2024 Q4)
| 模型 | 提供商 | 输入($/M Token) | 输出($/M Token) | Context Window |
|---|---|---|---|---|
| GPT-4o | OpenAI | $2.50 | $10.00 | 128K |
| GPT-4o mini | OpenAI | $0.15 | $0.60 | 128K |
| o1 | OpenAI | $15.00 | $60.00 | 128K |
| Claude 3.5 Sonnet | Anthropic | $3.00 | $15.00 | 200K |
| Claude 3.5 Haiku | Anthropic | $0.80 | $4.00 | 200K |
| Gemini 1.5 Pro | $1.25 | $5.00 | 1M | |
| Gemini 1.5 Flash | $0.075 | $0.30 | 1M | |
| DeepSeek V3 | DeepSeek | $0.27 | $1.10 | 64K |
| Llama 3.1 70B(推断) | Together AI | $0.88 | $0.88 | 128K |
注:价格随时间变化,以官方文档为准。DeepSeek 的低价对市场产生了显著冲击。
上下文长度对成本的影响
随着对话轮次增加,Context Window 中积累的 Token 越来越多,每次请求的输入成本线性增长。
多轮对话的成本积累
第 1 轮:100 Token 输入 + 100 Token 输出 = 200 Token
第 2 轮:200 Token(含第1轮)+ 100 Token 输入 + 100 Token 输出 = 再消耗 300 Token
第 3 轮:消耗 500 Token
第 N 轮:输入成本 ≈ N × (N+1) / 2 × 平均每轮 Token 数
10 轮对话(每轮 100 Token 输入输出)的总输入 Token 数约为 550,而非 10 × 100 = 1,000(如果不包含历史)。
长上下文的额外成本
- Gemini 1.5 Pro 的 1M Context 看似性价比极高,但实际上当你发送 100K Token 的长文档时,成本已经是 $0.125 每次请求
缓存策略节省比例
Prompt 缓存(KV Cache)
主流 LLM 提供商已开始支持 Prompt 缓存,对重复的 System Prompt 部分不重复计算:
-
Anthropic Prompt Caching:缓存命中时,输入 Token 成本降至原来的 10%($0.30/M vs $3.00/M)
- 首次写入缓存:有额外的写入费用
- 缓存有效期:通常 5 分钟(触及后延长)
-
OpenAI Prompt Caching:自动启用,缓存命中时输入 Token 折半($1.25/M vs $2.50/M)
适合缓存的场景
- 固定的 System Prompt(如:角色设定、格式要求、知识库文档)
- 高复用的上下文(如:用于代码审查的代码文件)
- 批量处理相同前缀的任务
节省估算
假设 System Prompt 占输入 Token 的 60%,缓存命中率 80%:
节省比例 = 60% × 80% × (1 - 10%) = 43.2%(Anthropic 缓存)
= 60% × 80% × (1 - 50%) = 24%(OpenAI 缓存)
算力成本(自建推理场景)
对于选择自建推理服务的团队,算力成本是核心支出。
GPU 租用 vs 购买
GPU 云租用(按小时计费)
| GPU | 云厂商 | 按需价格 | 预留价格(1年) |
|---|---|---|---|
| A100 80GB | AWS p4d | ~$3.2/小时 | ~$2.0/小时 |
| H100 80GB | CoreWeave | ~$4.25/小时 | ~$2.5/小时 |
| A10G 24GB | AWS g5 | ~$1.0/小时 | ~$0.6/小时 |
自购 GPU(一次性投入)
- NVIDIA H100 SXM:约 $30,000-$40,000/张(2024 年)
- 配套服务器、网络、机柜、运维成本需要额外计算
- 折旧周期通常按 3-5 年计算
决策建议:用量 < 100 GPU·小时/天时,按需云租用更灵活;持续高负载(> 1,000 GPU·小时/天)时,考虑预留实例或自购。
边际成本随规模变化
AI 产品的单位经济(Unit Economics)与传统 SaaS 不同:
不同规模阶段的成本结构
早期(<1,000 用户)
- 边际成本高(小量调用无法获取批量折扣)
- 工程成本摊薄不足(服务器、人力)
- 毛利率可能为负
成长期(1,000 - 100,000 用户)
- 用量达到与 API 提供商谈判折扣的门槛
- 服务器成本开始摊薄
- 毛利率转正(如果定价合理)
规模化(>100,000 用户)
- 批量定价显著降低 API 成本
- 可能开始考虑自建推理(进一步降低边际成本)
- 通过缓存和 Prompt 优化持续压缩成本
商业模式下的毛利率估算
以一个月费 $20/用户的 AI 写作助手为例:
月收入:$20
AI 成本:$3(假设平均每用户每月消耗 300K Token,混合单价 $10/M)
其他变动成本(带宽、存储):$0.5
毛利润:$16.5
毛利率:82.5%
然而,如果重度用户(占 10% 用户,贡献 50% 成本)不受限制:
AI 成本(考虑重度用户):$8
毛利率降至:60%
这说明对重度用户的成本管控(用量限制、分层定价)对 AI SaaS 的盈利能力至关重要。
成本优化路径
Prompt 压缩
减少输入 Token 数量是最直接的降本手段:
- 删减冗余:去除重复的格式要求、不必要的示例
- 摘要压缩:对历史对话进行摘要,而非保留完整记录(会损失一定信息)
- 动态截断:当 Context 超出阈值时,智能删除最早的轮次
- 压缩工具:LLMLingua、Selective Context 等 Prompt 压缩库(通常可压缩 2-5 倍)
缓存
- Prompt Cache(见上)
- 语义缓存:对语义相似的问题返回缓存答案(GPTCache、Cachix)
- 结果缓存:对确定性输入的 AI 输出进行 Redis 缓存
模型降级(Model Routing)
根据任务复杂度自动选择合适的模型:
简单分类任务 → GPT-4o mini(成本降低 94%)
复杂推理任务 → GPT-4o 或 o1
高频低难度任务 → 本地部署的小模型(Qwen 2.5 7B)
批处理(Batch Processing)
OpenAI、Anthropic 均提供批量推理 API,价格约为实时 API 的 50%:
- 适合非实时任务(报告生成、数据标注、离线分析)
- 提交批次后异步等待结果(通常在 24 小时内完成)
成本优化综合效果
| 优化手段 | 典型节省比例 |
|---|---|
| Prompt 压缩 | 30-60% 输入 Token |
| Prompt 缓存 | 20-50% 输入成本 |
| 模型降级(部分请求) | 40-90% 成本 |
| 批量 API | 50% 实时成本 |
| 结果缓存(命中率 20%) | 20% 总成本 |