AI 成本模型

LLM 成本结构

调用外部 LLM API 的成本可以用一个简单公式表达：

单次请求成本 = 输入 Token 数 × 输入单价 + 输出 Token 数 × 输出单价

举例：

用户发送一个 1,000 Token 的 Prompt（含历史对话）
AI 回复 500 Token
使用 GPT-4o（输入 $2.5/M，输出 $10/M）

成本 = 1,000 × $2.5/1,000,000 + 500 × $10/1,000,000
     = $0.0025 + $0.005
     = $0.0075 / 次请求

一个月有 10,000 次这样的请求，月成本 = $75。

主流模型价格对比表（2024 Q4）

模型	提供商	输入（$/M Token）	输出（$/M Token）	Context Window
GPT-4o	OpenAI	$2.50	$10.00	128K
GPT-4o mini	OpenAI	$0.15	$0.60	128K
o1	OpenAI	$15.00	$60.00	128K
Claude 3.5 Sonnet	Anthropic	$3.00	$15.00	200K
Claude 3.5 Haiku	Anthropic	$0.80	$4.00	200K
Gemini 1.5 Pro	Google	$1.25	$5.00	1M
Gemini 1.5 Flash	Google	$0.075	$0.30	1M
DeepSeek V3	DeepSeek	$0.27	$1.10	64K
Llama 3.1 70B（推断）	Together AI	$0.88	$0.88	128K

注：价格随时间变化，以官方文档为准。DeepSeek 的低价对市场产生了显著冲击。

上下文长度对成本的影响

随着对话轮次增加，Context Window 中积累的 Token 越来越多，每次请求的输入成本线性增长。

多轮对话的成本积累

第 1 轮：100 Token 输入 + 100 Token 输出 = 200 Token
第 2 轮：200 Token（含第1轮）+ 100 Token 输入 + 100 Token 输出 = 再消耗 300 Token
第 3 轮：消耗 500 Token
第 N 轮：输入成本 ≈ N × (N+1) / 2 × 平均每轮 Token 数

10 轮对话（每轮 100 Token 输入输出）的总输入 Token 数约为 550，而非 10 × 100 = 1,000（如果不包含历史）。

长上下文的额外成本

Gemini 1.5 Pro 的 1M Context 看似性价比极高，但实际上当你发送 100K Token 的长文档时，成本已经是 $0.125 每次请求

缓存策略节省比例

Prompt 缓存（KV Cache）

主流 LLM 提供商已开始支持 Prompt 缓存，对重复的 System Prompt 部分不重复计算：

Anthropic Prompt Caching：缓存命中时，输入 Token 成本降至原来的 10%（$0.30/M vs $3.00/M）
- 首次写入缓存：有额外的写入费用
- 缓存有效期：通常 5 分钟（触及后延长）
OpenAI Prompt Caching：自动启用，缓存命中时输入 Token 折半（$1.25/M vs $2.50/M）

适合缓存的场景

固定的 System Prompt（如：角色设定、格式要求、知识库文档）
高复用的上下文（如：用于代码审查的代码文件）
批量处理相同前缀的任务

节省估算

假设 System Prompt 占输入 Token 的 60%，缓存命中率 80%：

节省比例 = 60% × 80% × (1 - 10%) = 43.2%（Anthropic 缓存）
         = 60% × 80% × (1 - 50%) = 24%（OpenAI 缓存）

算力成本（自建推理场景）

对于选择自建推理服务的团队，算力成本是核心支出。

GPU 租用 vs 购买

GPU 云租用（按小时计费）

GPU	云厂商	按需价格	预留价格（1年）
A100 80GB	AWS p4d	~$3.2/小时	~$2.0/小时
H100 80GB	CoreWeave	~$4.25/小时	~$2.5/小时
A10G 24GB	AWS g5	~$1.0/小时	~$0.6/小时

自购 GPU（一次性投入）

NVIDIA H100 SXM：约 $30,000-$40,000/张（2024 年）
配套服务器、网络、机柜、运维成本需要额外计算
折旧周期通常按 3-5 年计算

决策建议：用量 < 100 GPU·小时/天时，按需云租用更灵活；持续高负载（> 1,000 GPU·小时/天）时，考虑预留实例或自购。

边际成本随规模变化

AI 产品的单位经济（Unit Economics）与传统 SaaS 不同：

不同规模阶段的成本结构

早期（<1,000 用户）

边际成本高（小量调用无法获取批量折扣）
工程成本摊薄不足（服务器、人力）
毛利率可能为负

成长期（1,000 - 100,000 用户）

用量达到与 API 提供商谈判折扣的门槛
服务器成本开始摊薄
毛利率转正（如果定价合理）

规模化（>100,000 用户）

批量定价显著降低 API 成本
可能开始考虑自建推理（进一步降低边际成本）
通过缓存和 Prompt 优化持续压缩成本

商业模式下的毛利率估算

以一个月费 $20/用户的 AI 写作助手为例：

月收入：$20
AI 成本：$3（假设平均每用户每月消耗 300K Token，混合单价 $10/M）
其他变动成本（带宽、存储）：$0.5
毛利润：$16.5
毛利率：82.5%

然而，如果重度用户（占 10% 用户，贡献 50% 成本）不受限制：

AI 成本（考虑重度用户）：$8
毛利率降至：60%

这说明对重度用户的成本管控（用量限制、分层定价）对 AI SaaS 的盈利能力至关重要。

成本优化路径

Prompt 压缩

减少输入 Token 数量是最直接的降本手段：

删减冗余：去除重复的格式要求、不必要的示例
摘要压缩：对历史对话进行摘要，而非保留完整记录（会损失一定信息）
动态截断：当 Context 超出阈值时，智能删除最早的轮次
压缩工具：LLMLingua、Selective Context 等 Prompt 压缩库（通常可压缩 2-5 倍）

缓存

Prompt Cache（见上）
语义缓存：对语义相似的问题返回缓存答案（GPTCache、Cachix）
结果缓存：对确定性输入的 AI 输出进行 Redis 缓存

模型降级（Model Routing）

根据任务复杂度自动选择合适的模型：

简单分类任务 → GPT-4o mini（成本降低 94%）
复杂推理任务 → GPT-4o 或 o1
高频低难度任务 → 本地部署的小模型（Qwen 2.5 7B）

批处理（Batch Processing）

OpenAI、Anthropic 均提供批量推理 API，价格约为实时 API 的 50%：

适合非实时任务（报告生成、数据标注、离线分析）
提交批次后异步等待结果（通常在 24 小时内完成）

成本优化综合效果

优化手段	典型节省比例
Prompt 压缩	30-60% 输入 Token
Prompt 缓存	20-50% 输入成本
模型降级（部分请求）	40-90% 成本
批量 API	50% 实时成本
结果缓存（命中率 20%）	20% 总成本

LLM 成本结构​

主流模型价格对比表（2024 Q4）​

上下文长度对成本的影响​

多轮对话的成本积累​

长上下文的额外成本​

缓存策略节省比例​

Prompt 缓存（KV Cache）​

适合缓存的场景​

节省估算​

算力成本（自建推理场景）​

GPU 租用 vs 购买​

边际成本随规模变化​

不同规模阶段的成本结构​

商业模式下的毛利率估算​

成本优化路径​

Prompt 压缩​

缓存​

模型降级（Model Routing）​

批处理（Batch Processing）​

成本优化综合效果​