AI API 定价对比

AI API 定价机制简介

绝大多数商用 AI API 采用按 token 计费的模式。Token 是模型处理文本的最小单位,通常 1 个英文单词约 1-1.3 个 token,1 个中文汉字约 1.5-2 个 token。费用分为两部分:

  • 输入价格(Input / Prompt):你发送给模型的 token 数量,包括 system prompt、上下文、用户消息等。
  • 输出价格(Output / Completion):模型生成的 token 数量,即模型的回复内容。

输出价格通常是输入价格的 2-5 倍,因为生成 token 需要更多计算资源。价格按每百万 token(1M tokens)报价。例如,GPT-4o 的输入价格为 $2.50/1M tokens,意味着处理 100 万个 token 的输入成本为 2.50 美元。

了解定价结构是控制 AI 开发成本的第一步。本页提供 2026 年所有主流模型的完整定价对比、交互式成本计算器以及针对不同场景的模型推荐。

2026 年 AI API 完整定价表

下表列出了所有主流 AI 模型的 API 定价,按厂商分组。价格单位为美元/百万 token。点击表头可排序。

厂商 ▴▾ 模型 ▴▾ 上下文 ▴▾ 输入 $/1M ▴▾ 输出 $/1M ▴▾ RPM 限制 备注
OpenAIGPT-4o128K$2.50$10.00500旗舰多模态模型
OpenAIGPT-4o Mini128K$0.15$0.60500高性价比之选
OpenAIGPT-4 Turbo128K$10.00$30.00500旧版,建议迁移到 4o
OpenAIo1200K$15.00$60.00100推理模型,深度思考
OpenAIo1-mini128K$3.00$12.00200推理模型的轻量版
AnthropicClaude Sonnet 4200K$3.00$15.001000代码与分析首选
AnthropicClaude Haiku 3.5200K$0.80$4.001000快速轻量任务
AnthropicClaude Opus 4200K$15.00$75.00250最强推理能力
GoogleGemini 2.0 Flash1M$0.10$0.402000极致性价比+超长上下文
GoogleGemini 1.5 Pro1M$1.25$5.00360长文档分析
GoogleGemini 1.5 Flash1M$0.075$0.302000最便宜的选项之一
DeepSeekDeepSeek V3128K$0.27$1.10500中文场景性价比王
MistralMistral Large128K$2.00$6.00300欧洲厂商,多语言
GroqLlama 3.1 70B128K$0.59$0.7930超低延迟推理

价格说明

以上价格为 2026 年 4 月的标准 API 价格(按需计费)。批量 API(Batch API)通常可获得 50% 折扣。企业合同和承诺用量折扣另议。价格可能随时变动,请以各厂商官方文档为准。Gemini 1.5 Flash 的 $0.075 为 128K 上下文内的价格,超过 128K 部分价格翻倍。

AI API 月度成本计算器

输入你每月预计的 token 用量,即可查看各模型的月度成本排行。1M = 100 万 token,约等于 75 万英文单词或 50 万汉字。



#模型月度成本输入费用输出费用

按使用场景选择模型

不同业务场景对模型能力和成本的要求截然不同。下表根据典型场景推荐最具性价比的模型。

场景特点推荐模型预估成本/月理由
聊天助手 高并发、简单对话 GPT-4o Mini ~$21 (10M in/2M out) $0.15/$0.60 极低价格,质量足够日常对话
代码生成 中等量、需要高质量 Claude Sonnet 4 ~$60 (10M in/2M out) 代码质量业界领先,200K 上下文适合大型项目
文档分析 超长输入、少量输出 Gemini 2.0 Flash ~$4.80 (10M in/2M out) 1M 上下文+极低价格,长文档一次读完
创意写作 中等输入、大量输出 DeepSeek V3 ~$4.90 (2M in/2M out) 中文写作质量优秀,价格实惠
数据提取 结构化输出、批量处理 Gemini 1.5 Flash ~$1.35 (10M in/2M out) 最低价格之一,JSON 结构化输出可靠

API 成本优化技巧

以下 8 个策略可帮助你显著降低 AI API 的使用成本:

1. 模型路由分层

为不同复杂度的任务分配不同模型。简单分类/摘要用 GPT-4o Mini ($0.15),复杂推理才用 Claude Sonnet 4 ($3.00)。一个简单的 LLM 路由器可节省 60-80% 成本。

2. 实施语义缓存

对相似查询缓存结果。使用向量数据库(如 Qdrant)存储 prompt-response 对,相似度超过阈值时直接返回缓存。典型场景下可减少 30-50% 的 API 调用。

3. 使用批量 API

OpenAI 和 Anthropic 都提供批量 API(Batch API),价格为标准 API 的 50%。适合不需要实时响应的场景,如数据标注、批量翻译、内容审核。

4. 优化 Prompt 长度

精简 system prompt,移除冗余指令。使用 few-shot 而非长篇说明。一个优化过的 prompt 可以减少 40% 的输入 token,同时保持输出质量不变。

5. 考虑开源模型

对于高并发场景(日均 100M+ token),自部署 Llama 3.1 70B 或 DeepSeek V3 的边际成本可低至闭源 API 的 1/5-1/10。使用 vLLM 或 TGI 可最大化吞吐量。

6. 使用流式传输

启用 streaming 不会降低成本,但可以显著改善用户体验,减少用户因等待而重复提交请求的情况。间接减少约 10-15% 的无效调用。

7. 设置用量监控与限额

在 API 密钥级别设置月度消费上限。使用 OpenAI/Anthropic 的用量仪表盘监控每日消费趋势。及时发现异常调用可避免意外高额账单。

8. 利用 Prompt Caching

Anthropic 和 OpenAI 都支持 Prompt Caching,对于重复的 system prompt 或长上下文,缓存后的 token 价格可降至原价的 10%。非常适合 RAG 和多轮对话场景。

免费额度与试用计划

大多数 AI API 厂商提供免费额度或试用计划,适合开发测试和个人项目:

厂商免费额度有效期限制适合场景
OpenAI $5 额度 注册后 3 个月 仅限 GPT-3.5/4o Mini 入门测试
Anthropic 免费层 持续 速率限制,每日用量上限 小规模开发
Google Gemini 免费 持续 15 RPM / 100 万 TPD 原型验证
Groq 免费层 持续 30 RPM,开源模型 高速推理测试
Mistral 免费试用 注册后 1 个月 有限请求配额 评估模型
DeepSeek $5 额度 注册后 1 个月 所有模型可用 中文场景测试

相关工具

搭配以下工具一起使用,更好地管理 AI API 成本:

常见问题 (FAQ)

AI API 按 token 计费,怎样估算一次请求的成本?
使用公式:成本 = (输入 token 数 / 1,000,000) x 输入价格 + (输出 token 数 / 1,000,000) x 输出价格。例如,使用 GPT-4o 发送 2000 token 的 prompt 并收到 500 token 的回复,成本为 (2000/1M) x $2.50 + (500/1M) x $10.00 = $0.005 + $0.005 = $0.01。你可以使用上方的计算器批量估算月度成本。
最便宜的 AI API 是哪个?
截至 2026 年 4 月,Gemini 1.5 Flash 是最便宜的选项之一($0.075/$0.30),而 Gemini 2.0 Flash($0.10/$0.40)在价格和能力之间取得了最佳平衡。如果你主要处理中文内容,DeepSeek V3($0.27/$1.10)的性价比也非常出色。对于需要高质量但预算有限的场景,GPT-4o Mini($0.15/$0.60)是 OpenAI 阵营的最优选择。
输入价格和输出价格为什么差异这么大?
输出(completion)需要模型逐个 token 进行自回归生成,每个 token 都需要完整的前向传播计算,这比批量处理输入 token 的计算成本高得多。此外,输出 token 占用 GPU 的时间更长(因为是串行生成),降低了整体吞吐量。这就是为什么输出价格通常是输入价格的 2-5 倍。Claude Opus 4 的比例最高,输出是输入的 5 倍($15/$75),反映了其强大推理能力所需的额外计算。
Batch API 和标准 API 有什么区别?
Batch API(批量 API)允许你一次提交大量请求,在 24 小时内异步返回结果。价格通常是标准 API 的 50%。OpenAI 的 Batch API 支持 GPT-4o 和 GPT-4o Mini,Anthropic 的 Message Batches 支持所有 Claude 模型。适用场景包括:大规模数据标注、批量内容生成、离线评估等不需要实时响应的任务。不适合实时聊天、需要低延迟的应用。
API 定价会继续下降吗?
从历史趋势来看,AI API 定价每年下降 40-60%。GPT-4 的初始定价(2023 年)为 $30/$60,而 2026 年的 GPT-4o 已降至 $2.50/$10。驱动降价的因素包括:硬件效率提升(新一代 GPU)、推理优化(量化、投机解码)、以及开源模型带来的竞争压力。预计这一趋势将在未来 2-3 年内持续,最终使 AI API 成本降至今天的 1/10。