从豆包开始收费说起:AI 免费时代正在结束
嗨,大家好。
如果你发现这个博客已经整整一个月没有动静,那是因为我经历了一场典型的“创造者危机”。
过去的一个月里,我的脑子里塞满了各种宏大的计划,试图同时开启多线操作:
- 野心勃勃的重构: 我原本计划给博客的 Reading 板块来个彻底升级,代码敲到了 50%,结果被复杂的细节卡住。
- 受挫的开发流: 我构思了三个核心 MVP 项目,试图打造一个完整的“信息收集、处理、发布”自动化工作流,但由于早期进展并不顺利,进度条再次陷入僵局。
- 难产的完美主义: 我还一直想做一期足够完整的教学视频,结果因为标准定得太高,迟迟没有按下录制键。
当你试图同时拉满所有项目的进度条时,现实往往会给你一记重锤。这几个接二连三的卡壳,让我进入了一段明显的低效期。认知负荷超标后,我开始逃避、拖延,看着待办事项落灰,挫败感不断叠加。
后来我意识到,我们很多时候不是被真实的困难打败的,而是被自己预设的庞大目标和完美主义压垮的。没写完的代码可以先放在分支里,庞大的自动化工作流可以先用手写代替,完美的视频也不一定比一篇及时写出来的文章更有价值。
面对一团乱麻,最好的破局方式不是寻找一把完美的剪刀,而是先抽出一个线头,解开一个结。
所以这篇文章,就从我最近一直想整理、但迟迟没有动笔的一个话题开始:
2026 年 5 月,AI 工具从免费走向收费以后,到底应该怎么选?
这篇文章表面上是在整理 AI 工具排行,但我更想讨论的是:当 AI 从免费体验品变成付费生产力工具后,我们到底应该为什么付费。
一、豆包开始收费,不只是一个价格新闻
最近让我重新思考 AI 工具选型的一个触发点,其实不是 GPT、Claude 或 Gemini 的新模型,而是一个更接地气的事情:豆包开始测试订阅套餐收费了。
我在 App Store 里看到,豆包会员已经出现了几个内购档位:
| 豆包会员档位 | 人民币价格 | 粗略换算美元 |
|---|---|---|
| 标准版连续包月 | ¥68/月 | 约 $10/月 |
| 加强版连续包月 | ¥200/月 | 约 $29/月 |
| 专业版连续包月 | ¥500/月 | 约 $73/月 |
| 标准版 1 年 | ¥828/年 | 约 $121/年 |
| 加强版 1 年 | ¥2,488/年 | 约 $364/年 |
| 专业版 1 年 | ¥6,088/年 | 约 $891/年 |
这里按 1 美元 ≈ 6.83 元人民币粗略换算,实际会随汇率、税费和 App Store 渠道变化。
可以小小开个玩笑:
以前我打开豆包,是想让 AI 帮我规划预算。
现在我打开豆包,发现预算里得先规划 AI。
但玩笑背后,其实是一个非常现实的行业变化:AI 免费时代正在结束。
早期的 AI 产品,大多通过免费额度或者低价套餐来吸引用户。这个逻辑和过去的互联网产品很像:先通过免费获取用户,再通过会员、广告、增值服务或生态锁定变现。
但 AI 和传统互联网产品有一个本质区别:
每一次对话、每一次生成、每一次搜索、每一次 Agent 工具调用,背后都在消耗 tokens。
传统互联网产品的边际成本很低。你打开一篇文章、刷一个页面、发一条评论,平台当然也有服务器和带宽成本,但单位成本通常可以被规模摊薄到很低。
AI 不一样。尤其是大模型推理,每次响应都要消耗算力、显存、带宽、电力和推理服务资源。越是高级模型,越是长上下文,越是复杂推理,越是多模态生成,成本越真实。
所以我现在看 AI 订阅,已经不会只问“为什么要收费”,而是会问三个问题:
- 它到底解锁了什么级别的智力?
- 它的使用额度够不够支撑真实工作流?
- 它的价格和同类工具相比是否合理?
如果只是“差不多的智力”,我不会买单。
如果确实是顶级智力,我愿意付费。
这就是我现在对 AI 订阅的基本态度。
二、AI 订阅已经不只是聊天软件,而是 AI 终端
以前我们说 ChatGPT、Claude、Gemini,很多人第一反应还是“聊天机器人”。
但现在这个认知已经过时了。
OpenAI 的订阅不只是 ChatGPT 聊天框,它还包括 Codex。OpenAI 官方 Codex 页面明确写到,Codex 包含在 ChatGPT Free、Go、Plus、Pro、Business、Enterprise 各个计划里;ChatGPT Pro 也提供更高 Codex 使用量和更高强度的 coding session。
Google 的订阅也不只是 Gemini 聊天框。Google AI Plus、AI Pro、AI Ultra 现在连接的是 Gemini、NotebookLM、Flow、Veo、Google Workspace 以及 Google Antigravity。Google 官方说明,AI Pro 用户可以增强访问 Antigravity,这是一个由 Gemini 3 Pro 驱动的开发环境,可以管理 autonomous AI agents,在编辑器、终端和浏览器之间规划、执行和验证复杂 coding tasks。
Claude 也一样。Claude Pro、Max 不只是 Claude 网页聊天,而是和 Claude Code 这样的开发工具绑定在一起。Anthropic 官方 Max 页面明确写到,Max plan 把 Claude desktop、mobile apps 和 Claude Code 放在一个订阅里,并提供最高比 Pro 多 20x 的使用量。
这意味着,现在顶级 AI 订阅已经不再是“买一个聊天软件会员”。它们正在变成一种新的 AI 终端:
- ChatGPT + Codex 是 OpenAI 的写作、研究、编程、Agent 终端。
- Gemini + Antigravity + Flow + NotebookLM 是 Google 的多模态、搜索、文档、编程、视频终端。
- Claude + Claude Code 是 Anthropic 的长文、推理、代码审阅和软件工程终端。
这也是为什么我现在评价 AI 订阅时,不会只看聊天框本身。我要看它能不能进入我的真实工作流:写作、研究、代码、前端、后端、视频、图像、资料管理、自动化。
如果一个 AI 工具只是陪聊,它很难支撑高价订阅。
如果它变成了一个完整的生产力终端,它就有可能值这个价格。
三、三大闭源 AI 订阅套餐对比
本文海外订阅价格统一按美区价格参考;API 价格统一按官方美元计价。其他可使用地区会因为税费、汇率、本地定价、App Store / Google Play 渠道抽成产生差异,但通常差异有限,不会改变大的选型结论。
真正会影响选型的,更多是套餐权益、模型能力和使用额度,而不是几个地区之间的小幅价格差。
表 1:OpenAI / Google / Claude 订阅套餐对比
| 公司 | 套餐 | 美区月费参考 | 包含的关键工具 | 我的判断 |
|---|---|---|---|---|
| OpenAI / ChatGPT | Free | $0 | ChatGPT、有限 Codex 体验 | 偶尔使用可以,不能支撑重度工作流 |
| OpenAI / ChatGPT | Go | $8/月 | ChatGPT、Codex 试用、更高基础额度 | 低价入门,适合轻度用户 |
| OpenAI / ChatGPT | Plus | $20/月 | ChatGPT、Codex、图像、文件、Deep Research 等 | 大多数个人用户性价比最高 |
| OpenAI / ChatGPT | Pro 5X | $100/月 | Plus 全部能力,更高使用量,更高 Codex 用量 | 重度写作、研究、编程用户 |
| OpenAI / ChatGPT | Pro 20X | $200/月 | 最高个人使用量,最大 Codex / Agent / Research 额度 | 极重度用户、把 ChatGPT 当主力 AI 终端的人 |
| Free | $0 | Gemini 基础使用 | 轻度体验 | |
| Google AI Plus | $7.99/月 | Gemini、部分高级额度、200GB 存储 | 低价入门,适合轻度 Google 生态用户 | |
| Google AI Pro | $19.99/月 | Gemini、Gmail / Docs 里的 Gemini、NotebookLM、Flow、Antigravity、更高额度、5TB 存储 | Google 生态用户最值得考虑 | |
| Google AI Ultra | $249.99/月 | 最高额度 Gemini、Veo / Flow、Deep Think、NotebookLM、Antigravity、30TB 存储 | 高预算、高强度多模态和视频用户 | |
| Anthropic / Claude | Free | $0 | Claude 基础聊天 | 轻度体验 |
| Anthropic / Claude | Pro | $20/月 | Claude、Claude Code 可用、更高消息额度 | 写作、长文、代码审阅主力档 |
| Anthropic / Claude | Max 5X | $100/月 | Pro 全部能力,约 5 倍 Pro 使用量,Claude Code 更适合重度使用 | 重度 Claude Code / 长文 / 代码用户 |
| Anthropic / Claude | Max 20X | $200/月 | Pro 全部能力,约 20 倍 Pro 使用量 | 极重度 Claude 用户和开发者 |
ChatGPT 官方价格页显示,Pro 提供 5x 或 20x 更多使用量、更高 Codex 使用量、GPT-5.5 Pro reasoning、最大 Codex tasks、更多 deep research 和 agent mode;OpenAI 帮助中心也说明 Pro $100 目前对应 5x 用量,Pro $200 对应 20x 用量,并且 $100 档的 Codex 有阶段性额外用量活动。
Google Gemini 订阅页显示,Google AI Plus 为 $7.99/月,Google AI Pro 为 $19.99/月,Google AI Ultra 为 $249.99/月;Ultra 包含更高阶 Gemini、Veo 3.1、Deep Research、Audio Overviews、Deep Think、Agent Mode 和 30TB 存储。
Claude 官方价格页显示 Max 从 $100/月起,可选择比 Pro 多 5x 或 20x 的使用量;Claude 帮助中心进一步写明 Max 5x 为 $100/月,Max 20x 为 $200/月。
四、三大闭源 AI API 价格对比
订阅适合人直接用,API 适合开发者和产品集成。
这两套体系要分开看。一个产品的订阅便宜,不代表 API 便宜;一个模型 API 贵,也不代表它不值得用。真正要看的是任务价值和调用规模。
表 2:OpenAI / Anthropic / Google API 价格对比
单位统一为:美元 / 100 万 tokens($ / 1M tokens)。
| 公司 | 模型 | 输入价格 | 缓存输入 / Cache | 输出价格 | 适合场景 |
|---|---|---|---|---|---|
| OpenAI | GPT-5.5 | $5.00 / 1M | $0.50 / 1M | $30.00 / 1M | 旗舰通用模型,复杂推理、研究、代码 |
| OpenAI | GPT-5.5 Pro | $30.00 / 1M | 未按同表列出 | $180.00 / 1M | 高价值复杂任务 |
| OpenAI | GPT-5.4 | $1.25 / 1M | $0.13 / 1M | $7.50 / 1M | 日常生产级任务 |
| OpenAI | GPT-5.4 mini | $0.375 / 1M | $0.0375 / 1M | $2.25 / 1M | 高性价比批量任务 |
| Anthropic | Claude Opus 4.7 | $5.00 / 1M | Cache read $0.50 / 1M;5m cache write $6.25 / 1M | $25.00 / 1M | 长文、复杂逻辑、代码审阅 |
| Anthropic | Claude Sonnet 4.6 | $3.00 / 1M | 支持 prompt caching | $15.00 / 1M | 主力性价比模型 |
| Anthropic | Claude Haiku 4.5 | $1.00 / 1M | Cache read $0.10 / 1M;write $1.25 / 1M | $5.00 / 1M | 快速、低成本任务 |
| Gemini 3.1 Pro Preview / Priority | $3.60 / 1M ≤200K;$7.20 / 1M >200K | $0.36 / 1M ≤200K;$0.72 / 1M >200K | $21.60 / 1M ≤200K;$32.40 / 1M >200K | 高优先级生产任务 | |
| Gemini 3.1 Pro Preview / Flex 或 Batch | $1.00 / 1M ≤200K;$2.00 / 1M >200K | 未按同表列出 | $6.00 / 1M ≤200K;$9.00 / 1M >200K | 批量、低优先级、成本敏感任务 | |
| Gemini 3.1 Flash-Lite Preview / Priority | $0.45 / 1M 文本 / 图像 / 视频;$0.90 / 1M 音频 | $0.05 / 1M 文本 / 图像 / 视频;$0.09 / 1M 音频 | $2.70 / 1M | 高频低成本任务 | |
| Gemini 3.1 Flash-Lite Preview / Flex 或 Batch | $0.13 / 1M 文本 / 图像 / 视频;$0.25 / 1M 音频 | 未按同表列出 | $0.75 / 1M | 大规模批处理 |
OpenAI 官方 API 价格页列出 GPT-5.5、GPT-5.5 Pro、GPT-5.4、GPT-5.4 mini 等模型价格,并说明 Batch 可享 50% 折扣,区域数据处理端点对部分模型有 10% 加价。
Anthropic 官方价格页列出 Claude API 模型价格,并说明 Max 是面向更高使用量的 Claude + Claude Code 订阅;Google Cloud 的 Gemini Enterprise / Agent Platform 价格页列出 Gemini 3.1 Pro Preview 的 Priority、Flex、Batch 价格,以及 Flash-Lite 等低成本模型的计费方式。
五、我为什么愿意为顶级智力付费
AI 订阅和普通会员最大的区别在于,它卖的不是一个简单功能,而是一种“可调用的智力”。
我愿意为顶级智力付费。
如果一个模型确实能帮我完成复杂推理、写出高质量文章、审查大型代码库、解决开发卡点、做出真正可用的图像或视频,那么它就不是一个玩具订阅,而是生产力基础设施。
但我不会为“差不多的智力”买单。
很多 AI 产品现在的问题,不是收费本身,而是收费逻辑不清楚:
- 它到底比免费版聪明多少?
- 上下文长度提升了多少?
- 推理能力有没有明显增强?
- 代码能力有没有差距?
- 视频、图像、PPT、数据分析这些高成本能力有没有明确额度?
- 订阅之后,我到底买到的是更好的模型,还是只是更多次数?
如果一个产品只是把原来免费的能力切成几个档位,然后换个名字收钱,那我不会认为它有足够说服力。
反过来,如果它能明确告诉我:这个档位对应更强模型、更高上下文、更稳定的高峰期访问、更高质量图像 / 视频 / 语音生成、更大的 Agent 调用额度,那它就有讨论价值。
收费本身不丢人。
不清楚自己为什么收费,才是问题。
六、闭源模型榜单:强在综合能力、产品体验和终端化
如果只看“现在就要最好用、最稳、最完整”,闭源模型依然是主力。
| 排名 | 模型 / 产品 | 核心优势 | 主要劣势 | 我会怎么用 |
|---|---|---|---|---|
| 1 | GPT-5.5 Pro / High + ChatGPT / Codex | 综合能力最均衡,写作、研究、代码、图像、工具链都强 | 高阶能力和高额度需要更贵套餐 | 主力 AI 工作台 |
| 2 | Claude Opus 4.7 + Claude Code | 长文、代码审阅、复杂逻辑、语气控制强 | 图像 / 视频生态弱于 OpenAI、Google | 长文、代码审阅、复杂推理 |
| 3 | Gemini 3.1 Pro + Antigravity / Flow / NotebookLM | 长上下文、多模态、Google 生态、视频入口强 | 文案质感和部分代码风格有时不如 GPT / Claude 稳 | Google 生态、多模态、长文档 |
| 4 | Grok / xAI 系列 | 实时信息、X 生态、语音和图像视频入口 | 企业工作流生态不如前三家完整 | 实时信息、社交内容、语音场景 |
| 5 | 国内闭源产品:豆包、Kimi 等 | 中文、本土化、内容生产、国内生态 | 套餐权益和模型分层需要更透明 | 中文内容、国内场景、短视频工作流 |
我对闭源模型的理解是:
GPT 更像全能工作台
它不一定每个单项永远第一,但写文章、做研究、改代码、生成图像、整理资料、接工具,整体体验最完整。
Claude 更像高级编辑和资深工程师
它在长文、逻辑、代码审阅、语气控制上很稳,尤其适合需要推敲的任务。
Gemini 更像多模态研究助理和 Google 生态终端
如果你本来就在 Google Docs、Gmail、Drive、NotebookLM、Flow、Antigravity 这些工具里工作,Gemini 的价值会被明显放大。
七、开源 / 开放权重模型榜单:它们不只是便宜替代,而是在改变成本结构
如果只看普通聊天体验,闭源模型依然更稳。GPT、Claude、Gemini 在综合能力、产品体验、工具链和多模态生态上都非常成熟。
但如果从开发者、企业、私有化部署、Agent 成本、数据控制的角度看,开源 / 开放权重模型的意义完全不同。
它们不是单纯的“便宜版 GPT”,而是在解决闭源模型很难完全解决的几个问题:
第一,数据可控
代码、客户资料、内部知识库、财务数据、业务日志,不一定适合长期交给外部闭源 API。
第二,成本可控
当调用量很小时,闭源 API 很方便;但当 Agent、代码扫描、客服、知识库问答、批量生成进入高频调用,token 成本会迅速放大。
第三,部署可控
企业可以根据自己的安全、延迟、合规和网络环境,把模型放在私有云、本地机房或指定区域。
第四,可定制
开源 / 开放权重模型可以微调、蒸馏、量化、接企业内部工具链,也可以围绕特定业务做深度优化。
| 排名 | 模型 / 系列 | 核心定位 | 优势 | 劣势 |
|---|---|---|---|---|
| 1 | Xiaomi MiMo-V2.5-Pro | 复杂 Agent、软件工程、长程任务 | Agent 定位明确、长任务能力强、适合私有化 | 生态还需要时间成熟 |
| 2 | DeepSeek V4 Pro / V4 Flash | 推理、代码、低成本 API、Agent | 性价比高、代码强、适合批量任务 | 不同版本定位复杂,顶级文案不一定最稳 |
| 3 | Qwen3.6 系列 | 中文、代码、多模态、企业生态 | 中文强、模型谱系完整、阿里云生态好 | 选型复杂,海外生态不如 Llama |
| 4 | Google Gemma 4 / Gemma 3n | 轻量、端侧、Google 生态、开放部署 | 端侧强、Google Cloud 接入好、适合低成本部署 | 顶级综合智能不如 Gemini / GPT / Claude |
| 5 | Llama 4 系列 | 全球开放生态、通用底座 | 社区大、工具链丰富、适合研究和微调 | 中文和顶级推理不一定最强,许可证需审查 |
| 6 | Mistral / Codestral | 欧洲企业部署、代码、轻量模型 | 合规友好、低延迟、企业部署好 | 中文生态弱,社区规模不如 Llama |
| 7 | FLUX / Qwen Image / Stable Diffusion | 图像生成开放工作流 | 可控、私有化、适合 ComfyUI 工作流 | 上手和维护成本高 |
| 8 | Whisper / CosyVoice / Fish Speech | 语音识别、TTS、本地语音应用 | 适合隐私场景和本地部署 | 商业配音自然度可能不如 ElevenLabs |
1. Xiaomi MiMo-V2.5-Pro:复杂 Agent 和软件工程的新变量
MiMo-V2.5-Pro 最大的看点,是它从一开始就不是按普通聊天模型来定位的,而是面向复杂 Agent、软件工程和长程任务。
MiMo-V2-Pro 官方页面已经显示 1M-token context、Open API,并给出了按百万 tokens 计费的价格;MiMo-V2.5-Pro 则进一步把关注点推向复杂 Agent 和软件工程。
它的意义不是“又一个国产大模型”,而是把开源 / 开放权重模型推进到了复杂 Agent 和软件工程这个更实用的战场。
适合场景: 复杂 Agent、软件工程 Agent、代码库自动化处理、企业私有化部署、长文档 / 长任务执行、本地或私有云 AI 终端底座。
主要风险: 生态还不如 Llama、Qwen 成熟,产品化和大规模商业案例还需要时间验证。
2. DeepSeek V4 Pro / V4 Flash:推理、代码和成本之间的平衡点
DeepSeek 的核心优势是性价比和工程实用性。
DeepSeek 官方价格页显示,deepseek-chat 和 deepseek-reasoner 未来会对应到 V4 Flash 的非思考和思考模式;deepseek-v4-pro 当前有 75% 折扣延长至 2026 年 5 月 31 日,并且所有模型的 input cache hit 价格降到首发价的 1/10。
如果你每天只是手动问几个问题,API 成本不明显。但如果你要做 Agent、批量代码处理、客服、知识库、自动化分析,调用成本会很快变成核心问题。DeepSeek 的价值就在于,它让很多过去只有 GPT / Claude 才能做、但成本太高的任务,变得可以规模化运行。
适合场景: 代码生成、代码解释、后端 bug 分析、Agent API 底座、批量文本处理、低成本推理、企业内部自动化工具。
主要风险: 不同版本定位复杂,不能把所有 DeepSeek 模型都笼统称为开源;顶级文案、精细语气和极高价值推演仍可能不如 GPT / Claude 稳。
3. Qwen3.6 系列:中文生态、企业部署和多模态的均衡选手
Qwen 最大的优势是生态完整。
Qwen3.6 官方 GitHub 页面显示,阿里云 Model Studio 为 Qwen3.6 提供官方 API,并兼容 OpenAI 和 Anthropic 等 API 规范;Qwen 官方博客也提到 Qwen3.6-Plus 默认 1M context window,并面向 real world agents。
对国内业务来说,中文不是附加项,而是基础能力。合同、客服、知识库、产品文档、运营内容、政企场景都高度依赖中文理解和表达。Qwen 不只是一个模型,而是一整套模型生态:通用模型、代码模型、多模态模型、图像模型、小模型、企业 API、自部署方案。
适合场景: 中文知识库、企业内部助手、客服和运营自动化、代码辅助、私有化部署、多模态中文业务、阿里云生态项目。
主要风险: 模型谱系复杂,新手选型成本高;如果面向全球开源社区,Llama 的工具链和社区覆盖面仍然更广。
4. Google Gemma:Google 的开放模型工具箱
Gemini 是 Google 的闭源旗舰产品线;Gemma 是 Google 面向开发者、本地部署、边缘设备和开放生态的模型家族。
Google 官方文档对 Gemma 的定义是:一组轻量级、先进的开放模型,和 Gemini 使用同源研究与技术构建。Google DeepMind 的 Gemma 页面也强调,这些开放模型可以从云服务器运行到笔记本甚至手机。
Gemma 不应该被理解成 Gemini 的低配替代品。它更像 Google 的开放模型工具箱:
- Gemini 负责最强能力和闭源产品体验。
- Gemma 负责部署灵活性、端侧运行、低成本推理和企业可控性。
Gemma 4 官方介绍称,它是 Google 迄今最智能的开放模型,面向 advanced reasoning 和 agentic workflows;Gemma 4 模型概览显示其提供多个参数规模,可在不同精度和成本之间做取舍。
Google Vertex AI 文档还说明,Gemma 3n 是面向低资源设备高效执行的开放模型,支持文本、图像、视频和音频多模态输入,并支持 140 多种语言。
适合场景: 端侧 AI、本地总结、本地翻译、本地语音处理、App 内智能功能、低成本内部服务、Google Cloud 上的开放模型部署、RAG 和 embedding、安全分类和垂直模型。
主要风险: 顶级综合智能不如 Gemini / GPT / Claude;开放模型不能裸奔上线,事实问答、客服和知识库场景必须搭配 RAG、引用来源、内容审核和置信度控制。
5. Llama、Mistral 和图像 / 语音开放生态
Llama 的优势不是每个单项都第一,而是全球生态大,工具链丰富,适合研究、微调和通用开源模型底座。
Mistral / Codestral 的优势是欧洲企业部署、代码场景、低延迟和合规路线,适合欧洲市场和企业私有化。
FLUX、Qwen Image、Stable Diffusion 生态的价值不只是生成一张图,而是能进入 ComfyUI、ControlNet、LoRA、IP-Adapter 等完整工作流。
Whisper、CosyVoice、Fish Speech 等语音模型则适合会议转写、本地 TTS、中文配音、客服质检和隐私敏感录音处理。
八、编程、前端、后端:现在比的不是“会不会写代码”,而是能不能进入真实工程流
AI 编程能力不能只看它会不会写一个函数,或者能不能刷几道算法题。真正影响开发效率的,是它能不能进入真实工程流:
- 它能不能读懂一个已有项目?
- 能不能理解多文件之间的依赖?
- 能不能根据报错定位问题?
- 能不能稳定修改前端组件、状态管理和样式?
- 能不能理解后端接口、数据库、权限和业务逻辑?
- 能不能作为 Agent 连续执行任务,而不是只给一段建议?
所以我现在会把 AI 编程能力拆成几类来看。
1. 前端开发:最重要的是审美、结构和可迭代能力
| 场景 | 第一梯队 | 我为什么这么排 |
|---|---|---|
| 前端 / React / Vue / 页面生成 | Claude Opus 4.7 Thinking、GPT-5.5 / Codex、Gemini 3.1 Pro | Claude 更擅长理解需求和保持代码结构清晰;GPT / Codex 更适合快速生成、接入工具和多轮修改;Gemini 适合长上下文项目和多模态输入 |
做前端页面,Claude 更像产品型工程师,GPT / Codex 更像执行力很强的全栈助手,Gemini 更适合处理长上下文和多资料输入。
2. 后端开发:最重要的是业务逻辑、系统边界和错误定位
| 场景 | 第一梯队 | 我为什么这么排 |
|---|---|---|
| 后端 / 大型仓库 / Bug 修复 | Claude Opus 4.7、GPT-5.5 / Codex、DeepSeek V4 Pro、Gemini 3.1 Pro | Claude 适合审查复杂逻辑;GPT / Codex 适合进入真实开发流程;DeepSeek 在代码和推理成本上有优势;Gemini 适合长上下文项目分析 |
后端复杂逻辑用 Claude,真实开发执行用 GPT / Codex,成本敏感的大规模代码任务看 DeepSeek,超长上下文项目分析看 Gemini。
3. 复杂 Agent 开发:关键不是回答,而是连续执行
| 场景 | 第一梯队 | 我为什么这么排 |
|---|---|---|
| 复杂 Agent 开发 | Xiaomi MiMo-V2.5-Pro、DeepSeek V4 Pro、Claude Opus 4.7、Qwen3.6、Gemma 4 | MiMo 和 Gemma 4 都强调 Agentic workflows;DeepSeek 兼顾推理、代码和成本;Claude 适合高质量规划和代码审阅;Qwen 适合中文生态和私有化 |
Agent 不是比谁一句话回答得好,而是比谁能稳定跑完一条长链路。MiMo、DeepSeek、Qwen、Gemma 的意义,是让复杂 Agent 不再完全依赖昂贵闭源模型。
4. 低成本批量代码任务:不能只追求最强,要看单位成本
| 场景 | 第一梯队 | 我为什么这么排 |
|---|---|---|
| 低成本批量代码任务 | DeepSeek V4 Flash、Qwen3.6、MiMo-V2.5、Gemini Flash、Gemma 小模型 | DeepSeek 和 Qwen 成本低、适合批量调用;MiMo 适合复杂自部署 Agent;Gemini Flash 和 Gemma 适合 Google 生态与低成本部署 |
最强模型适合高价值决策,便宜模型适合大规模执行。把两者混用,才是更现实的工程方案。
5. 私有化部署:核心不是跑起来,而是能不能长期维护
| 场景 | 第一梯队 | 我为什么这么排 |
|---|---|---|
| 私有化部署 | MiMo、Qwen、DeepSeek、Gemma、Llama、Mistral | MiMo 和 Qwen 更适合中文和国内生态;DeepSeek 性价比和代码能力突出;Gemma 适合端侧和 Google Cloud;Llama 生态广;Mistral 适合欧洲合规 |
私有化的核心不是省钱,而是掌控数据、成本和系统边界。
九、视频生成:Sora 退场后,第一梯队要重新排序
视频生成是变化最大的一块。
过去很多人提到 AI 视频,第一反应是 Sora、Veo、Runway。但到了 2026 年 5 月,这个格局已经明显变化。
首先,Sora 已经不能作为当前主力视频工具推荐。OpenAI 官方帮助中心显示,Sora Web 和 App 已于 2026 年 4 月 26 日停止服务,Sora API 将于 2026 年 9 月 24 日停止服务。
所以我现在会把 Sora 从“当前第一梯队推荐”里移出,放到“历史重要产品”里。
| 排名 | 模型 / 产品 | 我的判断 |
|---|---|---|
| 1 | Seedance 2.0 | 综合最强候选,尤其带音频和多模态输入 |
| 2 | HappyHorse-1.0 | 纯视觉质量极强,但产品化和 API 透明度还要观察 |
| 3 | Kling 3.0 / Kling 3.0 Omni | 短视频、电商、广告、角色一致性和参考驱动强 |
| 4 | Veo 3.1 | Google 生态、企业 API、原生音频、长视频控制强 |
| 5 | Runway Gen-4.5 | 专业创作者工作流、编辑控制、团队协作强 |
| 历史重要但不主推 | Sora 2 / Sora API | Web / App 已停服,API 进入停服倒计时 |
Seedance 2.0 的优势在带音频视频、多模态参考输入和短视频生产。对广告、电商、剧情分镜、内容创作来说,它比单纯“文生一段画面”的模型更接近生产工具。
HappyHorse-1.0 的问题在于:榜单能力强,但商业可用性、API、价格、稳定性和版权治理还需要继续观察。
Kling 3.0 / Omni 很适合中国内容场景,尤其是短视频、电商、广告、人物一致性、参考图 / 参考视频驱动、多语言和多口音原生音频。
Veo 3.1 不一定每个盲测都第一,但 Google 生态、企业 API、Flow、Gemini、Vertex AI、长视频控制和参考图控制是它的优势。
Runway Gen-4.5 的核心价值是创作者工作流。它不只是生成视频,而是把素材、编辑、控制、团队协作放在同一个平台里。
十、图像生成:GPT Image 负责准确,Midjourney 负责审美
图像生成的格局比视频稳定一些。
| 排名 | 工具 / 模型 | 核心优势 |
|---|---|---|
| 1 | GPT Image 2 | 指令跟随、图片编辑、文字排版、产品图、真实业务图 |
| 2 | Midjourney v7 / v8 Alpha | 审美、氛围、海报、插画、风格化 |
| 3 | Gemini Nano Banana Pro | 多模态、文档 / 图片结合、Google 生态 |
| 4 | Seedream | 中文商业图、电商图、短视频封面 |
| 5 | FLUX.2 / Qwen Image / Stable Diffusion | 开源、私有化、可控生成 |
我的实际使用逻辑很简单:
- 想要准确执行复杂指令,用 GPT Image。
- 想要好看、有风格、有氛围,用 Midjourney。
- 想要和文档、视频、Google 工作流结合,看 Gemini。
- 想要中文商业视觉和短视频封面,看 Seedream。
- 想要私有化和本地工作流,看 FLUX / Qwen Image / Stable Diffusion。
闭源图像模型适合快速出图,开源图像模型适合建立长期可控的生产线。
十一、音频与音乐:ElevenLabs 和 Suno 依然最值得单列
音频要拆成两类:语音 / 配音 / TTS / 声音克隆 和 音乐生成。
语音第一梯队
| 排名 | 工具 | 场景 |
|---|---|---|
| 1 | ElevenLabs | 配音、TTS、声音克隆、Voice Agent |
| 2 | OpenAI Realtime / Audio | 实时语音 Agent、多模态交互 |
| 3 | xAI Voice | 实时语音、Grok / X 生态 |
| 4 | Google / Gemini Audio | 知识音频、Workspace、NotebookLM |
| 5 | 国内语音模型 / 开源语音模型 | 中文配音、客服、短视频、本地合规 |
音乐生成第一梯队
| 排名 | 工具 | 场景 |
|---|---|---|
| 1 | Suno | 歌曲生成、demo、短视频配乐 |
| 2 | Udio | 音乐创作、风格探索 |
| 3 | Stable Audio / 开源音乐模型 | 私有化、实验性音乐生成 |
语音方向我会特别注意合规问题。声音克隆、语音合成、自动配音都涉及授权、版权和身份风险,不能只看技术效果。
十二、便宜 AI 和贵 AI 会同时存在
AI 收费不意味着所有工具都会变贵。更准确地说,未来会出现明显分层。
第一层:免费或低价 AI
用于日常问答、轻度写作、简单总结、普通搜索、低成本陪伴。这一层会继续存在,因为它负责获客,也负责让 AI 变成大众基础设施。
第二层:主流个人订阅
大概是 $8–$30/月这个区间,对应 ChatGPT Go / Plus、Google AI Plus / Pro、Claude Pro、豆包标准版 / 加强版。它适合高频个人用户,但不一定适合极重度工作流。
第三层:高强度个人或专业用户
比如 ChatGPT Pro 5X / 20X、Claude Max 5X / 20X、Google AI Ultra。这一层的核心不是会员身份,而是更高额度、更强模型、更复杂任务、更高优先级,以及更完整的 AI 终端能力。
第四层:API 和企业计费
这才是真正的成本战场。按 tokens、图片、视频秒数、语音时长、Agent 调用次数计费。对公司来说,月费不是重点,真正烧钱的是调用规模。
所以未来不是“AI 都会变贵”,而是:
普通智力会越来越便宜,顶级智力会越来越贵。
这其实合理。
普通任务会被更小、更快、更便宜的模型承接;最强模型、长上下文、深度推理、复杂 Agent、多模态生成,仍然会占用昂贵算力资源。
十三、我的选择逻辑:不为焦虑买单,只为确定价值付费
现在 AI 工具越来越多,每个产品都在告诉你:不订阅就会落后,不升级就会错过。但我不想被这种焦虑牵着走。
我的选择逻辑很简单:
- 如果一个工具只是看起来不错,我不会马上订阅。
- 如果它能稳定替代我某一部分工作流,我会考虑订阅。
- 如果它能显著提升我的产出质量和速度,我愿意长期付费。
比如:
ChatGPT 如果能作为我的全能工作台,帮我写文章、做研究、改代码、生成图像、整理资料,那它值得付费。
Claude 如果能稳定帮我做长文改写、代码审阅、复杂逻辑推演,甚至通过 Claude Code 进入真实项目,那它值得付费。
Gemini 如果能在 Google 文档、长上下文、多模态、Antigravity 和视频生态里提高效率,那它值得付费。
DeepSeek、Qwen、MiMo、Gemma 如果能作为低成本 API、端侧模型或私有化 Agent 底座,那它们值得进入技术栈。
Seedance、Kling、Runway、Veo 如果能真正产出可用视频,而不是只生成几段演示样片,那它们才值得进入内容生产工作流。
我不会因为一个工具很火就订阅。
也不会因为一个工具便宜就长期留着。
真正的问题只有一个:
它是否用明确的结果,证明自己值这个价格?
十四、我的最终选型建议
如果我是个人创作者:
- ChatGPT Plus / Pro
- Claude Pro / Max
- Midjourney
- Suno
如果我是开发者或小团队:
- GPT-5.5 / Codex
- Claude Opus 4.7 / Claude Code
- DeepSeek V4
- Qwen / MiMo / Gemma
如果我是短视频 / 广告 / 电商团队:
- Seedance 2.0
- Kling 3.0
- Runway Gen-4.5
- Midjourney / GPT Image 2
如果我是Google 生态重度用户:
- Google AI Pro 起步
- 如果确实重度使用 Veo、Flow、Antigravity、NotebookLM,再考虑 Ultra
如果我是企业团队:
- OpenAI / Anthropic / Google 作为闭源底座
- DeepSeek / Qwen / MiMo / Gemma / Llama / Mistral 作为成本与私有化补充
如果我只想选一个全能工具:
- 优先 ChatGPT Plus / Pro
- 长文和代码审阅重度用户加 Claude
- Google 生态重度用户加 Gemini
十五、最后的判断
这篇文章表面上是在排 AI 工具,实际上我更想讨论的是:
当 AI 从免费体验品变成付费生产力工具后,我们应该如何判断它值不值得买。
以前我看 AI 工具,可能更关注“谁最强”。
现在我会同时看四件事:
- 能力:它是不是足够聪明?
- 成本:它的订阅和 API 是否合理?
- 稳定性:它会不会像 Sora 一样突然退出主力选型?
- 工作流:它能不能真正嵌入我的日常生产?
我愿意为顶级智力付费,但不会为差不多的智力买单。
AI 产品从免费走向收费是正常的。因为每一次对话、每一次生成、每一次推理、每一次 Agent 调用,背后都是真实的 tokens、算力和成本。免费可以作为入口,但不可能支撑所有高级能力长期无限使用。
但用户也不应该盲目为 AI 买单。
真正值得付费的 AI,不是名字最响的那个,也不是宣传最猛的那个,而是能在我的工作流里稳定创造价值的那个。
所以我现在看 AI 工具,不再只问“哪个最强”,而是问:
- 它强在哪里?
- 它贵在哪里?
- 它能替代我哪部分工作?
- 它能不能持续稳定地帮我产出?
如果答案清楚,我愿意付费。
如果答案模糊,再便宜也不值得长期留下。
豆包开始收费只是一个信号。接下来,不管是 ChatGPT、Claude、Gemini,还是国内的豆包、Kimi、Qwen、DeepSeek,都会进入同一个阶段:
用真实能力证明价格。
这也会是我之后选择 AI 工具的核心标准。