体验分享#软件#vibe coding

从豆包开始收费说起：AI 免费时代正在结束

2026-05-05|yancey|51 分钟阅读

嗨，大家好。

如果你发现这个博客已经整整一个月没有动静，那是因为我经历了一场典型的“创造者危机”。

过去的一个月里，我的脑子里塞满了各种宏大的计划，试图同时开启多线操作：

野心勃勃的重构： 我原本计划给博客的 Reading 板块来个彻底升级，代码敲到了 50%，结果被复杂的细节卡住。
受挫的开发流： 我构思了三个核心 MVP 项目，试图打造一个完整的“信息收集、处理、发布”自动化工作流，但由于早期进展并不顺利，进度条再次陷入僵局。
难产的完美主义： 我还一直想做一期足够完整的教学视频，结果因为标准定得太高，迟迟没有按下录制键。

当你试图同时拉满所有项目的进度条时，现实往往会给你一记重锤。这几个接二连三的卡壳，让我进入了一段明显的低效期。认知负荷超标后，我开始逃避、拖延，看着待办事项落灰，挫败感不断叠加。

后来我意识到，我们很多时候不是被真实的困难打败的，而是被自己预设的庞大目标和完美主义压垮的。没写完的代码可以先放在分支里，庞大的自动化工作流可以先用手写代替，完美的视频也不一定比一篇及时写出来的文章更有价值。

面对一团乱麻，最好的破局方式不是寻找一把完美的剪刀，而是先抽出一个线头，解开一个结。

所以这篇文章，就从我最近一直想整理、但迟迟没有动笔的一个话题开始：

2026 年 5 月，AI 工具从免费走向收费以后，到底应该怎么选？

这篇文章表面上是在整理 AI 工具排行，但我更想讨论的是：当 AI 从免费体验品变成付费生产力工具后，我们到底应该为什么付费。

一、豆包开始收费，不只是一个价格新闻

最近让我重新思考 AI 工具选型的一个触发点，其实不是 GPT、Claude 或 Gemini 的新模型，而是一个更接地气的事情：豆包开始测试订阅套餐收费了。

我在 App Store 里看到，豆包会员已经出现了几个内购档位：

豆包会员档位	人民币价格	粗略换算美元
标准版连续包月	¥68/月	约 $10/月
加强版连续包月	¥200/月	约 $29/月
专业版连续包月	¥500/月	约 $73/月
标准版 1 年	¥828/年	约 $121/年
加强版 1 年	¥2,488/年	约 $364/年
专业版 1 年	¥6,088/年	约 $891/年

这里按 1 美元 ≈ 6.83 元人民币粗略换算，实际会随汇率、税费和 App Store 渠道变化。

可以小小开个玩笑：

以前我打开豆包，是想让 AI 帮我规划预算。

现在我打开豆包，发现预算里得先规划 AI。

但玩笑背后，其实是一个非常现实的行业变化：AI 免费时代正在结束。

早期的 AI 产品，大多通过免费额度或者低价套餐来吸引用户。这个逻辑和过去的互联网产品很像：先通过免费获取用户，再通过会员、广告、增值服务或生态锁定变现。

但 AI 和传统互联网产品有一个本质区别：

每一次对话、每一次生成、每一次搜索、每一次 Agent 工具调用，背后都在消耗 tokens。

传统互联网产品的边际成本很低。你打开一篇文章、刷一个页面、发一条评论，平台当然也有服务器和带宽成本，但单位成本通常可以被规模摊薄到很低。

AI 不一样。尤其是大模型推理，每次响应都要消耗算力、显存、带宽、电力和推理服务资源。越是高级模型，越是长上下文，越是复杂推理，越是多模态生成，成本越真实。

所以我现在看 AI 订阅，已经不会只问“为什么要收费”，而是会问三个问题：

它到底解锁了什么级别的智力？
它的使用额度够不够支撑真实工作流？
它的价格和同类工具相比是否合理？

如果只是“差不多的智力”，我不会买单。

如果确实是顶级智力，我愿意付费。

这就是我现在对 AI 订阅的基本态度。

二、AI 订阅已经不只是聊天软件，而是 AI 终端

以前我们说 ChatGPT、Claude、Gemini，很多人第一反应还是“聊天机器人”。

但现在这个认知已经过时了。

OpenAI 的订阅不只是 ChatGPT 聊天框，它还包括 Codex。OpenAI 官方 Codex 页面明确写到，Codex 包含在 ChatGPT Free、Go、Plus、Pro、Business、Enterprise 各个计划里；ChatGPT Pro 也提供更高 Codex 使用量和更高强度的 coding session。

Google 的订阅也不只是 Gemini 聊天框。Google AI Plus、AI Pro、AI Ultra 现在连接的是 Gemini、NotebookLM、Flow、Veo、Google Workspace 以及 Google Antigravity。Google 官方说明，AI Pro 用户可以增强访问 Antigravity，这是一个由 Gemini 3 Pro 驱动的开发环境，可以管理 autonomous AI agents，在编辑器、终端和浏览器之间规划、执行和验证复杂 coding tasks。

Claude 也一样。Claude Pro、Max 不只是 Claude 网页聊天，而是和 Claude Code 这样的开发工具绑定在一起。Anthropic 官方 Max 页面明确写到，Max plan 把 Claude desktop、mobile apps 和 Claude Code 放在一个订阅里，并提供最高比 Pro 多 20x 的使用量。

这意味着，现在顶级 AI 订阅已经不再是“买一个聊天软件会员”。它们正在变成一种新的 AI 终端：

ChatGPT + Codex 是 OpenAI 的写作、研究、编程、Agent 终端。
Gemini + Antigravity + Flow + NotebookLM 是 Google 的多模态、搜索、文档、编程、视频终端。
Claude + Claude Code 是 Anthropic 的长文、推理、代码审阅和软件工程终端。

这也是为什么我现在评价 AI 订阅时，不会只看聊天框本身。我要看它能不能进入我的真实工作流：写作、研究、代码、前端、后端、视频、图像、资料管理、自动化。

如果一个 AI 工具只是陪聊，它很难支撑高价订阅。

如果它变成了一个完整的生产力终端，它就有可能值这个价格。

三、三大闭源 AI 订阅套餐对比

本文海外订阅价格统一按美区价格参考；API 价格统一按官方美元计价。其他可使用地区会因为税费、汇率、本地定价、App Store / Google Play 渠道抽成产生差异，但通常差异有限，不会改变大的选型结论。

真正会影响选型的，更多是套餐权益、模型能力和使用额度，而不是几个地区之间的小幅价格差。

表 1：OpenAI / Google / Claude 订阅套餐对比

公司	套餐	美区月费参考	包含的关键工具	我的判断
OpenAI / ChatGPT	Free	$0	ChatGPT、有限 Codex 体验	偶尔使用可以，不能支撑重度工作流
OpenAI / ChatGPT	Go	$8/月	ChatGPT、Codex 试用、更高基础额度	低价入门，适合轻度用户
OpenAI / ChatGPT	Plus	$20/月	ChatGPT、Codex、图像、文件、Deep Research 等	大多数个人用户性价比最高
OpenAI / ChatGPT	Pro 5X	$100/月	Plus 全部能力，更高使用量，更高 Codex 用量	重度写作、研究、编程用户
OpenAI / ChatGPT	Pro 20X	$200/月	最高个人使用量，最大 Codex / Agent / Research 额度	极重度用户、把 ChatGPT 当主力 AI 终端的人
Google	Free	$0	Gemini 基础使用	轻度体验
Google	Google AI Plus	$7.99/月	Gemini、部分高级额度、200GB 存储	低价入门，适合轻度 Google 生态用户
Google	Google AI Pro	$19.99/月	Gemini、Gmail / Docs 里的 Gemini、NotebookLM、Flow、Antigravity、更高额度、5TB 存储	Google 生态用户最值得考虑
Google	Google AI Ultra	$249.99/月	最高额度 Gemini、Veo / Flow、Deep Think、NotebookLM、Antigravity、30TB 存储	高预算、高强度多模态和视频用户
Anthropic / Claude	Free	$0	Claude 基础聊天	轻度体验
Anthropic / Claude	Pro	$20/月	Claude、Claude Code 可用、更高消息额度	写作、长文、代码审阅主力档
Anthropic / Claude	Max 5X	$100/月	Pro 全部能力，约 5 倍 Pro 使用量，Claude Code 更适合重度使用	重度 Claude Code / 长文 / 代码用户
Anthropic / Claude	Max 20X	$200/月	Pro 全部能力，约 20 倍 Pro 使用量	极重度 Claude 用户和开发者

ChatGPT 官方价格页显示，Pro 提供 5x 或 20x 更多使用量、更高 Codex 使用量、GPT-5.5 Pro reasoning、最大 Codex tasks、更多 deep research 和 agent mode；OpenAI 帮助中心也说明 Pro $100 目前对应 5x 用量，Pro $200 对应 20x 用量，并且 $100 档的 Codex 有阶段性额外用量活动。

Google Gemini 订阅页显示，Google AI Plus 为 $7.99/月，Google AI Pro 为 $19.99/月，Google AI Ultra 为 $249.99/月；Ultra 包含更高阶 Gemini、Veo 3.1、Deep Research、Audio Overviews、Deep Think、Agent Mode 和 30TB 存储。

Claude 官方价格页显示 Max 从 $100/月起，可选择比 Pro 多 5x 或 20x 的使用量；Claude 帮助中心进一步写明 Max 5x 为 $100/月，Max 20x 为 $200/月。

四、三大闭源 AI API 价格对比

订阅适合人直接用，API 适合开发者和产品集成。

这两套体系要分开看。一个产品的订阅便宜，不代表 API 便宜；一个模型 API 贵，也不代表它不值得用。真正要看的是任务价值和调用规模。

表 2：OpenAI / Anthropic / Google API 价格对比

单位统一为：美元 / 100 万 tokens（$ / 1M tokens）。

公司	模型	输入价格	缓存输入 / Cache	输出价格	适合场景
OpenAI	GPT-5.5	$5.00 / 1M	$0.50 / 1M	$30.00 / 1M	旗舰通用模型，复杂推理、研究、代码
OpenAI	GPT-5.5 Pro	$30.00 / 1M	未按同表列出	$180.00 / 1M	高价值复杂任务
OpenAI	GPT-5.4	$1.25 / 1M	$0.13 / 1M	$7.50 / 1M	日常生产级任务
OpenAI	GPT-5.4 mini	$0.375 / 1M	$0.0375 / 1M	$2.25 / 1M	高性价比批量任务
Anthropic	Claude Opus 4.7	$5.00 / 1M	Cache read $0.50 / 1M；5m cache write $6.25 / 1M	$25.00 / 1M	长文、复杂逻辑、代码审阅
Anthropic	Claude Sonnet 4.6	$3.00 / 1M	支持 prompt caching	$15.00 / 1M	主力性价比模型
Anthropic	Claude Haiku 4.5	$1.00 / 1M	Cache read $0.10 / 1M；write $1.25 / 1M	$5.00 / 1M	快速、低成本任务
Google	Gemini 3.1 Pro Preview / Priority	$3.60 / 1M ≤200K；$7.20 / 1M >200K	$0.36 / 1M ≤200K；$0.72 / 1M >200K	$21.60 / 1M ≤200K；$32.40 / 1M >200K	高优先级生产任务
Google	Gemini 3.1 Pro Preview / Flex 或 Batch	$1.00 / 1M ≤200K；$2.00 / 1M >200K	未按同表列出	$6.00 / 1M ≤200K；$9.00 / 1M >200K	批量、低优先级、成本敏感任务
Google	Gemini 3.1 Flash-Lite Preview / Priority	$0.45 / 1M 文本 / 图像 / 视频；$0.90 / 1M 音频	$0.05 / 1M 文本 / 图像 / 视频；$0.09 / 1M 音频	$2.70 / 1M	高频低成本任务
Google	Gemini 3.1 Flash-Lite Preview / Flex 或 Batch	$0.13 / 1M 文本 / 图像 / 视频；$0.25 / 1M 音频	未按同表列出	$0.75 / 1M	大规模批处理

OpenAI 官方 API 价格页列出 GPT-5.5、GPT-5.5 Pro、GPT-5.4、GPT-5.4 mini 等模型价格，并说明 Batch 可享 50% 折扣，区域数据处理端点对部分模型有 10% 加价。

Anthropic 官方价格页列出 Claude API 模型价格，并说明 Max 是面向更高使用量的 Claude + Claude Code 订阅；Google Cloud 的 Gemini Enterprise / Agent Platform 价格页列出 Gemini 3.1 Pro Preview 的 Priority、Flex、Batch 价格，以及 Flash-Lite 等低成本模型的计费方式。

五、我为什么愿意为顶级智力付费

AI 订阅和普通会员最大的区别在于，它卖的不是一个简单功能，而是一种“可调用的智力”。

我愿意为顶级智力付费。

如果一个模型确实能帮我完成复杂推理、写出高质量文章、审查大型代码库、解决开发卡点、做出真正可用的图像或视频，那么它就不是一个玩具订阅，而是生产力基础设施。

但我不会为“差不多的智力”买单。

很多 AI 产品现在的问题，不是收费本身，而是收费逻辑不清楚：

它到底比免费版聪明多少？
上下文长度提升了多少？
推理能力有没有明显增强？
代码能力有没有差距？
视频、图像、PPT、数据分析这些高成本能力有没有明确额度？
订阅之后，我到底买到的是更好的模型，还是只是更多次数？

如果一个产品只是把原来免费的能力切成几个档位，然后换个名字收钱，那我不会认为它有足够说服力。

反过来，如果它能明确告诉我：这个档位对应更强模型、更高上下文、更稳定的高峰期访问、更高质量图像 / 视频 / 语音生成、更大的 Agent 调用额度，那它就有讨论价值。

收费本身不丢人。

不清楚自己为什么收费，才是问题。

六、闭源模型榜单：强在综合能力、产品体验和终端化

如果只看“现在就要最好用、最稳、最完整”，闭源模型依然是主力。

排名	模型 / 产品	核心优势	主要劣势	我会怎么用
1	GPT-5.5 Pro / High + ChatGPT / Codex	综合能力最均衡，写作、研究、代码、图像、工具链都强	高阶能力和高额度需要更贵套餐	主力 AI 工作台
2	Claude Opus 4.7 + Claude Code	长文、代码审阅、复杂逻辑、语气控制强	图像 / 视频生态弱于 OpenAI、Google	长文、代码审阅、复杂推理
3	Gemini 3.1 Pro + Antigravity / Flow / NotebookLM	长上下文、多模态、Google 生态、视频入口强	文案质感和部分代码风格有时不如 GPT / Claude 稳	Google 生态、多模态、长文档
4	Grok / xAI 系列	实时信息、X 生态、语音和图像视频入口	企业工作流生态不如前三家完整	实时信息、社交内容、语音场景
5	国内闭源产品：豆包、Kimi 等	中文、本土化、内容生产、国内生态	套餐权益和模型分层需要更透明	中文内容、国内场景、短视频工作流

我对闭源模型的理解是：

GPT 更像全能工作台

它不一定每个单项永远第一，但写文章、做研究、改代码、生成图像、整理资料、接工具，整体体验最完整。

Claude 更像高级编辑和资深工程师

它在长文、逻辑、代码审阅、语气控制上很稳，尤其适合需要推敲的任务。

Gemini 更像多模态研究助理和 Google 生态终端

如果你本来就在 Google Docs、Gmail、Drive、NotebookLM、Flow、Antigravity 这些工具里工作，Gemini 的价值会被明显放大。

七、开源 / 开放权重模型榜单：它们不只是便宜替代，而是在改变成本结构

如果只看普通聊天体验，闭源模型依然更稳。GPT、Claude、Gemini 在综合能力、产品体验、工具链和多模态生态上都非常成熟。

但如果从开发者、企业、私有化部署、Agent 成本、数据控制的角度看，开源 / 开放权重模型的意义完全不同。

它们不是单纯的“便宜版 GPT”，而是在解决闭源模型很难完全解决的几个问题：

第一，数据可控

代码、客户资料、内部知识库、财务数据、业务日志，不一定适合长期交给外部闭源 API。

第二，成本可控

当调用量很小时，闭源 API 很方便；但当 Agent、代码扫描、客服、知识库问答、批量生成进入高频调用，token 成本会迅速放大。

第三，部署可控

企业可以根据自己的安全、延迟、合规和网络环境，把模型放在私有云、本地机房或指定区域。

第四，可定制

开源 / 开放权重模型可以微调、蒸馏、量化、接企业内部工具链，也可以围绕特定业务做深度优化。

排名	模型 / 系列	核心定位	优势	劣势
1	Xiaomi MiMo-V2.5-Pro	复杂 Agent、软件工程、长程任务	Agent 定位明确、长任务能力强、适合私有化	生态还需要时间成熟
2	DeepSeek V4 Pro / V4 Flash	推理、代码、低成本 API、Agent	性价比高、代码强、适合批量任务	不同版本定位复杂，顶级文案不一定最稳
3	Qwen3.6 系列	中文、代码、多模态、企业生态	中文强、模型谱系完整、阿里云生态好	选型复杂，海外生态不如 Llama
4	Google Gemma 4 / Gemma 3n	轻量、端侧、Google 生态、开放部署	端侧强、Google Cloud 接入好、适合低成本部署	顶级综合智能不如 Gemini / GPT / Claude
5	Llama 4 系列	全球开放生态、通用底座	社区大、工具链丰富、适合研究和微调	中文和顶级推理不一定最强，许可证需审查
6	Mistral / Codestral	欧洲企业部署、代码、轻量模型	合规友好、低延迟、企业部署好	中文生态弱，社区规模不如 Llama
7	FLUX / Qwen Image / Stable Diffusion	图像生成开放工作流	可控、私有化、适合 ComfyUI 工作流	上手和维护成本高
8	Whisper / CosyVoice / Fish Speech	语音识别、TTS、本地语音应用	适合隐私场景和本地部署	商业配音自然度可能不如 ElevenLabs

1. Xiaomi MiMo-V2.5-Pro：复杂 Agent 和软件工程的新变量

MiMo-V2.5-Pro 最大的看点，是它从一开始就不是按普通聊天模型来定位的，而是面向复杂 Agent、软件工程和长程任务。

MiMo-V2-Pro 官方页面已经显示 1M-token context、Open API，并给出了按百万 tokens 计费的价格；MiMo-V2.5-Pro 则进一步把关注点推向复杂 Agent 和软件工程。

它的意义不是“又一个国产大模型”，而是把开源 / 开放权重模型推进到了复杂 Agent 和软件工程这个更实用的战场。

适合场景： 复杂 Agent、软件工程 Agent、代码库自动化处理、企业私有化部署、长文档 / 长任务执行、本地或私有云 AI 终端底座。

主要风险： 生态还不如 Llama、Qwen 成熟，产品化和大规模商业案例还需要时间验证。

2. DeepSeek V4 Pro / V4 Flash：推理、代码和成本之间的平衡点

DeepSeek 的核心优势是性价比和工程实用性。

DeepSeek 官方价格页显示，deepseek-chat 和 deepseek-reasoner 未来会对应到 V4 Flash 的非思考和思考模式；deepseek-v4-pro 当前有 75% 折扣延长至 2026 年 5 月 31 日，并且所有模型的 input cache hit 价格降到首发价的 1/10。

如果你每天只是手动问几个问题，API 成本不明显。但如果你要做 Agent、批量代码处理、客服、知识库、自动化分析，调用成本会很快变成核心问题。DeepSeek 的价值就在于，它让很多过去只有 GPT / Claude 才能做、但成本太高的任务，变得可以规模化运行。

适合场景： 代码生成、代码解释、后端 bug 分析、Agent API 底座、批量文本处理、低成本推理、企业内部自动化工具。

主要风险： 不同版本定位复杂，不能把所有 DeepSeek 模型都笼统称为开源；顶级文案、精细语气和极高价值推演仍可能不如 GPT / Claude 稳。

3. Qwen3.6 系列：中文生态、企业部署和多模态的均衡选手

Qwen 最大的优势是生态完整。

Qwen3.6 官方 GitHub 页面显示，阿里云 Model Studio 为 Qwen3.6 提供官方 API，并兼容 OpenAI 和 Anthropic 等 API 规范；Qwen 官方博客也提到 Qwen3.6-Plus 默认 1M context window，并面向 real world agents。

对国内业务来说，中文不是附加项，而是基础能力。合同、客服、知识库、产品文档、运营内容、政企场景都高度依赖中文理解和表达。Qwen 不只是一个模型，而是一整套模型生态：通用模型、代码模型、多模态模型、图像模型、小模型、企业 API、自部署方案。

适合场景： 中文知识库、企业内部助手、客服和运营自动化、代码辅助、私有化部署、多模态中文业务、阿里云生态项目。

主要风险： 模型谱系复杂，新手选型成本高；如果面向全球开源社区，Llama 的工具链和社区覆盖面仍然更广。

4. Google Gemma：Google 的开放模型工具箱

Gemini 是 Google 的闭源旗舰产品线；Gemma 是 Google 面向开发者、本地部署、边缘设备和开放生态的模型家族。

Google 官方文档对 Gemma 的定义是：一组轻量级、先进的开放模型，和 Gemini 使用同源研究与技术构建。Google DeepMind 的 Gemma 页面也强调，这些开放模型可以从云服务器运行到笔记本甚至手机。

Gemma 不应该被理解成 Gemini 的低配替代品。它更像 Google 的开放模型工具箱：

Gemini 负责最强能力和闭源产品体验。
Gemma 负责部署灵活性、端侧运行、低成本推理和企业可控性。

Gemma 4 官方介绍称，它是 Google 迄今最智能的开放模型，面向 advanced reasoning 和 agentic workflows；Gemma 4 模型概览显示其提供多个参数规模，可在不同精度和成本之间做取舍。

Google Vertex AI 文档还说明，Gemma 3n 是面向低资源设备高效执行的开放模型，支持文本、图像、视频和音频多模态输入，并支持 140 多种语言。

适合场景： 端侧 AI、本地总结、本地翻译、本地语音处理、App 内智能功能、低成本内部服务、Google Cloud 上的开放模型部署、RAG 和 embedding、安全分类和垂直模型。

主要风险： 顶级综合智能不如 Gemini / GPT / Claude；开放模型不能裸奔上线，事实问答、客服和知识库场景必须搭配 RAG、引用来源、内容审核和置信度控制。

5. Llama、Mistral 和图像 / 语音开放生态

Llama 的优势不是每个单项都第一，而是全球生态大，工具链丰富，适合研究、微调和通用开源模型底座。

Mistral / Codestral 的优势是欧洲企业部署、代码场景、低延迟和合规路线，适合欧洲市场和企业私有化。

FLUX、Qwen Image、Stable Diffusion 生态的价值不只是生成一张图，而是能进入 ComfyUI、ControlNet、LoRA、IP-Adapter 等完整工作流。

Whisper、CosyVoice、Fish Speech 等语音模型则适合会议转写、本地 TTS、中文配音、客服质检和隐私敏感录音处理。

八、编程、前端、后端：现在比的不是“会不会写代码”，而是能不能进入真实工程流

AI 编程能力不能只看它会不会写一个函数，或者能不能刷几道算法题。真正影响开发效率的，是它能不能进入真实工程流：

它能不能读懂一个已有项目？
能不能理解多文件之间的依赖？
能不能根据报错定位问题？
能不能稳定修改前端组件、状态管理和样式？
能不能理解后端接口、数据库、权限和业务逻辑？
能不能作为 Agent 连续执行任务，而不是只给一段建议？

所以我现在会把 AI 编程能力拆成几类来看。

1. 前端开发：最重要的是审美、结构和可迭代能力

场景	第一梯队	我为什么这么排
前端 / React / Vue / 页面生成	Claude Opus 4.7 Thinking、GPT-5.5 / Codex、Gemini 3.1 Pro	Claude 更擅长理解需求和保持代码结构清晰；GPT / Codex 更适合快速生成、接入工具和多轮修改；Gemini 适合长上下文项目和多模态输入

做前端页面，Claude 更像产品型工程师，GPT / Codex 更像执行力很强的全栈助手，Gemini 更适合处理长上下文和多资料输入。

2. 后端开发：最重要的是业务逻辑、系统边界和错误定位

场景	第一梯队	我为什么这么排
后端 / 大型仓库 / Bug 修复	Claude Opus 4.7、GPT-5.5 / Codex、DeepSeek V4 Pro、Gemini 3.1 Pro	Claude 适合审查复杂逻辑；GPT / Codex 适合进入真实开发流程；DeepSeek 在代码和推理成本上有优势；Gemini 适合长上下文项目分析

后端复杂逻辑用 Claude，真实开发执行用 GPT / Codex，成本敏感的大规模代码任务看 DeepSeek，超长上下文项目分析看 Gemini。

3. 复杂 Agent 开发：关键不是回答，而是连续执行

场景	第一梯队	我为什么这么排
复杂 Agent 开发	Xiaomi MiMo-V2.5-Pro、DeepSeek V4 Pro、Claude Opus 4.7、Qwen3.6、Gemma 4	MiMo 和 Gemma 4 都强调 Agentic workflows；DeepSeek 兼顾推理、代码和成本；Claude 适合高质量规划和代码审阅；Qwen 适合中文生态和私有化

Agent 不是比谁一句话回答得好，而是比谁能稳定跑完一条长链路。MiMo、DeepSeek、Qwen、Gemma 的意义，是让复杂 Agent 不再完全依赖昂贵闭源模型。

4. 低成本批量代码任务：不能只追求最强，要看单位成本

场景	第一梯队	我为什么这么排
低成本批量代码任务	DeepSeek V4 Flash、Qwen3.6、MiMo-V2.5、Gemini Flash、Gemma 小模型	DeepSeek 和 Qwen 成本低、适合批量调用；MiMo 适合复杂自部署 Agent；Gemini Flash 和 Gemma 适合 Google 生态与低成本部署

最强模型适合高价值决策，便宜模型适合大规模执行。把两者混用，才是更现实的工程方案。

5. 私有化部署：核心不是跑起来，而是能不能长期维护

场景	第一梯队	我为什么这么排
私有化部署	MiMo、Qwen、DeepSeek、Gemma、Llama、Mistral	MiMo 和 Qwen 更适合中文和国内生态；DeepSeek 性价比和代码能力突出；Gemma 适合端侧和 Google Cloud；Llama 生态广；Mistral 适合欧洲合规

私有化的核心不是省钱，而是掌控数据、成本和系统边界。

九、视频生成：Sora 退场后，第一梯队要重新排序

视频生成是变化最大的一块。

过去很多人提到 AI 视频，第一反应是 Sora、Veo、Runway。但到了 2026 年 5 月，这个格局已经明显变化。

首先，Sora 已经不能作为当前主力视频工具推荐。OpenAI 官方帮助中心显示，Sora Web 和 App 已于 2026 年 4 月 26 日停止服务，Sora API 将于 2026 年 9 月 24 日停止服务。

所以我现在会把 Sora 从“当前第一梯队推荐”里移出，放到“历史重要产品”里。

排名	模型 / 产品	我的判断
1	Seedance 2.0	综合最强候选，尤其带音频和多模态输入
2	HappyHorse-1.0	纯视觉质量极强，但产品化和 API 透明度还要观察
3	Kling 3.0 / Kling 3.0 Omni	短视频、电商、广告、角色一致性和参考驱动强
4	Veo 3.1	Google 生态、企业 API、原生音频、长视频控制强
5	Runway Gen-4.5	专业创作者工作流、编辑控制、团队协作强
历史重要但不主推	Sora 2 / Sora API	Web / App 已停服，API 进入停服倒计时

Seedance 2.0 的优势在带音频视频、多模态参考输入和短视频生产。对广告、电商、剧情分镜、内容创作来说，它比单纯“文生一段画面”的模型更接近生产工具。

HappyHorse-1.0 的问题在于：榜单能力强，但商业可用性、API、价格、稳定性和版权治理还需要继续观察。

Kling 3.0 / Omni 很适合中国内容场景，尤其是短视频、电商、广告、人物一致性、参考图 / 参考视频驱动、多语言和多口音原生音频。

Veo 3.1 不一定每个盲测都第一，但 Google 生态、企业 API、Flow、Gemini、Vertex AI、长视频控制和参考图控制是它的优势。

Runway Gen-4.5 的核心价值是创作者工作流。它不只是生成视频，而是把素材、编辑、控制、团队协作放在同一个平台里。

十、图像生成：GPT Image 负责准确，Midjourney 负责审美

图像生成的格局比视频稳定一些。

排名	工具 / 模型	核心优势
1	GPT Image 2	指令跟随、图片编辑、文字排版、产品图、真实业务图
2	Midjourney v7 / v8 Alpha	审美、氛围、海报、插画、风格化
3	Gemini Nano Banana Pro	多模态、文档 / 图片结合、Google 生态
4	Seedream	中文商业图、电商图、短视频封面
5	FLUX.2 / Qwen Image / Stable Diffusion	开源、私有化、可控生成

我的实际使用逻辑很简单：

想要准确执行复杂指令，用 GPT Image。
想要好看、有风格、有氛围，用 Midjourney。
想要和文档、视频、Google 工作流结合，看 Gemini。
想要中文商业视觉和短视频封面，看 Seedream。
想要私有化和本地工作流，看 FLUX / Qwen Image / Stable Diffusion。

闭源图像模型适合快速出图，开源图像模型适合建立长期可控的生产线。

十一、音频与音乐：ElevenLabs 和 Suno 依然最值得单列

音频要拆成两类：语音 / 配音 / TTS / 声音克隆 和 音乐生成。

语音第一梯队

排名	工具	场景
1	ElevenLabs	配音、TTS、声音克隆、Voice Agent
2	OpenAI Realtime / Audio	实时语音 Agent、多模态交互
3	xAI Voice	实时语音、Grok / X 生态
4	Google / Gemini Audio	知识音频、Workspace、NotebookLM
5	国内语音模型 / 开源语音模型	中文配音、客服、短视频、本地合规

音乐生成第一梯队

排名	工具	场景
1	Suno	歌曲生成、demo、短视频配乐
2	Udio	音乐创作、风格探索
3	Stable Audio / 开源音乐模型	私有化、实验性音乐生成

语音方向我会特别注意合规问题。声音克隆、语音合成、自动配音都涉及授权、版权和身份风险，不能只看技术效果。

十二、便宜 AI 和贵 AI 会同时存在

AI 收费不意味着所有工具都会变贵。更准确地说，未来会出现明显分层。

第一层：免费或低价 AI

用于日常问答、轻度写作、简单总结、普通搜索、低成本陪伴。这一层会继续存在，因为它负责获客，也负责让 AI 变成大众基础设施。

第二层：主流个人订阅

大概是 $8–$30/月这个区间，对应 ChatGPT Go / Plus、Google AI Plus / Pro、Claude Pro、豆包标准版 / 加强版。它适合高频个人用户，但不一定适合极重度工作流。

第三层：高强度个人或专业用户

比如 ChatGPT Pro 5X / 20X、Claude Max 5X / 20X、Google AI Ultra。这一层的核心不是会员身份，而是更高额度、更强模型、更复杂任务、更高优先级，以及更完整的 AI 终端能力。

第四层：API 和企业计费

这才是真正的成本战场。按 tokens、图片、视频秒数、语音时长、Agent 调用次数计费。对公司来说，月费不是重点，真正烧钱的是调用规模。

所以未来不是“AI 都会变贵”，而是：

普通智力会越来越便宜，顶级智力会越来越贵。

这其实合理。

普通任务会被更小、更快、更便宜的模型承接；最强模型、长上下文、深度推理、复杂 Agent、多模态生成，仍然会占用昂贵算力资源。

十三、我的选择逻辑：不为焦虑买单，只为确定价值付费

现在 AI 工具越来越多，每个产品都在告诉你：不订阅就会落后，不升级就会错过。但我不想被这种焦虑牵着走。

我的选择逻辑很简单：

如果一个工具只是看起来不错，我不会马上订阅。
如果它能稳定替代我某一部分工作流，我会考虑订阅。
如果它能显著提升我的产出质量和速度，我愿意长期付费。

比如：

ChatGPT 如果能作为我的全能工作台，帮我写文章、做研究、改代码、生成图像、整理资料，那它值得付费。

Claude 如果能稳定帮我做长文改写、代码审阅、复杂逻辑推演，甚至通过 Claude Code 进入真实项目，那它值得付费。

Gemini 如果能在 Google 文档、长上下文、多模态、Antigravity 和视频生态里提高效率，那它值得付费。

DeepSeek、Qwen、MiMo、Gemma 如果能作为低成本 API、端侧模型或私有化 Agent 底座，那它们值得进入技术栈。

Seedance、Kling、Runway、Veo 如果能真正产出可用视频，而不是只生成几段演示样片，那它们才值得进入内容生产工作流。

我不会因为一个工具很火就订阅。

也不会因为一个工具便宜就长期留着。

真正的问题只有一个：

它是否用明确的结果，证明自己值这个价格？

十四、我的最终选型建议

如果我是个人创作者：

ChatGPT Plus / Pro
Claude Pro / Max
Midjourney
Suno

如果我是开发者或小团队：

GPT-5.5 / Codex
Claude Opus 4.7 / Claude Code
DeepSeek V4
Qwen / MiMo / Gemma

如果我是短视频 / 广告 / 电商团队：

Seedance 2.0
Kling 3.0
Runway Gen-4.5
Midjourney / GPT Image 2

如果我是Google 生态重度用户：

Google AI Pro 起步
如果确实重度使用 Veo、Flow、Antigravity、NotebookLM，再考虑 Ultra

如果我是企业团队：

OpenAI / Anthropic / Google 作为闭源底座
DeepSeek / Qwen / MiMo / Gemma / Llama / Mistral 作为成本与私有化补充

如果我只想选一个全能工具：

优先 ChatGPT Plus / Pro
长文和代码审阅重度用户加 Claude
Google 生态重度用户加 Gemini

十五、最后的判断

这篇文章表面上是在排 AI 工具，实际上我更想讨论的是：

当 AI 从免费体验品变成付费生产力工具后，我们应该如何判断它值不值得买。

以前我看 AI 工具，可能更关注“谁最强”。

现在我会同时看四件事：

能力：它是不是足够聪明？
成本：它的订阅和 API 是否合理？
稳定性：它会不会像 Sora 一样突然退出主力选型？
工作流：它能不能真正嵌入我的日常生产？

我愿意为顶级智力付费，但不会为差不多的智力买单。

AI 产品从免费走向收费是正常的。因为每一次对话、每一次生成、每一次推理、每一次 Agent 调用，背后都是真实的 tokens、算力和成本。免费可以作为入口，但不可能支撑所有高级能力长期无限使用。

但用户也不应该盲目为 AI 买单。

真正值得付费的 AI，不是名字最响的那个，也不是宣传最猛的那个，而是能在我的工作流里稳定创造价值的那个。

所以我现在看 AI 工具，不再只问“哪个最强”，而是问：

它强在哪里？
它贵在哪里？
它能替代我哪部分工作？
它能不能持续稳定地帮我产出？

如果答案清楚，我愿意付费。

如果答案模糊，再便宜也不值得长期留下。

豆包开始收费只是一个信号。接下来，不管是 ChatGPT、Claude、Gemini，还是国内的豆包、Kimi、Qwen、DeepSeek，都会进入同一个阶段：

用真实能力证明价格。

这也会是我之后选择 AI 工具的核心标准。

参与讨论

返回文章列表