yancey
  • 主页
  • 分类
  • 福利
  • 阅读星图
  • 关于

© 2026 yancey.blog.

返回文章列表
体验分享#软件#vibe coding

从豆包开始收费说起:AI 免费时代正在结束

2026-05-05|yancey|51 分钟阅读

嗨,大家好。

如果你发现这个博客已经整整一个月没有动静,那是因为我经历了一场典型的“创造者危机”。

过去的一个月里,我的脑子里塞满了各种宏大的计划,试图同时开启多线操作:

  • 野心勃勃的重构: 我原本计划给博客的 Reading 板块来个彻底升级,代码敲到了 50%,结果被复杂的细节卡住。
  • 受挫的开发流: 我构思了三个核心 MVP 项目,试图打造一个完整的“信息收集、处理、发布”自动化工作流,但由于早期进展并不顺利,进度条再次陷入僵局。
  • 难产的完美主义: 我还一直想做一期足够完整的教学视频,结果因为标准定得太高,迟迟没有按下录制键。

当你试图同时拉满所有项目的进度条时,现实往往会给你一记重锤。这几个接二连三的卡壳,让我进入了一段明显的低效期。认知负荷超标后,我开始逃避、拖延,看着待办事项落灰,挫败感不断叠加。

后来我意识到,我们很多时候不是被真实的困难打败的,而是被自己预设的庞大目标和完美主义压垮的。没写完的代码可以先放在分支里,庞大的自动化工作流可以先用手写代替,完美的视频也不一定比一篇及时写出来的文章更有价值。

面对一团乱麻,最好的破局方式不是寻找一把完美的剪刀,而是先抽出一个线头,解开一个结。

所以这篇文章,就从我最近一直想整理、但迟迟没有动笔的一个话题开始:

2026 年 5 月,AI 工具从免费走向收费以后,到底应该怎么选?

这篇文章表面上是在整理 AI 工具排行,但我更想讨论的是:当 AI 从免费体验品变成付费生产力工具后,我们到底应该为什么付费。

Article Image

一、豆包开始收费,不只是一个价格新闻

最近让我重新思考 AI 工具选型的一个触发点,其实不是 GPT、Claude 或 Gemini 的新模型,而是一个更接地气的事情:豆包开始测试订阅套餐收费了。

我在 App Store 里看到,豆包会员已经出现了几个内购档位:

豆包会员档位人民币价格粗略换算美元
标准版连续包月¥68/月约 $10/月
加强版连续包月¥200/月约 $29/月
专业版连续包月¥500/月约 $73/月
标准版 1 年¥828/年约 $121/年
加强版 1 年¥2,488/年约 $364/年
专业版 1 年¥6,088/年约 $891/年

这里按 1 美元 ≈ 6.83 元人民币粗略换算,实际会随汇率、税费和 App Store 渠道变化。

可以小小开个玩笑:

以前我打开豆包,是想让 AI 帮我规划预算。

现在我打开豆包,发现预算里得先规划 AI。

但玩笑背后,其实是一个非常现实的行业变化:AI 免费时代正在结束。

早期的 AI 产品,大多通过免费额度或者低价套餐来吸引用户。这个逻辑和过去的互联网产品很像:先通过免费获取用户,再通过会员、广告、增值服务或生态锁定变现。

但 AI 和传统互联网产品有一个本质区别:

每一次对话、每一次生成、每一次搜索、每一次 Agent 工具调用,背后都在消耗 tokens。

传统互联网产品的边际成本很低。你打开一篇文章、刷一个页面、发一条评论,平台当然也有服务器和带宽成本,但单位成本通常可以被规模摊薄到很低。

AI 不一样。尤其是大模型推理,每次响应都要消耗算力、显存、带宽、电力和推理服务资源。越是高级模型,越是长上下文,越是复杂推理,越是多模态生成,成本越真实。

所以我现在看 AI 订阅,已经不会只问“为什么要收费”,而是会问三个问题:

  1. 它到底解锁了什么级别的智力?
  2. 它的使用额度够不够支撑真实工作流?
  3. 它的价格和同类工具相比是否合理?

如果只是“差不多的智力”,我不会买单。

如果确实是顶级智力,我愿意付费。

这就是我现在对 AI 订阅的基本态度。

二、AI 订阅已经不只是聊天软件,而是 AI 终端

以前我们说 ChatGPT、Claude、Gemini,很多人第一反应还是“聊天机器人”。

但现在这个认知已经过时了。

OpenAI 的订阅不只是 ChatGPT 聊天框,它还包括 Codex。OpenAI 官方 Codex 页面明确写到,Codex 包含在 ChatGPT Free、Go、Plus、Pro、Business、Enterprise 各个计划里;ChatGPT Pro 也提供更高 Codex 使用量和更高强度的 coding session。

Google 的订阅也不只是 Gemini 聊天框。Google AI Plus、AI Pro、AI Ultra 现在连接的是 Gemini、NotebookLM、Flow、Veo、Google Workspace 以及 Google Antigravity。Google 官方说明,AI Pro 用户可以增强访问 Antigravity,这是一个由 Gemini 3 Pro 驱动的开发环境,可以管理 autonomous AI agents,在编辑器、终端和浏览器之间规划、执行和验证复杂 coding tasks。

Claude 也一样。Claude Pro、Max 不只是 Claude 网页聊天,而是和 Claude Code 这样的开发工具绑定在一起。Anthropic 官方 Max 页面明确写到,Max plan 把 Claude desktop、mobile apps 和 Claude Code 放在一个订阅里,并提供最高比 Pro 多 20x 的使用量。

这意味着,现在顶级 AI 订阅已经不再是“买一个聊天软件会员”。它们正在变成一种新的 AI 终端:

  • ChatGPT + Codex 是 OpenAI 的写作、研究、编程、Agent 终端。
  • Gemini + Antigravity + Flow + NotebookLM 是 Google 的多模态、搜索、文档、编程、视频终端。
  • Claude + Claude Code 是 Anthropic 的长文、推理、代码审阅和软件工程终端。

这也是为什么我现在评价 AI 订阅时,不会只看聊天框本身。我要看它能不能进入我的真实工作流:写作、研究、代码、前端、后端、视频、图像、资料管理、自动化。

如果一个 AI 工具只是陪聊,它很难支撑高价订阅。

如果它变成了一个完整的生产力终端,它就有可能值这个价格。

三、三大闭源 AI 订阅套餐对比

本文海外订阅价格统一按美区价格参考;API 价格统一按官方美元计价。其他可使用地区会因为税费、汇率、本地定价、App Store / Google Play 渠道抽成产生差异,但通常差异有限,不会改变大的选型结论。

真正会影响选型的,更多是套餐权益、模型能力和使用额度,而不是几个地区之间的小幅价格差。

表 1:OpenAI / Google / Claude 订阅套餐对比

公司套餐美区月费参考包含的关键工具我的判断
OpenAI / ChatGPTFree$0ChatGPT、有限 Codex 体验偶尔使用可以,不能支撑重度工作流
OpenAI / ChatGPTGo$8/月ChatGPT、Codex 试用、更高基础额度低价入门,适合轻度用户
OpenAI / ChatGPTPlus$20/月ChatGPT、Codex、图像、文件、Deep Research 等大多数个人用户性价比最高
OpenAI / ChatGPTPro 5X$100/月Plus 全部能力,更高使用量,更高 Codex 用量重度写作、研究、编程用户
OpenAI / ChatGPTPro 20X$200/月最高个人使用量,最大 Codex / Agent / Research 额度极重度用户、把 ChatGPT 当主力 AI 终端的人
GoogleFree$0Gemini 基础使用轻度体验
GoogleGoogle AI Plus$7.99/月Gemini、部分高级额度、200GB 存储低价入门,适合轻度 Google 生态用户
GoogleGoogle AI Pro$19.99/月Gemini、Gmail / Docs 里的 Gemini、NotebookLM、Flow、Antigravity、更高额度、5TB 存储Google 生态用户最值得考虑
GoogleGoogle AI Ultra$249.99/月最高额度 Gemini、Veo / Flow、Deep Think、NotebookLM、Antigravity、30TB 存储高预算、高强度多模态和视频用户
Anthropic / ClaudeFree$0Claude 基础聊天轻度体验
Anthropic / ClaudePro$20/月Claude、Claude Code 可用、更高消息额度写作、长文、代码审阅主力档
Anthropic / ClaudeMax 5X$100/月Pro 全部能力,约 5 倍 Pro 使用量,Claude Code 更适合重度使用重度 Claude Code / 长文 / 代码用户
Anthropic / ClaudeMax 20X$200/月Pro 全部能力,约 20 倍 Pro 使用量极重度 Claude 用户和开发者

ChatGPT 官方价格页显示,Pro 提供 5x 或 20x 更多使用量、更高 Codex 使用量、GPT-5.5 Pro reasoning、最大 Codex tasks、更多 deep research 和 agent mode;OpenAI 帮助中心也说明 Pro $100 目前对应 5x 用量,Pro $200 对应 20x 用量,并且 $100 档的 Codex 有阶段性额外用量活动。

Google Gemini 订阅页显示,Google AI Plus 为 $7.99/月,Google AI Pro 为 $19.99/月,Google AI Ultra 为 $249.99/月;Ultra 包含更高阶 Gemini、Veo 3.1、Deep Research、Audio Overviews、Deep Think、Agent Mode 和 30TB 存储。

Claude 官方价格页显示 Max 从 $100/月起,可选择比 Pro 多 5x 或 20x 的使用量;Claude 帮助中心进一步写明 Max 5x 为 $100/月,Max 20x 为 $200/月。

四、三大闭源 AI API 价格对比

订阅适合人直接用,API 适合开发者和产品集成。

这两套体系要分开看。一个产品的订阅便宜,不代表 API 便宜;一个模型 API 贵,也不代表它不值得用。真正要看的是任务价值和调用规模。

表 2:OpenAI / Anthropic / Google API 价格对比

单位统一为:美元 / 100 万 tokens($ / 1M tokens)。

公司模型输入价格缓存输入 / Cache输出价格适合场景
OpenAIGPT-5.5$5.00 / 1M$0.50 / 1M$30.00 / 1M旗舰通用模型,复杂推理、研究、代码
OpenAIGPT-5.5 Pro$30.00 / 1M未按同表列出$180.00 / 1M高价值复杂任务
OpenAIGPT-5.4$1.25 / 1M$0.13 / 1M$7.50 / 1M日常生产级任务
OpenAIGPT-5.4 mini$0.375 / 1M$0.0375 / 1M$2.25 / 1M高性价比批量任务
AnthropicClaude Opus 4.7$5.00 / 1MCache read $0.50 / 1M;5m cache write $6.25 / 1M$25.00 / 1M长文、复杂逻辑、代码审阅
AnthropicClaude Sonnet 4.6$3.00 / 1M支持 prompt caching$15.00 / 1M主力性价比模型
AnthropicClaude Haiku 4.5$1.00 / 1MCache read $0.10 / 1M;write $1.25 / 1M$5.00 / 1M快速、低成本任务
GoogleGemini 3.1 Pro Preview / Priority$3.60 / 1M ≤200K;$7.20 / 1M >200K$0.36 / 1M ≤200K;$0.72 / 1M >200K$21.60 / 1M ≤200K;$32.40 / 1M >200K高优先级生产任务
GoogleGemini 3.1 Pro Preview / Flex 或 Batch$1.00 / 1M ≤200K;$2.00 / 1M >200K未按同表列出$6.00 / 1M ≤200K;$9.00 / 1M >200K批量、低优先级、成本敏感任务
GoogleGemini 3.1 Flash-Lite Preview / Priority$0.45 / 1M 文本 / 图像 / 视频;$0.90 / 1M 音频$0.05 / 1M 文本 / 图像 / 视频;$0.09 / 1M 音频$2.70 / 1M高频低成本任务
GoogleGemini 3.1 Flash-Lite Preview / Flex 或 Batch$0.13 / 1M 文本 / 图像 / 视频;$0.25 / 1M 音频未按同表列出$0.75 / 1M大规模批处理

OpenAI 官方 API 价格页列出 GPT-5.5、GPT-5.5 Pro、GPT-5.4、GPT-5.4 mini 等模型价格,并说明 Batch 可享 50% 折扣,区域数据处理端点对部分模型有 10% 加价。

Anthropic 官方价格页列出 Claude API 模型价格,并说明 Max 是面向更高使用量的 Claude + Claude Code 订阅;Google Cloud 的 Gemini Enterprise / Agent Platform 价格页列出 Gemini 3.1 Pro Preview 的 Priority、Flex、Batch 价格,以及 Flash-Lite 等低成本模型的计费方式。

五、我为什么愿意为顶级智力付费

AI 订阅和普通会员最大的区别在于,它卖的不是一个简单功能,而是一种“可调用的智力”。

我愿意为顶级智力付费。

如果一个模型确实能帮我完成复杂推理、写出高质量文章、审查大型代码库、解决开发卡点、做出真正可用的图像或视频,那么它就不是一个玩具订阅,而是生产力基础设施。

但我不会为“差不多的智力”买单。

很多 AI 产品现在的问题,不是收费本身,而是收费逻辑不清楚:

  • 它到底比免费版聪明多少?
  • 上下文长度提升了多少?
  • 推理能力有没有明显增强?
  • 代码能力有没有差距?
  • 视频、图像、PPT、数据分析这些高成本能力有没有明确额度?
  • 订阅之后,我到底买到的是更好的模型,还是只是更多次数?

如果一个产品只是把原来免费的能力切成几个档位,然后换个名字收钱,那我不会认为它有足够说服力。

反过来,如果它能明确告诉我:这个档位对应更强模型、更高上下文、更稳定的高峰期访问、更高质量图像 / 视频 / 语音生成、更大的 Agent 调用额度,那它就有讨论价值。

收费本身不丢人。

不清楚自己为什么收费,才是问题。

六、闭源模型榜单:强在综合能力、产品体验和终端化

如果只看“现在就要最好用、最稳、最完整”,闭源模型依然是主力。

排名模型 / 产品核心优势主要劣势我会怎么用
1GPT-5.5 Pro / High + ChatGPT / Codex综合能力最均衡,写作、研究、代码、图像、工具链都强高阶能力和高额度需要更贵套餐主力 AI 工作台
2Claude Opus 4.7 + Claude Code长文、代码审阅、复杂逻辑、语气控制强图像 / 视频生态弱于 OpenAI、Google长文、代码审阅、复杂推理
3Gemini 3.1 Pro + Antigravity / Flow / NotebookLM长上下文、多模态、Google 生态、视频入口强文案质感和部分代码风格有时不如 GPT / Claude 稳Google 生态、多模态、长文档
4Grok / xAI 系列实时信息、X 生态、语音和图像视频入口企业工作流生态不如前三家完整实时信息、社交内容、语音场景
5国内闭源产品:豆包、Kimi 等中文、本土化、内容生产、国内生态套餐权益和模型分层需要更透明中文内容、国内场景、短视频工作流

我对闭源模型的理解是:

GPT 更像全能工作台

它不一定每个单项永远第一,但写文章、做研究、改代码、生成图像、整理资料、接工具,整体体验最完整。

Claude 更像高级编辑和资深工程师

它在长文、逻辑、代码审阅、语气控制上很稳,尤其适合需要推敲的任务。

Gemini 更像多模态研究助理和 Google 生态终端

如果你本来就在 Google Docs、Gmail、Drive、NotebookLM、Flow、Antigravity 这些工具里工作,Gemini 的价值会被明显放大。

七、开源 / 开放权重模型榜单:它们不只是便宜替代,而是在改变成本结构

如果只看普通聊天体验,闭源模型依然更稳。GPT、Claude、Gemini 在综合能力、产品体验、工具链和多模态生态上都非常成熟。

但如果从开发者、企业、私有化部署、Agent 成本、数据控制的角度看,开源 / 开放权重模型的意义完全不同。

它们不是单纯的“便宜版 GPT”,而是在解决闭源模型很难完全解决的几个问题:

第一,数据可控

代码、客户资料、内部知识库、财务数据、业务日志,不一定适合长期交给外部闭源 API。

第二,成本可控

当调用量很小时,闭源 API 很方便;但当 Agent、代码扫描、客服、知识库问答、批量生成进入高频调用,token 成本会迅速放大。

第三,部署可控

企业可以根据自己的安全、延迟、合规和网络环境,把模型放在私有云、本地机房或指定区域。

第四,可定制

开源 / 开放权重模型可以微调、蒸馏、量化、接企业内部工具链,也可以围绕特定业务做深度优化。

排名模型 / 系列核心定位优势劣势
1Xiaomi MiMo-V2.5-Pro复杂 Agent、软件工程、长程任务Agent 定位明确、长任务能力强、适合私有化生态还需要时间成熟
2DeepSeek V4 Pro / V4 Flash推理、代码、低成本 API、Agent性价比高、代码强、适合批量任务不同版本定位复杂,顶级文案不一定最稳
3Qwen3.6 系列中文、代码、多模态、企业生态中文强、模型谱系完整、阿里云生态好选型复杂,海外生态不如 Llama
4Google Gemma 4 / Gemma 3n轻量、端侧、Google 生态、开放部署端侧强、Google Cloud 接入好、适合低成本部署顶级综合智能不如 Gemini / GPT / Claude
5Llama 4 系列全球开放生态、通用底座社区大、工具链丰富、适合研究和微调中文和顶级推理不一定最强,许可证需审查
6Mistral / Codestral欧洲企业部署、代码、轻量模型合规友好、低延迟、企业部署好中文生态弱,社区规模不如 Llama
7FLUX / Qwen Image / Stable Diffusion图像生成开放工作流可控、私有化、适合 ComfyUI 工作流上手和维护成本高
8Whisper / CosyVoice / Fish Speech语音识别、TTS、本地语音应用适合隐私场景和本地部署商业配音自然度可能不如 ElevenLabs

1. Xiaomi MiMo-V2.5-Pro:复杂 Agent 和软件工程的新变量

MiMo-V2.5-Pro 最大的看点,是它从一开始就不是按普通聊天模型来定位的,而是面向复杂 Agent、软件工程和长程任务。

MiMo-V2-Pro 官方页面已经显示 1M-token context、Open API,并给出了按百万 tokens 计费的价格;MiMo-V2.5-Pro 则进一步把关注点推向复杂 Agent 和软件工程。

它的意义不是“又一个国产大模型”,而是把开源 / 开放权重模型推进到了复杂 Agent 和软件工程这个更实用的战场。

适合场景: 复杂 Agent、软件工程 Agent、代码库自动化处理、企业私有化部署、长文档 / 长任务执行、本地或私有云 AI 终端底座。

主要风险: 生态还不如 Llama、Qwen 成熟,产品化和大规模商业案例还需要时间验证。

2. DeepSeek V4 Pro / V4 Flash:推理、代码和成本之间的平衡点

DeepSeek 的核心优势是性价比和工程实用性。

DeepSeek 官方价格页显示,deepseek-chat 和 deepseek-reasoner 未来会对应到 V4 Flash 的非思考和思考模式;deepseek-v4-pro 当前有 75% 折扣延长至 2026 年 5 月 31 日,并且所有模型的 input cache hit 价格降到首发价的 1/10。

如果你每天只是手动问几个问题,API 成本不明显。但如果你要做 Agent、批量代码处理、客服、知识库、自动化分析,调用成本会很快变成核心问题。DeepSeek 的价值就在于,它让很多过去只有 GPT / Claude 才能做、但成本太高的任务,变得可以规模化运行。

适合场景: 代码生成、代码解释、后端 bug 分析、Agent API 底座、批量文本处理、低成本推理、企业内部自动化工具。

主要风险: 不同版本定位复杂,不能把所有 DeepSeek 模型都笼统称为开源;顶级文案、精细语气和极高价值推演仍可能不如 GPT / Claude 稳。

3. Qwen3.6 系列:中文生态、企业部署和多模态的均衡选手

Qwen 最大的优势是生态完整。

Qwen3.6 官方 GitHub 页面显示,阿里云 Model Studio 为 Qwen3.6 提供官方 API,并兼容 OpenAI 和 Anthropic 等 API 规范;Qwen 官方博客也提到 Qwen3.6-Plus 默认 1M context window,并面向 real world agents。

对国内业务来说,中文不是附加项,而是基础能力。合同、客服、知识库、产品文档、运营内容、政企场景都高度依赖中文理解和表达。Qwen 不只是一个模型,而是一整套模型生态:通用模型、代码模型、多模态模型、图像模型、小模型、企业 API、自部署方案。

适合场景: 中文知识库、企业内部助手、客服和运营自动化、代码辅助、私有化部署、多模态中文业务、阿里云生态项目。

主要风险: 模型谱系复杂,新手选型成本高;如果面向全球开源社区,Llama 的工具链和社区覆盖面仍然更广。

4. Google Gemma:Google 的开放模型工具箱

Gemini 是 Google 的闭源旗舰产品线;Gemma 是 Google 面向开发者、本地部署、边缘设备和开放生态的模型家族。

Google 官方文档对 Gemma 的定义是:一组轻量级、先进的开放模型,和 Gemini 使用同源研究与技术构建。Google DeepMind 的 Gemma 页面也强调,这些开放模型可以从云服务器运行到笔记本甚至手机。

Gemma 不应该被理解成 Gemini 的低配替代品。它更像 Google 的开放模型工具箱:

  • Gemini 负责最强能力和闭源产品体验。
  • Gemma 负责部署灵活性、端侧运行、低成本推理和企业可控性。

Gemma 4 官方介绍称,它是 Google 迄今最智能的开放模型,面向 advanced reasoning 和 agentic workflows;Gemma 4 模型概览显示其提供多个参数规模,可在不同精度和成本之间做取舍。

Google Vertex AI 文档还说明,Gemma 3n 是面向低资源设备高效执行的开放模型,支持文本、图像、视频和音频多模态输入,并支持 140 多种语言。

适合场景: 端侧 AI、本地总结、本地翻译、本地语音处理、App 内智能功能、低成本内部服务、Google Cloud 上的开放模型部署、RAG 和 embedding、安全分类和垂直模型。

主要风险: 顶级综合智能不如 Gemini / GPT / Claude;开放模型不能裸奔上线,事实问答、客服和知识库场景必须搭配 RAG、引用来源、内容审核和置信度控制。

5. Llama、Mistral 和图像 / 语音开放生态

Llama 的优势不是每个单项都第一,而是全球生态大,工具链丰富,适合研究、微调和通用开源模型底座。

Mistral / Codestral 的优势是欧洲企业部署、代码场景、低延迟和合规路线,适合欧洲市场和企业私有化。

FLUX、Qwen Image、Stable Diffusion 生态的价值不只是生成一张图,而是能进入 ComfyUI、ControlNet、LoRA、IP-Adapter 等完整工作流。

Whisper、CosyVoice、Fish Speech 等语音模型则适合会议转写、本地 TTS、中文配音、客服质检和隐私敏感录音处理。

八、编程、前端、后端:现在比的不是“会不会写代码”,而是能不能进入真实工程流

AI 编程能力不能只看它会不会写一个函数,或者能不能刷几道算法题。真正影响开发效率的,是它能不能进入真实工程流:

  • 它能不能读懂一个已有项目?
  • 能不能理解多文件之间的依赖?
  • 能不能根据报错定位问题?
  • 能不能稳定修改前端组件、状态管理和样式?
  • 能不能理解后端接口、数据库、权限和业务逻辑?
  • 能不能作为 Agent 连续执行任务,而不是只给一段建议?

所以我现在会把 AI 编程能力拆成几类来看。

1. 前端开发:最重要的是审美、结构和可迭代能力

场景第一梯队我为什么这么排
前端 / React / Vue / 页面生成Claude Opus 4.7 Thinking、GPT-5.5 / Codex、Gemini 3.1 ProClaude 更擅长理解需求和保持代码结构清晰;GPT / Codex 更适合快速生成、接入工具和多轮修改;Gemini 适合长上下文项目和多模态输入

做前端页面,Claude 更像产品型工程师,GPT / Codex 更像执行力很强的全栈助手,Gemini 更适合处理长上下文和多资料输入。

2. 后端开发:最重要的是业务逻辑、系统边界和错误定位

场景第一梯队我为什么这么排
后端 / 大型仓库 / Bug 修复Claude Opus 4.7、GPT-5.5 / Codex、DeepSeek V4 Pro、Gemini 3.1 ProClaude 适合审查复杂逻辑;GPT / Codex 适合进入真实开发流程;DeepSeek 在代码和推理成本上有优势;Gemini 适合长上下文项目分析

后端复杂逻辑用 Claude,真实开发执行用 GPT / Codex,成本敏感的大规模代码任务看 DeepSeek,超长上下文项目分析看 Gemini。

3. 复杂 Agent 开发:关键不是回答,而是连续执行

场景第一梯队我为什么这么排
复杂 Agent 开发Xiaomi MiMo-V2.5-Pro、DeepSeek V4 Pro、Claude Opus 4.7、Qwen3.6、Gemma 4MiMo 和 Gemma 4 都强调 Agentic workflows;DeepSeek 兼顾推理、代码和成本;Claude 适合高质量规划和代码审阅;Qwen 适合中文生态和私有化

Agent 不是比谁一句话回答得好,而是比谁能稳定跑完一条长链路。MiMo、DeepSeek、Qwen、Gemma 的意义,是让复杂 Agent 不再完全依赖昂贵闭源模型。

4. 低成本批量代码任务:不能只追求最强,要看单位成本

场景第一梯队我为什么这么排
低成本批量代码任务DeepSeek V4 Flash、Qwen3.6、MiMo-V2.5、Gemini Flash、Gemma 小模型DeepSeek 和 Qwen 成本低、适合批量调用;MiMo 适合复杂自部署 Agent;Gemini Flash 和 Gemma 适合 Google 生态与低成本部署

最强模型适合高价值决策,便宜模型适合大规模执行。把两者混用,才是更现实的工程方案。

5. 私有化部署:核心不是跑起来,而是能不能长期维护

场景第一梯队我为什么这么排
私有化部署MiMo、Qwen、DeepSeek、Gemma、Llama、MistralMiMo 和 Qwen 更适合中文和国内生态;DeepSeek 性价比和代码能力突出;Gemma 适合端侧和 Google Cloud;Llama 生态广;Mistral 适合欧洲合规

私有化的核心不是省钱,而是掌控数据、成本和系统边界。

九、视频生成:Sora 退场后,第一梯队要重新排序

视频生成是变化最大的一块。

过去很多人提到 AI 视频,第一反应是 Sora、Veo、Runway。但到了 2026 年 5 月,这个格局已经明显变化。

首先,Sora 已经不能作为当前主力视频工具推荐。OpenAI 官方帮助中心显示,Sora Web 和 App 已于 2026 年 4 月 26 日停止服务,Sora API 将于 2026 年 9 月 24 日停止服务。

所以我现在会把 Sora 从“当前第一梯队推荐”里移出,放到“历史重要产品”里。

排名模型 / 产品我的判断
1Seedance 2.0综合最强候选,尤其带音频和多模态输入
2HappyHorse-1.0纯视觉质量极强,但产品化和 API 透明度还要观察
3Kling 3.0 / Kling 3.0 Omni短视频、电商、广告、角色一致性和参考驱动强
4Veo 3.1Google 生态、企业 API、原生音频、长视频控制强
5Runway Gen-4.5专业创作者工作流、编辑控制、团队协作强
历史重要但不主推Sora 2 / Sora APIWeb / App 已停服,API 进入停服倒计时

Seedance 2.0 的优势在带音频视频、多模态参考输入和短视频生产。对广告、电商、剧情分镜、内容创作来说,它比单纯“文生一段画面”的模型更接近生产工具。

HappyHorse-1.0 的问题在于:榜单能力强,但商业可用性、API、价格、稳定性和版权治理还需要继续观察。

Kling 3.0 / Omni 很适合中国内容场景,尤其是短视频、电商、广告、人物一致性、参考图 / 参考视频驱动、多语言和多口音原生音频。

Veo 3.1 不一定每个盲测都第一,但 Google 生态、企业 API、Flow、Gemini、Vertex AI、长视频控制和参考图控制是它的优势。

Runway Gen-4.5 的核心价值是创作者工作流。它不只是生成视频,而是把素材、编辑、控制、团队协作放在同一个平台里。

十、图像生成:GPT Image 负责准确,Midjourney 负责审美

图像生成的格局比视频稳定一些。

排名工具 / 模型核心优势
1GPT Image 2指令跟随、图片编辑、文字排版、产品图、真实业务图
2Midjourney v7 / v8 Alpha审美、氛围、海报、插画、风格化
3Gemini Nano Banana Pro多模态、文档 / 图片结合、Google 生态
4Seedream中文商业图、电商图、短视频封面
5FLUX.2 / Qwen Image / Stable Diffusion开源、私有化、可控生成

我的实际使用逻辑很简单:

  • 想要准确执行复杂指令,用 GPT Image。
  • 想要好看、有风格、有氛围,用 Midjourney。
  • 想要和文档、视频、Google 工作流结合,看 Gemini。
  • 想要中文商业视觉和短视频封面,看 Seedream。
  • 想要私有化和本地工作流,看 FLUX / Qwen Image / Stable Diffusion。

闭源图像模型适合快速出图,开源图像模型适合建立长期可控的生产线。

十一、音频与音乐:ElevenLabs 和 Suno 依然最值得单列

音频要拆成两类:语音 / 配音 / TTS / 声音克隆 和 音乐生成。

语音第一梯队

排名工具场景
1ElevenLabs配音、TTS、声音克隆、Voice Agent
2OpenAI Realtime / Audio实时语音 Agent、多模态交互
3xAI Voice实时语音、Grok / X 生态
4Google / Gemini Audio知识音频、Workspace、NotebookLM
5国内语音模型 / 开源语音模型中文配音、客服、短视频、本地合规

音乐生成第一梯队

排名工具场景
1Suno歌曲生成、demo、短视频配乐
2Udio音乐创作、风格探索
3Stable Audio / 开源音乐模型私有化、实验性音乐生成

语音方向我会特别注意合规问题。声音克隆、语音合成、自动配音都涉及授权、版权和身份风险,不能只看技术效果。

十二、便宜 AI 和贵 AI 会同时存在

AI 收费不意味着所有工具都会变贵。更准确地说,未来会出现明显分层。

第一层:免费或低价 AI

用于日常问答、轻度写作、简单总结、普通搜索、低成本陪伴。这一层会继续存在,因为它负责获客,也负责让 AI 变成大众基础设施。

第二层:主流个人订阅

大概是 $8–$30/月这个区间,对应 ChatGPT Go / Plus、Google AI Plus / Pro、Claude Pro、豆包标准版 / 加强版。它适合高频个人用户,但不一定适合极重度工作流。

第三层:高强度个人或专业用户

比如 ChatGPT Pro 5X / 20X、Claude Max 5X / 20X、Google AI Ultra。这一层的核心不是会员身份,而是更高额度、更强模型、更复杂任务、更高优先级,以及更完整的 AI 终端能力。

第四层:API 和企业计费

这才是真正的成本战场。按 tokens、图片、视频秒数、语音时长、Agent 调用次数计费。对公司来说,月费不是重点,真正烧钱的是调用规模。

所以未来不是“AI 都会变贵”,而是:

普通智力会越来越便宜,顶级智力会越来越贵。

这其实合理。

普通任务会被更小、更快、更便宜的模型承接;最强模型、长上下文、深度推理、复杂 Agent、多模态生成,仍然会占用昂贵算力资源。

十三、我的选择逻辑:不为焦虑买单,只为确定价值付费

现在 AI 工具越来越多,每个产品都在告诉你:不订阅就会落后,不升级就会错过。但我不想被这种焦虑牵着走。

我的选择逻辑很简单:

  • 如果一个工具只是看起来不错,我不会马上订阅。
  • 如果它能稳定替代我某一部分工作流,我会考虑订阅。
  • 如果它能显著提升我的产出质量和速度,我愿意长期付费。

比如:

ChatGPT 如果能作为我的全能工作台,帮我写文章、做研究、改代码、生成图像、整理资料,那它值得付费。

Claude 如果能稳定帮我做长文改写、代码审阅、复杂逻辑推演,甚至通过 Claude Code 进入真实项目,那它值得付费。

Gemini 如果能在 Google 文档、长上下文、多模态、Antigravity 和视频生态里提高效率,那它值得付费。

DeepSeek、Qwen、MiMo、Gemma 如果能作为低成本 API、端侧模型或私有化 Agent 底座,那它们值得进入技术栈。

Seedance、Kling、Runway、Veo 如果能真正产出可用视频,而不是只生成几段演示样片,那它们才值得进入内容生产工作流。

我不会因为一个工具很火就订阅。

也不会因为一个工具便宜就长期留着。

真正的问题只有一个:

它是否用明确的结果,证明自己值这个价格?

十四、我的最终选型建议

如果我是个人创作者:

  • ChatGPT Plus / Pro
  • Claude Pro / Max
  • Midjourney
  • Suno

如果我是开发者或小团队:

  • GPT-5.5 / Codex
  • Claude Opus 4.7 / Claude Code
  • DeepSeek V4
  • Qwen / MiMo / Gemma

如果我是短视频 / 广告 / 电商团队:

  • Seedance 2.0
  • Kling 3.0
  • Runway Gen-4.5
  • Midjourney / GPT Image 2

如果我是Google 生态重度用户:

  • Google AI Pro 起步
  • 如果确实重度使用 Veo、Flow、Antigravity、NotebookLM,再考虑 Ultra

如果我是企业团队:

  • OpenAI / Anthropic / Google 作为闭源底座
  • DeepSeek / Qwen / MiMo / Gemma / Llama / Mistral 作为成本与私有化补充

如果我只想选一个全能工具:

  • 优先 ChatGPT Plus / Pro
  • 长文和代码审阅重度用户加 Claude
  • Google 生态重度用户加 Gemini

十五、最后的判断

这篇文章表面上是在排 AI 工具,实际上我更想讨论的是:

当 AI 从免费体验品变成付费生产力工具后,我们应该如何判断它值不值得买。

以前我看 AI 工具,可能更关注“谁最强”。

现在我会同时看四件事:

  • 能力:它是不是足够聪明?
  • 成本:它的订阅和 API 是否合理?
  • 稳定性:它会不会像 Sora 一样突然退出主力选型?
  • 工作流:它能不能真正嵌入我的日常生产?

我愿意为顶级智力付费,但不会为差不多的智力买单。

AI 产品从免费走向收费是正常的。因为每一次对话、每一次生成、每一次推理、每一次 Agent 调用,背后都是真实的 tokens、算力和成本。免费可以作为入口,但不可能支撑所有高级能力长期无限使用。

但用户也不应该盲目为 AI 买单。

真正值得付费的 AI,不是名字最响的那个,也不是宣传最猛的那个,而是能在我的工作流里稳定创造价值的那个。

所以我现在看 AI 工具,不再只问“哪个最强”,而是问:

  • 它强在哪里?
  • 它贵在哪里?
  • 它能替代我哪部分工作?
  • 它能不能持续稳定地帮我产出?

如果答案清楚,我愿意付费。

如果答案模糊,再便宜也不值得长期留下。

豆包开始收费只是一个信号。接下来,不管是 ChatGPT、Claude、Gemini,还是国内的豆包、Kimi、Qwen、DeepSeek,都会进入同一个阶段:

用真实能力证明价格。

这也会是我之后选择 AI 工具的核心标准。

参与讨论

  • 一、豆包开始收费,不只是一个价格新闻
  • 二、AI 订阅已经不只是聊天软件,而是 AI 终端
  • 三、三大闭源 AI 订阅套餐对比
  • 表 1:OpenAI / Google / Claude 订阅套餐对比
  • 四、三大闭源 AI API 价格对比
  • 表 2:OpenAI / Anthropic / Google API 价格对比
  • 五、我为什么愿意为顶级智力付费
  • 六、闭源模型榜单:强在综合能力、产品体验和终端化
  • GPT 更像全能工作台
  • Claude 更像高级编辑和资深工程师
  • Gemini 更像多模态研究助理和 Google 生态终端
  • 七、开源 / 开放权重模型榜单:它们不只是便宜替代,而是在改变成本结构
  • 第一,数据可控
  • 第二,成本可控
  • 第三,部署可控
  • 第四,可定制
  • 1. Xiaomi MiMo-V2.5-Pro:复杂 Agent 和软件工程的新变量
  • 2. DeepSeek V4 Pro / V4 Flash:推理、代码和成本之间的平衡点
  • 3. Qwen3.6 系列:中文生态、企业部署和多模态的均衡选手
  • 4. Google Gemma:Google 的开放模型工具箱
  • 5. Llama、Mistral 和图像 / 语音开放生态
  • 八、编程、前端、后端:现在比的不是“会不会写代码”,而是能不能进入真实工程流
  • 1. 前端开发:最重要的是审美、结构和可迭代能力
  • 2. 后端开发:最重要的是业务逻辑、系统边界和错误定位
  • 3. 复杂 Agent 开发:关键不是回答,而是连续执行
  • 4. 低成本批量代码任务:不能只追求最强,要看单位成本
  • 5. 私有化部署:核心不是跑起来,而是能不能长期维护
  • 九、视频生成:Sora 退场后,第一梯队要重新排序
  • 十、图像生成:GPT Image 负责准确,Midjourney 负责审美
  • 十一、音频与音乐:ElevenLabs 和 Suno 依然最值得单列
  • 语音第一梯队
  • 音乐生成第一梯队
  • 十二、便宜 AI 和贵 AI 会同时存在
  • 第一层:免费或低价 AI
  • 第二层:主流个人订阅
  • 第三层:高强度个人或专业用户
  • 第四层:API 和企业计费
  • 十三、我的选择逻辑:不为焦虑买单,只为确定价值付费
  • 十四、我的最终选型建议
  • 十五、最后的判断