yancey
  • 主页
  • 分类
  • 福利
  • 关于

© 2026 yancey.blog.

返回文章列表
体验分享#AI

站在奇点的山脚下:Google I/O 2026 开发者大会深度复盘

2026-05-20|yancey|15 分钟阅读

回顾这半年,AI 圈的热闹,几乎跟 Google 没啥关系。当 Claude 一路狂飙、OpenAI 赚足眼球时,Google 的安静甚至让人有些遗忘。但熟悉 Google 的人都知道,它最擅长“憋大招”——在每年的 I/O 开发者大会上,一口气把积攒的底牌全部亮出来。

果不其然,Google I/O 2026 如期而至,带来了一场信息量大到令人窒息的科技盛宴!

我们将这场发布会的核心内容整理为六大版块:AI 模型、Gemini 产品、Agent 系统、视觉生成、Google 搜索以及 Agent 电商。话不多说,让我们一起看看 Google 这次亮出的真正肌肉。

Article Image

════════════════════════════════

一、 AI 模型:干活能力拉满,牺牲知识换效率

💡 1. Gemini 3.5 Flash:极速与实用的代名词

今年 I/O 大会的明星当属 Gemini 3.5 Flash。在过去,Flash 代表轻量快速,Pro 才是满血旗舰。但如今行业正流行“小模型超越上一代大模型”的范式。这次也不例外,3.5 Flash 在编码、Agent 协作以及工具调用能力上,全方位超越了上一代的 3.1 Pro。

在跑分上,3.5 Flash 在 Terminal-Bench 2.1 编码测试中取得了 76.2% 的成绩,而 3.1 Pro 仅为 70.3%;在衡量真实世界经济价值任务的 GDPval-AA 中,3.5 Flash 以 1656 Elo 遥遥领先于 3.1 Pro 的 1314 Elo。

然而,在考查世界知识与纯抽象推理的 Humanity's Last Exam(40.2% vs 44.4%)和 ARC-AGI-2(72.1% vs 77.1%)中,3.5 Flash 略逊于 Pro。这表明 Google 采取了“牺牲部分常识,换取极致干活能力”的务实策略。

速度上,3.5 Flash 较其他前沿模型快了 4 倍;价格方面,输入 $1.50/百万 token,输出 $9.00/百万 token。虽然比上一代 3 Flash 贵了 3 倍,但比 3.1 Pro 便宜了 40%。它拥有 100 万 token 的上下文窗口,知识截止到 2025 年 1 月。今天起,它已成为 Gemini App 和 AI Mode in Search 的默认模型,API 已全球上线。

至于更强大的 Gemini 3.5 Pro,皮查伊表示:“下个月见!”

🎬 2. Gemini Omni Flash:全能输入的初步探索

发布会前被热炒的 Gemini Omni,被 Google 描述为“能根据任何输入创造出任何东西”的全新模型。作为很多 AI 漫剧公司的救命稻草,大家对它的视频生成寄予厚望。但在实际体验中,Omni Flash 的表现略显平庸,特别是中文配音的港台腔显得有些不自然。好在它支持“保持视频中某一片段不变,只修改其他部分”的局部编辑功能。考虑到这只是 Omni 家族的第一款小模型,满血的 Omni Pro 也将在近期发布,我们拭目以待。

Article Image

════════════════════════════════

二、 Gemini 产品:从搜索框到无缝对话

✨ 1. Neural Expressive 全新设计语言

Gemini App 迎来了名为 Neural Expressive 的全新 UI 设计。界面配色由原本的灰白色变更为高级的蓝色渐变背景,操作栏也进行了深度整合,所有的文件上传、工具调用和附件功能都被收纳进一个“+”号按钮中。此外,模型选择器中加入了“标准”和“扩展”的思维深度选项。但有些争议的是,Google 开始在设置中显示“当前使用情况”和“每周额度”进度条,这可以说是有些“学坏了”。

Article Image

🗺️ 2. Ask Max (Google Maps 十年最大升级)

你可以直接用复杂的自然语言向地图提问。例如:“孩子刚掉进池塘,婚礼 30 分钟后开始,我能步行去哪里给她买件新裙子?”这种多维度、高上下文的复杂搜索,在 Gemini 接入地图后,得到了完美的解决。

📺 3. Ask YouTube:视频信息的超级提取器

无需手动翻看长视频,直接向 YouTube 提问(例如:“怎么教三岁小孩骑自行车,他已经会骑平衡车了”),它就能为你整理出概览、贴士并直接定位到视频中最精准的片段,支持上下文追问。该功能已对美国 Premium 订阅者开放。

📝 4. Docs Live:真正“动口不动手”的文档协同

你只需要一边思考一边对着电脑说话:“调出简历、想几个类比、抓出邮件中的时间地点并制成表格……”Docs 就能实时且极为丝滑地将这些话语转化为结构化文档。最惊艳的是,当你中途改口(如“将时间定在周四,哦不对,改到周五”),它能瞬间识别并自动修正。今夏将对 Pro 和 Ultra 订阅者开放。

🎙️ 5. Gemini Live 升级 & Daily Brief 晨报

Gemini Live 新增了多种极具地方特色的口音(如利物浦腔、印度哈里亚纳方言等)。而全新的 Daily Brief 功能则会在每天清晨自动梳理你的邮箱、日历与待办清单,为你奉上一份量身定制的“今日待办与出行建议”个性化摘要。

📓 6. NotebookLM:全面打通与跨越式升级

NotebookLM 现在支持“电影级视频概览”,能将你丢进去的资料直接生成一段带流畅动画的讲解视频。信息图升级了手绘、可爱、黏土等 10 种风格。最核心的升级在于它与 Gemini App 实现了双向同步:在任意一方创建的笔记本均会实时同步到另一方。此外,还新增了 EPUB 上传、PPTX 导出以及在对话中直接生成播客等高阶功能。

════════════════════════════════

三、 Agent 系统:开发者与个人效率的终极主线

🛠️ 1. Antigravity 2.0:重磅蜕变的智能体底座

曾经略显单薄的 Antigravity 迎来了 2.0 版本的彻底蜕变。它不再仅仅是一个 IDE 插件,而是一个拥有独立桌面客户端的完整 Agent 工作环境。同时,官方宣布 Antigravity CLI 上线,并将于 2026 年 6 月 18 日正式停用旧版的 Gemini CLI,所有开发者需在此之前完成迁移。

在现场演示中,Antigravity 配合 Gemini 3.5 Flash 展现了恐怖的协同能力:通过 93 个子智能体(sub-agent)并发工作,在 12 小时内消耗了 26 亿 token,以不到 $1000 的成本,从零构建起了一个可以跑命令行、玩 Doom 游戏并播放动画的完整操作系统!而且,3.5 Flash 在 Antigravity 环境下经过了专门优化,运行速度实现了惊人的 12 倍提升。

Article Image

⚡ 2. Gemini Spark:云端 24/7 守护的个人 AI 助理

由 3.5 Flash 和 Antigravity 驱动的 Gemini Spark 运行在 Google Cloud 的专属虚拟机上。即使用户关闭电脑,它也能在云端 24/7 默默工作。它打通了 Google 整个生态圈:在工作中,它可以自动检索你的文档、邮件 and 聊天记录,写出一封完美的周报邮件;在生活中,它甚至能为你筹备街区派对,在 Sheets 中自动跟踪 RSVP 状态,利用 Drive 里的 HOA 规则提醒你注意事项,并自动生成派对宣传的幻灯片。

为了配合 Spark 的推出,Google 将 AI Ultra 订阅进行了拆分:新增的 $100/月 Ultra plan 面向创作者与开发者(提供 5 倍于 Pro 的用量、20TB 空间及 Antigravity 优先权);原 $250/月顶配版则降至 $200/月。Spark 将同时在这两档订阅中可用。

📱 3. Android Halo:智能体时代的全新 UI 范式

在云端默默工作的 Spark,如何与你保持连接?答案是 Android Halo。作为状态栏顶部的 Agent home base,它能实时展示 Agent 正在处理什么、进度如何,并在此弹出需要你确认的步骤。这标志着 Android UI 的底层逻辑开始从“以 App 为中心”向“以 Agent 为中心”演进。

════════════════════════════════

四、 视觉生成:从修图到一站式创意工作流

🎨 1. Google Pics & Stitch

Google Pics 是 Workspace 中全新的设计与编辑工具,支持极致的目标分割(例如把图中的小狗单独替换为猫,毛衣换色,而背景完全不变)。Stitch 作为 UI 交互设计工具,这次新增了实时语音协作(你说什么,UI 实时跟着改)并支持导出代码一键部署至 Netlify,且与 Antigravity 全面打通。

🎬 2. Google Flow:全包的创意乐园

Flow 迎来多项重磅更新:1) 结合 Gemini Omni 维持视频动作与表演,仅改变背景与特效;2) 引入 Agent 镜头功能,给出一张图片,可自动生成 16 段不同镜头的视频;3) 大规模场景自动光影切换(如白天到黑夜);4) 新增 Flow Music,可以将简单的钢琴 riff 转化出一段配有女声的完整 R&B 编曲。Google Flow 试图全包从剧本、分镜到剪辑配乐的整个创意流,虽然目前深度使用时体验仍有待提升,但其野心与愿景十分宏大。

🔒 3. SynthID:世纪大和解,AI 水印的行业标准

Google 的 AI 水印技术 SynthID 已经累计标记了超 1000 亿张图片与视频。在 Chrome 中,用户可以通过右键或圈选直接核验内容真伪。而本次大会最令人动容的细节是:OpenAI、Kakao、ElevenLabs 官宣加入了 SynthID 联盟。面对泛滥 of AI 生成假内容,曾经针锋相对的巨头们选择放下竞争,为了数字世界的真实性携手合作。

════════════════════════════════

五、 Google 搜索:1998 年以来最深刻的进化

月活超 10 亿的 Google AI 搜索,底层已全面升级为 Gemini 3.5。这次,它迎来了诞生 25 年来最彻底的重构:

  • 🔸 跨模态搜索框:支持文字、图片、文件、视频混合输入,AI 甚至能自动补全并梳理你真正想问的问题。
  • 🔸 深度合并:AI Overviews 和 AI Mode 彻底打通,搜索结果与对话式追问无缝过渡。
  • 🔸 Search Agents:支持在搜索框内直接创建 7x24 小时后台运行的监控智能体。
  • 🔸 实时生成式 UI (Agentic Coding):这是最科幻的升级。当你询问如“黑洞如何扭曲时空”时,搜索后台会调用一个容器化的智能体环境,由 Antigravity 实时写出并运行代码,直接渲染出一个你可以手动调整参数的可视化交互式页面!今夏将对所有用户免费开放。

════════════════════════════════

六、 Agent 电商:悄然成型的商业底层闭环

今年大会还带来了一个重磅的增量板块——Agent 电商。通过“两支柱协议加一新产品”,Google 正在为 AI 代替人类进行消费铺平道路:

  • 🛒 1. Universal Commerce Protocol (UCP):作为开源协议,它堪称 Agent 电商时代的 HTTP。它定义了智能体之间购买物品的规则。目前,Amazon、Meta、Microsoft、Salesforce、Stripe 等巨头已宣布加入 UCP 技术委员会,并正加速向加拿大、英国和澳大利亚扩展。
  • 💳 2. Agent Payments Protocol (AP2):解决“智能体乱花钱”的安全问题。它为 Agent 的支付行为设置了三道护栏:指定品牌、指定商品以及交易金额上限。每次交易都会生成无法篡改的数字授权书,保障商家与用户的双向安全。该协议将率先在 Gemini Spark 上线。
  • 🛍️ 3. Universal Cart (智能购物车):一个跨平台、跨商家服务的万能购物车。你在 Search、Gemini 对话、YouTube 视频或 Gmail 中看到的心仪商品,均能一键扔进购物车。购物车会在后台自动寻找折价券、查历史最低价、比对信用卡权益,并监控库存,堪称终极消费大杀器。
Article Image

════════════════════════════════

写在最后

Google 的发布会总是有着令人震撼的巨大信息量。在发布会的尾声,DeepMind 掌门人 Demis Hassabis 说了句让人动容且深思的话:

“When we look back at this time, I think we'll realize that we were standing in the foothills of the singularity.”(当未来我们回望这个时刻,我们会意识到,我们正站在奇点的山脚下。)

AI 在今天不仅仅是一个工具,它正成为人类智慧的强力放大器。或许,我们真的正在亲手开启一个全新的科学发现与时代大爆发的黄金十年。而这漫长的征途,你我都是见证者。

参与讨论