体验分享#AI#Daily

AI HOT 日报 · 2026年05月20日

2026-05-20|yancey|48 分钟阅读

🚀 模型发布/更新

SenseNova U1：同时思考文本与图像的AI — X：商汤 SenseTime (@SenseTime_AI) (1小时前) _摘要：将你的想法转化为激发故事的视觉画面 🧨

【引用 @Adamaestr0_】：大多数AI工具可以写作或生成图像。

但这个能同时做这两件事。

向你介绍 SenseNova U1。一个能同时思考文本和图像的AI。

这改变了一切 🧵_ 🔗 查看原文

Kling AI推出全球首个原生4K视频生成模型 — X：可灵 Kling AI (@Kling_ai) (7小时前) 摘要：4月23日，Kling AI正式推出全球首个原生4K视频生成模型，专为专业内容创作设计。该功能支持一键生成真4K画质视频，显著提升画面细节与制作效率。模型已获得好莱坞团队、动画工作室等多方采用。好莱坞制片人指出，这是其工作流中首个使用的原生4K基础模型；Wonder Studios强调，原生4K从底层生成避免了传统放大技术的角色变形问题，保持了画面一致性；动画导演则认为，该模型在保留艺术色调与复杂特效纹理方面优于同类产品。 🔗 查看原文
Qwen3.7：智能体前沿 — Qwen：Blog Retrieval（API） (9小时前) 摘要：Qwen Studio推出Qwen3.7模型，提供覆盖聊天机器人、图像与视频理解、图像生成、文档处理、网页搜索集成、工具调用及工件生成等功能。该模型整合了当前AI智能体的关键能力，旨在推动多模态交互与实际任务执行向更综合、自主的方向发展。 🔗 查看原文
Gemini Omni发布：物理推理与多模态生成新突破 — X：Sundar Pichai (@sundarpichai) (16小时前) 摘要：Gemini Omni不仅能构建逼真的场景，还能推理接下来应该发生什么。它结合了对物理的直观理解与Gemini在历史、科学和文化背景方面的知识。今日起，通过@Geminiapp + Google Flow和@YouTube Shorts，向全球Google AI Plus、Pro和Ultra订阅用户推出视频生成功能。 🔗 查看原文
Gemini Omni：从任意输入创造内容的新模型 — X：Google AI (@GoogleAI) (16小时前) 摘要：到现在，你可能已经听说了 Gemini Omni，这是我们新推出的模型，旨在从任意输入（从视频开始）创造任何内容。但……这有什么大不了的？让我们来分解一下 🧵👇 🔗 查看原文
谷歌发布Gemini Omni多模态生成模型 — X：Gemini (@GeminiApp) (16小时前) _摘要：介绍Gemini Omni，我们的新模型，可以从任何输入创建任何内容，首先从视频开始。

借助Gemini Omni，您可以将图像、视频和文本作为输入组合，并生成基于Gemini现实世界知识的高质量视频。#GoogleIO_ 🔗 查看原文

OlmoEarth v1.1：更高效的模型家族 — Hugging Face：Blog（RSS） (17小时前) 摘要：Ai2（Allen Institute for AI）在Hugging Face平台发布了OlmoEarth模型家族的1.1版本。此次更新重点提升了模型的计算效率与运行性能，通过优化的模型架构与训练策略，使OlmoEarth v1.1在保持或增强任务表现的同时，显著降低了推理所需的计算资源与时间成本。这一改进旨在让该开源模型更适用于资源受限的部署场景，推动大规模语言模型的普惠应用。 🔗 查看原文
Gemini Omni：迈向AGI的世界模型 — X：Kim (@kimmonismus) (17小时前) _摘要：真正的"哇"时刻是 Gemini Omni。一个迈向 AGI 的世界模型。

它可以从任何输入创建任何内容。这太疯狂了。_ 🔗 查看原文

I/O 2026：欢迎来到自主的 Gemini 时代 — Google Blog：AI（RSS） (18小时前) 摘要：Google 在 I/O 2026 大会上宣布 Gemini 进入自主代理时代，新功能使其能够自动执行复杂任务，显著提升用户工作效率。大会展示了 Gemini 如何通过代理操作简化工作流程，实现自动化处理，例如自动管理邮件、安排日程或生成报告，帮助用户从重复性工作中解放出来，专注于创造性任务。这一更新基于先进机器学习模型，强调准确性与效率，标志着 AI 助手向更智能、更自主的方向发展。 🔗 查看原文
谷歌 Gemini Omni 全能模型发布：可从任意输入生成任意输出，一句话让 AI 修改视频 — IT之家（RSS） (18小时前) 摘要：在2026年谷歌I/O开发者大会上，谷歌正式推出Gemini Omni模型。该模型代表了Gemini家族迄今最全面的能力，"Omni"意为全能，能够无缝处理文本、图像、音频和视频等多种信息模态，实现"从任何输入生成任何输出"。其核心亮点在于支持对话式编辑，用户可通过自然语言指令轻松修改视频元素。同时，谷歌发布了首款衍生模型Gemini Omni Flash，现已在Gemini App、Google Flow和YouTube Shorts中可用，后续将提供API服务。 🔗 查看原文
谷歌发布Gemini Omni Flash，Pro版即将推出 — X：Testing Catalog (@testingcatalog) (18小时前) _摘要：谷歌 I/O 🔥：GEMINI OMNI FLASH 已发布，现已在 GEMINI 和 GOOGLE FLOW 上可用。

GEMINI OMNI PRO 即将推出 🤩_ 🔗 查看原文

Gemini Omni发布：多模态生成新突破 — X：Google DeepMind (@GoogleDeepMind) (18小时前) 摘要：我们推出Gemini Omni：这是迈向一个能从任何内容生成任何内容的模型的第一步--从视频开始。它结合了Gemini的智能与我们的生成式媒体系统--代表了在世界理解、多模态和编辑方面的飞跃🧵 🔗 查看原文
Gemini Omni发布，迈向AGI新进展 — X：Kim (@kimmonismus) (18小时前) _摘要："迈向AGI的进展"：Gemini Omni
世界模型 -Gemini Omni官方发布！！

它可以从任何输入创建任何内容！！！_ 🔗 查看原文

🛠️ 产品发布/更新

在OpenClaw中使用Grok — xAI：News（网页） (刚刚) 摘要：5月22日，xAI宣布，其用户现可在开源个人助理OpenClaw中直接使用Grok模型。所有持有SuperGrok或X Premium订阅的用户均可使用该功能。OpenClaw是一个开源的、本地优先的智能助手，可在多种硬件上运行并保持跨会话记忆，同时能接入WhatsApp、Telegram等多款主流通讯平台。用户通过简单安装和登录，即可在自有设备上运行OpenClaw，并通过其界面或关联的聊天工具与Grok交互。此举进一步扩展了Grok的应用场景，未来还将推出更多开源代理与集成支持。 🔗 查看原文
MSE AI调度器：让Agent自主工作 — X：阿里云 / Alibaba Cloud (@alibaba_cloud) (1小时前) 摘要：将Agent转变为自主工作者！🚀 ❌ 开源痛点：可用性低、运维成本高、可观测性差。 ✅ MSE AI调度器通过以下方式解决： • 高可用分布式调度 • 统一管理与细粒度权限 • 弹性伸缩以降低成本 • 全链路可观测性支持OpenClaw、Dify等。免费公测现已开放！ 🔗 https：//int.alibabacloud.com/m/1000413115/ #AI #Agent #MSE 🔗 查看原文
Gemini 3.5 Flash登陆OpenCode平台 — X：opencode (@opencode) (3小时前) _摘要：Gemini 3.5 Flash现已在OpenCode上线
速度极快
100万上下文
定价与GLM、Kimi和DeepSeek Pro相近_ 🔗 查看原文
Ramp利用Gemini API构建高级财务代理 — X：Google AI for Developers (@googleaidevs) (12小时前) _摘要：通过使用Gemini API中的新托管代理功能，@Ramp在无需接触后端基础设施的情况下构建了其高级财务代理。

了解更多 ↓_ 🔗 查看原文

Claude Code v2.1.145版本更新 — Claude Code：GitHub Releases（RSS） (14小时前) 摘要：本次更新为Claude Code工具带来了多项功能增强与问题修复。新功能包括：新增JSON格式的会话列表命令以便脚本化操作，并在OTEL追踪中完善了Agent父子关系。插件浏览界面现可预览详细信息。在稳定性方面，修复了权限提示被绕过的安全问题、MCP参数校验错误、终端窗口调整后的显示冻结，以及非ASCII名称导致的API调用失败等问题。同时改进了Read工具的文件超限处理，并优化了任务列表排序和状态栏信息显示等交互细节，整体提升了工具的易用性与可靠性。 🔗 查看原文
谷歌推出全新AI智能搜索框，支持多模态交互 — X：Google AI (@GoogleAI) (14小时前) 摘要：谷歌宣布推出基于Gemini 3.5模型的全新智能搜索框。该更新将AI Overviews与AI Mode整合为统一的AI搜索体验，支持对文本、图像、文件及视频进行跨模态推理查询。用户可进行多轮对话，搜索将结合上下文提供更个性化、定制化的回答。该新功能已在全球桌面和移动设备端同步上线。 🔗 查看原文
更智能的 Google AI Edge Gallery：MCP 集成、通知和会话连续性 — Google Developers Blog（RSS） (15小时前) 摘要：Google AI Edge Gallery 应用在安卓平台上扩展了设备端 AI 能力，通过引入对开源模型上下文协议（MCP）的实验性支持，使得 Gemma 4 模型能够协调处理跨 Google Workspace 和 Google Maps 等外部数据源的复杂任务。此次更新添加了"定时通知"技能，用于实现日常事务的自动化管理，并新增了持久化聊天记录功能，允许用户近乎即时地恢复长会话上下文。该平台依托开源工具包，积极鼓励社区开发者通过其 GitHub 仓库构建并分享专注实用的工作流、提示配置与工具集成。 🔗 查看原文
OpenAI推出长期算力保障服务 — X：OpenAI (@OpenAI) (16小时前) _摘要：推出 OpenAI Guaranteed Capacity：一项新服务，让客户能够保障长期获取 OpenAI 算力。

我们已在基础设施、合作伙伴关系和容量规划方面进行了长期投资，以帮助客户可靠地扩展。

现在，Guaranteed Capacity 帮助客户在算力受限的环境中提前规划关键工作负载。

http：//openai.com/guaranteed-capacity_ 🔗 查看原文

Antigravity生态：面向智能体的开发平台 — X：Google AI for Developers (@googleaidevs) (16小时前) _摘要：全新的 @Antigravity 生态系统是您终极的智能体优先开发平台。

对于任何构建或编排智能体的开发者，以下是 Google I/O 上发布的内容 🚀↓_ 🔗 查看原文

Google Tensor ML SDK 测试版发布 — Google Developers Blog（RSS） (16小时前) 摘要：Google Tensor ML SDK 进入测试版，支持开发者直接在 Pixel 10 设备的 TPU 上构建和部署高性能机器学习模型。该 SDK 集成边缘部署框架 LiteRT，提供统一工作流，可高效转换、编译并运行 PyTorch 或 TFLite 模型，并具备稳定回退机制。此外，新推出的模型库包含超过 100 个经典及生成式 AI 模型（如 Gemma 3），支持低延迟、注重隐私的语音识别、计算机视觉与文本生成等功能。 🔗 查看原文
Gemini for Science：AI助力科学突破 — X：Google DeepMind (@GoogleDeepMind) (17小时前) _摘要：我们希望借助AI帮助科学家发现下一个重大突破。

Gemini for Science是我们全新的实验性工具套件，旨在帮助他们探索更多假设、大规模验证工作、轻松解析文献等。🧵_ 🔗 查看原文

GoogleIO发布多项Gemini更新 — X：Gemini (@GeminiApp) (17小时前) _摘要：我们在#GoogleIO上宣布了多项Gemini更新，包括：
采用神经表达技术的全新Gemini体验设计
即将推出的Gemini智能体功能，含每日简报与Gemini Spark
Gemini Omni与3.5 Flash模型
以及更多内容！详情请见此线程🧵_ 🔗 查看原文
Gemini Omni助力Google Flow创作电影级故事 — X：Google DeepMind (@GoogleDeepMind) (17小时前) _摘要：Google Flow 🤝 Gemini Omni

使用我们的最新模型创作更具电影感的故事，它带来了批量编辑、改进的角色一致性等功能。以下是@FlowbyGoogle的其他新功能 → https：//goo.gle/42K2nge

#GoogleIO_ 🔗 查看原文

重要更新：Gemini CLI将迁移至Antigravity CLI — Google Developers Blog（RSS） (17小时前) 摘要：Google正在整合其AI终端工具，将面向社区的Gemini CLI迁移至全新平台Antigravity CLI。这款新工具采用Go语言开发，作为代理优先的平台，支持复杂的多代理工作流，并提供更快的执行速度、异步处理能力以及与Antigravity 2.0桌面应用同步的统一架构。企业客户可维持现有访问权限，但个人及免费用户必须在2026年6月18日Gemini CLI停止服务前，完成向新平台的迁移。 🔗 查看原文
Gemini Spark：全天候个人AI代理 — X：Gemini (@GeminiApp) (17小时前) _摘要：Gemini Spark 是您的全天候个人AI代理，帮助您驾驭数字生活。

它将 Gemini 从一个回答您问题的助手，转变为一个在您的指导下、代表您完成工作的助手。#GoogleIO_ 🔗 查看原文

Google推出每日简报个性化摘要功能 — X：Gemini (@GeminiApp) (17小时前) 摘要：Daily Brief是一项新的个性化摘要功能，旨在成为您每天早晨的首选信息来源。它从您的收件箱、日历和任务中收集信息，进行优先级排序、整理，并在专为快速浏览设计的超简洁晨间摘要中为您建议下一步行动。#GoogleIO 🔗 查看原文
经验研究助手（ERA）：从Nature发表到催化计算发现 — Google Research：Blog（网页） (17小时前) 摘要：Google Research开发的经验研究助手（ERA）现已在《Nature》期刊发表论文。这是一款基于Gemini的AI工具，旨在协助科学家编写专业级经验科学代码，其核心能力包括搜索文献、生成代码、探索方案并迭代优化，以加速耗时的计算实验过程。该工具已被用于构建"计算发现"原型，并已通过Google Labs的"可信赖测试者计划"向更广泛的科学家群体开放初步试用。 🔗 查看原文
Google AI 订阅服务全新内容，源自 I/O 2026 大会 — Google Blog：AI（RSS） (18小时前) 摘要：Google 在 I/O 2026 大会上宣布更新其 AI 订阅服务，推出了全新的 100 美元"AI Ultra"计划。同时，面向 Google AI Plus、Pro 和 Ultra 三个层级的现有订阅者，服务均增加了新的功能和权益。此次更新标志着 Google 在 AI 付费订阅领域推出了更高端的选项并强化了现有套餐的价值。 🔗 查看原文
AI搜索的新时代 — Google Blog：AI（RSS） (18小时前) 摘要：谷歌宣布了其搜索引擎与AI技术融合的最新进展，标志着AI搜索进入新阶段。此次更新旨在将搜索引擎的广度与AI的深度理解能力相结合，目标是提供更智能、更直观的搜索体验，推动搜索技术的下一代演进。 🔗 查看原文
Google Workspace 推出全新创建方式与高效工作功能 — Google Blog：AI（RSS） (18小时前) 摘要：Google 在最新更新中为 Gmail、Docs 和 Keep 增添了新的语音功能，并推出了一款名为 Google Pics 的全新设计工具。同时，其 AI Inbox 功能也得到了升级与优化。这些更新旨在进一步提升用户在工作场景中的协作效率与创作体验，通过集成更智能的工具和交互方式，帮助用户更便捷地完成多项任务。 🔗 查看原文
Google AI Ultra套餐降价并新增档位 — X：Gemini (@GeminiApp) (18小时前) _摘要：我们将顶级Google AI Ultra套餐的价格从每月250美元降至200美元，并推出新的每月100美元Ultra套餐档位。

这个新套餐解锁了比Pro套餐高5倍的Gemini应用使用限额，助您加速编程与创作。它还包括新功能抢先体验、20TB存储空间、@YouTube Premium等更多权益。适用条款。https：//goo.gle/4wEuFGK #GoogleIO_ 🔗 查看原文

Gemini Spark：全天候自主AI助手 — X：Gemini (@GeminiApp) (18小时前) _摘要：Gemini Spark 是你的新全天候个人AI代理。

给它一个任务，它会在后台自主工作，即使你的手机和笔记本电脑已关机。你选择启用它，它被设计为在执行重大操作前会先征询你的意见。#GoogleIO_ 🔗 查看原文

Luma Agents现已支持Seedance 2.0生成 — X：Luma AI (@LumaLabsAI) (19小时前) _摘要：Luma Agents现在可以使用Seedance 2.0进行生成了。

将你的下一个项目指向它，看看它能产出什么，然后继续前进。同样的工作流程，但有了更多可用内容。

打开Luma Agents → http：//lumalabs.ai/app_ 🔗 查看原文

OpenRouter工具调用模型现可自主进行网络搜索 — X：OpenRouter (@OpenRouter) (20小时前) 摘要：OpenRouter上的任何工具调用模型现在都可以自主调用网络搜索和网页抓取功能。模型可以自行决定何时搜索、搜索什么以及搜索次数。我们新增了@p0作为新的网络搜索提供商。了解更多：https：//openrouter.ai/announcements/agentic-web-tools 🔗 查看原文
Claude托管代理新增两项安全功能 — X：Claude Devs (@ClaudeDevs) (21小时前) 摘要：我们为Claude Managed Agents增加了两项安全改进。自托管沙箱将代理的执行环境保留在您的基础设施或托管沙箱提供商处。 MCP隧道让代理能够连接到您安全边界内的服务。 🔗 查看原文
宣布Claude Managed Agents登陆Cloudflare — Cloudflare Blog (22小时前) 摘要：Cloudflare宣布与Anthropic的Claude Managed Agents深度整合，提供快速、隔离的自主代码交付执行环境。该集成使开发者能够在全球范围内扩展代理工作流，同时严格控制私有后端访问权限，并支持灵活自定义代理工具及运行时配置。 🔗 查看原文

📈 行业动态

Qwen 2026大会：AI原生云架构蓝图发布 — X：阿里云 / Alibaba Cloud (@alibaba_cloud) (1小时前) _摘要：Qwen Conference 2026：主题演讲议程

AI原生云、Agent原生云架构、推理的未来，以及多模态视觉技术发布。没有冗余内容，只有面向全球规模的工程蓝图。

投资超 600 亿美元，孙正义豪赌 OpenAI 引发内部质疑"迷信奥尔特曼如追星" — IT之家（RSS） (1小时前) 摘要：软银对OpenAI的投资承诺已超600亿美元，引发内部对孙正义过度信任其创始人奥尔特曼的担忧。部分高管质疑将巨额资本集中于单一公司存在风险，且软银虽持股超10%却无董事会席位，缺乏决策影响力。同时，Anthropic等竞争对手的崛起加剧了对OpenAI领先地位的挑战。尽管软银表示对OpenAI抱有"高度信心"，并已从中获得账面收益，但其股价下跌及信用展望被下调反映出市场对其豪赌的顾虑。 🔗 查看原文
欧盟委员会发布《欧盟人工智能法》高风险AI系统分类指导草案并开启公众咨询 — DataGuidance：Artificial Intelligence（网页） (4小时前) 摘要：欧盟委员会于2026年5月19日发布了关于《欧盟人工智能法》第六条项下高风险AI系统分类的指导草案。该草案旨在为AI系统的提供商、部署者及市场监管机构提供明确的分类标准，以确保在欧盟范围内执法的一致性。分类主要依据AI系统的预期用途，例如作为受监管产品的组件或用于特定高风险场景。草案也规定了部分豁免条件，例如仅执行辅助性任务时可能不被视为高风险。公众咨询期至206月23日。 🔗 查看原文
OpenAI向所有YC创业公司提供200万美元API投资 — X：Greg Brockman (@gdb) (7小时前) 摘要：OpenAI宣布向Y Combinator当前批次的每家创业公司提供价值200万美元的API信用额度投资，以换取股权。此举旨在为初创公司提供AI算力资源，支持下一代创新。这让人联想到Sam Altman在YC合伙人时期，Yuri Milner向每家创业公司提供投资的先例。OpenAI希望通过此举释放创业者潜力，推动AI应用创新。 🔗 查看原文
消息称微软内部示警：GitHub 面临生存级风险，AI 编程工具削弱托管必要性 — IT之家（RSS） (9小时前) 摘要：微软内部发出警告，称其代码托管平台GitHub正面临"生存级风险"。主要原因是Cursor、Claude Code等AI编程助手兴起，改变了开发者工作流，削弱了持续将代码上传至GitHub的必要性。为统一工具链并控制成本，微软已要求部分团队在2026年6月底前停止试用Claude Code，转而使用自有工具GitHub Copilot CLI。同时，OpenAI曾考虑自建替代平台，也加剧了对GitHub地位的潜在威胁。 🔗 查看原文
创新一周年：庆祝Google Cloud x NVIDIA开发者社区达到10万会员 — Google Developers Blog（RSS） (14小时前) 摘要：Google Cloud与NVIDIA开发者社区迎来成立一周年，会员规模突破10万。社区为开发者提供先进AI基础设施与资源支持，包括LLM优化、GPU加速数据分析等专项学习路径及专家网络研讨会。第二年计划将进一步扩展，推出实践实验室、工程活动及聚焦代理式AI增长的专项内容。 🔗 查看原文
Gemini月活用户超9亿，回顾年度重大功能发布 — X：Gemini (@GeminiApp) (17小时前) _摘要：每月有超过9亿用户使用Gemini应用。

这一增长的重要部分源于我们快速的发布节奏。以下是过去一年我们推出的一些最重要功能的回顾。🧵 #GoogleIO_ 🔗 查看原文

Google I/O 2026 — Google Blog：AI（RSS） (18小时前) 摘要：在Google I/O 2026大会上，Google宣布了多项旨在让AI更普惠、更实用的更新。这些发布聚焦于提升人工智能的辅助能力，使其能够服务更广泛的用户群体。大会涵盖了AI在开发者工具、用户应用以及日常生活场景中的具体改进，强调通过技术优化实现更自然、更便捷的人机交互体验。 🔗 查看原文
谷歌每月处理超 3200 万亿 Token，同比增长 7 倍 — IT之家（RSS） (18小时前) 摘要：在2026年谷歌I/O开发者大会上，谷歌宣布其AI业务关键指标大幅增长。2026年5月，谷歌每月处理的Token数量超过3200万亿，同比增长达7倍。其Gemini App月度活跃用户已突破9亿，同比增长超过一倍，每日请求量增长超7倍。此外，Nano Banana模型已累计生成超过500亿张图片。 🔗 查看原文
谷歌IO大会首日：创新与技术突破 — X：Google DeepMind (@GoogleDeepMind) (18小时前) _摘要：欢迎来到 #GoogleIO 的第一天。

我们将分享 @Google 的最新创新、产品更新和技术突破。

请就座前排，观看直播 → https：//goo.gle/499OxaJ_ 🔗 查看原文

Google I/O 开发者大会日程公布 — X：Google AI for Developers (@googleaidevs) (19小时前) _摘要：Google I/O 开发者大会即将开始！

✧ 上午10：00 - 主题演讲 ✧ 下午1：30 - 开发者主题演讲 ✧ 下午3：30 - Google AI 新动态 ✧ 下午4：30 - 与 @GoogleDeepMind 和 @Antigravity 共同扩展开发者生态系统

时间为太平洋时间。 https：//x.com/i/events/2053241348807864323_ 🔗 查看原文

Andrej加入Anthropic，马斯克也点赞 — X：Yuchen Jin (@Yuchenj_UW) (20小时前) 摘要：Andrej加入了Anthropic。连Elon都忍不住称赞Anthropic。 Anthropic今天在Google I/O上真是气场全开。 🔗 查看原文
安德烈·卡帕西加入Anthropic — Hacker News 热门（buzzing.cc 中文翻译） (20小时前) 摘要：AI领域知名专家安德烈·卡帕西于2026年5月19日宣布加入人工智能安全公司Anthropic。卡帕西此前曾是特斯拉自动驾驶AI负责人及OpenAI联合创始人，此次加盟标志着顶尖人才向AI安全与对齐研究领域的新一轮流动，进一步提升了Anthropic在行业内的研发实力与关注度。该消息发布后迅速引发广泛讨论，在技术社区获得高关注度。 🔗 查看原文
前OpenAI核心成员Andrej Karpathy选择Anthropic重返前沿LLM研究 — The Decoder：AI News（RSS） (20小时前) 摘要：著名AI研究人员Andrej Karpathy已加入Anthropic。这位前OpenAI核心团队成员兼特斯拉Autopilot架构师表示，他希望重返研发一线，称未来几年在大语言模型（LLM）前沿的研究"尤其具有塑造性"。他选择Anthropic而非回归前东家OpenAI，这对后者而言是一个明显的损失。 🔗 查看原文
Karpathy加入Anthropic团队 — X：Claude Devs (@ClaudeDevs) (20小时前) 摘要：欢迎加入团队，Andrej！ 🔗 查看原文
毕马威与Anthropic建立全球联盟，全面整合Claude AI模型 — Anthropic：Newsroom（网页） (22小时前) 摘要：毕马威宣布与Anthropic建立全球联盟，将Claude人工智能模型全面整合至其核心业务与数字平台。此举将向毕马威全球超过27.6万名员工开放Claude访问权限，并率先应用于税务与法律等领域的客户工具开发。双方还将合作开发面向私募股权投资组合公司及网络安全漏洞检测的新产品。毕马威强调此次合作基于其可信AI框架，旨在通过负责任、可治理的AI部署，加速企业数字化转型。 🔗 查看原文

🔬 论文研究

研究发现人类说服技巧对AI同样有效 — X：Ethan Mollick (@emollick) (14小时前) 摘要：🚨我们的论文已在PNAS发表：我们发现经典的人类说服技巧以一种"类人"的方式对AI有效，使其同意不当请求（将顺从率从35%提高到51%）该技巧对一系列主流大语言模型有效，尽管较新的模型抵抗力更强 https：//www.pnas.org/doi/10.1073/pnas.2535868123 🔗 查看原文

💡 技巧与观点

Prompt驱动AI生成超真实足球自拍视频 — X：PixVerse (@PixVerse_) (4小时前) 摘要：这条推文展示了一个用于在PixVerse平台生成视频的复杂提示词。核心目标是制作一段在大型体育场内，五位朋友进行超真实智能手机自拍风格的视频。提示词的关键在于，它通过极其详细的设定来确保生成内容的连贯性和真实感：包括对五个角色外貌的严格一致性要求、具体的球场环境、模拟真实手机拍摄的镜头运动（如抖动、失焦）以及一系列自然的动作序列。 🔗 查看原文
开源油猴脚本实现多平台截图上传与内容处理 — X：Vista (@vista8) (5小时前) 摘要：开源油猴脚本实现小红书、抖音、微信公众号的截图粘贴自动上传，并支持YouTube字幕复制、倍速调节及内容导出至NotebookLM、ChatGPT等工具。主推文作者表示，该工具增强了将X平台内容同步至国内平台的意愿，尽管部分平台体验欠佳。 🔗 查看原文
拓宽关于前沿AI的对话 — Anthropic：Newsroom（网页） (12小时前) 摘要：Anthropic为构建负责任的先进AI，正与全球多元群体展开对话。首轮讨论汇集了超过15个宗教、哲学及跨文化传统的学者与伦理学者，旨在为Claude等模型的道德形成与价值观对齐提供多元视角。受"外部良知"概念启发，团队开发并测试了伦理承诺提醒工具，初步实验显示其能有效降低模型不对齐行为。公司计划未来将对话拓展至法律、心理学及公民社会等领域，以共同应对AI对社会结构的重塑。 🔗 查看原文
Claude Code的HTML输出：非凡的有效性 — Claude：Blog（网页） (14小时前) 摘要：Claude Code团队正从Markdown转向HTML作为主要输出格式。Markdown虽简洁，但在信息密度、阅读性、分享和交互方面存在局限。HTML能支持表格、CSS样式、SVG图表和JavaScript交互，提供更清晰的视觉结构和高信息密度。由于HTML文件可通过浏览器直接打开和分享，便于团队协作审阅。Claude Code利用其广泛的上下文获取能力生成实用的HTML制品，适用于项目规划、文档编写和验证等多种场景，显著提升了AI生成内容的可读性与实用性。 🔗 查看原文
ChatGPT图像生成周使用量突破15亿次 — X：OpenAI (@OpenAI) (14小时前) _摘要：人们每周在ChatGPT中生成超过15亿张图像。

研究员 @kenjihata 与产品负责人 @adele__li 及主持人 @AndrewMayne 一起，探讨自 Images 2.0 发布以来出现的新用例和趋势。_ 🔗 查看原文

Claude实现真实界面操作的生产实践指南 — X：Claude Devs (@ClaudeDevs) (15小时前) _摘要：计算机使用功能使Claude成为能够操作真实用户界面的智能体。

新博客文章探讨如何在生产环境中确保其可靠性：包括提高点击准确性、选择思考努力级别、在长会话中保持上下文，以及记录Claude可重放的演示操作：

https：//claude.com/blog/best-practices-for-computer-and-browser-use-with-claude_ 🔗 查看原文

Gemini 3.5 Flash快速构建互动游戏 — X：Gemini (@GeminiApp) (15小时前) 摘要：使用 Gemini 3.5 Flash 构建你的第一款游戏。无需复杂的3D建模，即可将日常物品直接转化为互动的数字体验。从一个 Nano Banana 提示开始，在 Canvas 中将你的图像变成游戏，并优化你的愿景以获得最佳游戏体验。 🔗 查看原文
AI Mode 如何改变美国人的搜索方式 — Google Blog：AI（RSS） (18小时前) 摘要：AI Mode 上线一周年，美国用户搜索行为呈现关键转变。数据显示，用户正从传统的关键词输入模式逐渐转向自然语言查询，这一变化反映了AI搜索技术的普及和用户交互方式的优化。自然语言查询的使用率显著提升，体现了AI搜索在日常信息获取中的影响力增强，预示着未来搜索体验的革新方向。 🔗 查看原文
让社区参与AI开发以改善AI服务 — X：Microsoft Research (@MSFTResearch) (18小时前) 摘要：让社区通过参与AI开发流程来影响AI，可以改善AI，并帮助社区认识到AI为其提供良好服务的潜力。 🔗 查看原文
NVIDIA开源首个4-bit超长视频生成基础设施 — X：Berry Xia (@berryxia) (19小时前) 摘要：NVIDIA研究员开源LongLive 2.0，这是首个支持4-bit量化、覆盖训练与推理全流程的端到端长视频生成基础设施。其核心技术包括FP4量化与并行加速，在5B模型上实现45.7 FPS的生成速度。该框架支持真实视频训练、蒸馏、多镜头生成、序列并行、KV缓存优化及异步解码部署，旨在解决以往长视频生成速度慢或仅限短片的瓶颈。 🔗 查看原文
DAA：智能体时代的核心指标 — X：百度 Baidu (@Baidu_Inc) (21小时前) 摘要：这里快速补充一个指标新词：DAA。全称 Daily Active Agents（每日活跃智能体），相当于智能体时代的 DAU。如果说代币经济学追踪成本，那么 DAA 追踪产出--智能体实际完成了多少工作。完整对比见下文 ↓ 🔗 查看原文
AI代理集成新方案：Membrane推出单一技能连接万种API — X：Rohan Paul (@rohanpaul_ai) (22小时前) 摘要：AI代理在实际应用中需为每个外部服务重复构建集成逻辑，成为其发展的主要瓶颈。针对此问题，Membrane推出了一种通用"技能"解决方案。通过该单一技能，Claude Code、ChatGPT、Cursor等主流AI代理能够用一条指令调用超过10万个不同的API，涵盖从Stripe支付服务到NASA火星车数据等各类服务。这极大简化了开发流程，将定制化集成转变为通用的连接能力，降低了使用门槛。同时，Membrane正发起社区挑战，鼓励用户提交小众API以获得演示和免费额度激励，旨在持续扩展其连接生态。 🔗 查看原文
Forge：通过防护机制大幅提升8B模型性能的可靠性层 — Hacker News：AI 热帖 (23小时前) 摘要：Forge 是一个为自托管大语言模型设计的可靠性层，专注于提升工具调用能力。它通过错误解析、重试提示、步骤强制等防护机制以及高效的上下文管理，成功将8B参数模型在复杂多步骤智能体任务中的表现从53%大幅提升至99%。其核心配置（Ministral-3 8B模型）在自建的26项评估中综合得分达86.5%。Forge 提供三种集成方式：作为全托管工作流运行器、多智能体架构的共享调度器，或嵌入自有编排循环的防护中间件，并附带一个可透明接入的OpenAI兼容代理服务器。 🔗 查看原文

参与讨论

返回文章列表