AI HOT 日报 · 2026年05月30日
🚀 模型发布/更新
- OpenAI推出实时翻译模型,支持70+语言输入 — X:Greg Brockman (@gdb) (4小时前) _摘要:OpenAI 实时翻译功能--使用70多种输入语言说话,翻译成13种输出语言:
gpt-realtime-translate 接收任意语言的语音输入,并输出目标语言的语音。
大语言模型很棒,但特定用例需要专用模型。
我们正在智能眼镜上运行此功能。_ 🔗 查看原文
- 小米开源可控视频音效生成模型 ControlFoley,让声音"按你想要的来" — IT之家(RSS) (15小时前) 摘要:小米大模型应用团队发布开源可控视频音效生成模型 ControlFoley,旨在解决创作中的可控性难题。该模型统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。ControlFoley 在 VGGSound-Test 等多个 benchmark 上取得开源 SOTA 表现,其代码、模型权重和在线 Demo 均已开放。 🔗 查看原文
- Qwen-VLA:从理解世界到在其中行动 — Qwen:Blog Retrieval(API) (15小时前) 摘要:Qwen Studio提供全面功能,涵盖聊天机器人、图像与视频理解、图像生成、文档处理、网络搜索集成、工具利用及Artifacts。 🔗 查看原文
🛠️ 产品发布/更新
- ComfyUI现已支持OpenRouter模型直接调用 — X:OpenRouter (@OpenRouter) (14分钟前) _摘要:现在你可以直接在ComfyUI工作流中使用你的OpenRouter模型了!
【引用 @ComfyUI】:ComfyUI刚刚添加了@OpenRouter支持。
你不再局限于单一的大语言模型,现在可以直接在Comfy中访问20多个模型。
更多灵活性,更少摩擦,同样的工作流。
工作流链接在下方👇_ 🔗 查看原文
- Codex可自主管理对话线程与并行任务 — X:Greg Brockman (@gdb) (1小时前) _摘要:Codex用于管理Codex界面:
【引用 @guinnesschen】:如果你厌倦了管理Codex对话线程,就让Codex自己管理自己吧!Codex现在可以创建对话线程、搜索它们、整理它们、固定重要的线程,并为并行任务启动工作树。_ 🔗 查看原文
- ChatGPT对话目录功能现已上线 — X:ChatGPT (@ChatGPTapp) (3小时前) 摘要:对于每个始于"就问一件事"却演变成完整长篇的ChatGPT对话:目录功能现已推出。 适用于包含5条以上回复的对话。 🔗 查看原文
- Luma Agents 自动生成宣传图,输入内容即可 — X:Luma AI (@LumaLabsAI) (3小时前) _摘要:博客文章完成了思考。现在让宣传来发挥作用。
输入内容。定义钩子。Luma Agents 从那里构建每一张宣传图。
投入使用 → http://lumalabs.ai/app_ 🔗 查看原文
- Runway API持续扩展模型与端点支持 — X:Runway (@runwayml) (4小时前) 摘要:我们持续为 Runway API 添加新模型和端点,以便您能将最佳生成能力直接集成到应用、产品和平台中。通过 Runway API,您可以在一个地方获得所需的所有模型,包括 Seedance 2.0、GPT Image 2、HappyHorse 1.0、Nano Banana Pro、Magnific Precision Upscaler V2 等更多内容。请通过下方链接开始使用。 🔗 查看原文
- Gemini Omni可将草图变为现实 — X:Gemini (@GeminiApp) (5小时前) _摘要:Gemini Omni甚至能将简单的草图变为新的现实。
在Gemini应用中亲自尝试。上传一段有人画圆的视频,然后输入这个提示词:当我画完这个圆时,它变成了___。_ 🔗 查看原文
- Codex现已支持Windows端计算机使用功能 — X:OpenAI (@OpenAI) (5小时前) _摘要:Windows用户,这条消息是给你的。
计算机使用功能现已在Windows上可用,因此Codex可以在你的Windows电脑上执行操作。
通过ChatGPT移动应用中Codex的Windows支持,你可以在工作继续在Windows电脑上进行时,随时随地启动、审查和引导任务。
这是一项早期体验,但我们正在努力提供更多方式,让你的工作无论身在何处都能持续进行。_ 🔗 查看原文
- OpenRouter支持模型生成文件补丁 — X:OpenRouter (@OpenRouter) (7小时前) _摘要:OpenRouter 现已支持 "apply_patch",这是一个服务器工具,允许任何模型通过 Responses API 使用 V4A diffs 提出文件编辑建议。
模型生成一个补丁(创建、更新或删除文件)。OpenRouter 在服务器端验证 diff 语法。_ 🔗 查看原文
- Canvas新功能与Clerk自定义登录介绍 — X:Replit (@Replit) (8小时前) 摘要:Canvas 新功能 + 使用 Clerk 自定义登录 https://x.com/i/broadcasts/1pJdRRzreMRKW 🔗 查看原文
- Gemini 本月更新:全新界面与智能体助手 — X:Gemini (@GeminiApp) (8小时前) 摘要:从全新设计的 Gemini 界面,到 Gemini Spark 提供的全天候智能体辅助,以下是本月 Gemini 更新概览。🧵 🔗 查看原文
- Guardrails:保护你的智能体、数据与成本 — OpenRouter:Announcements(RSS) (12小时前) 摘要:Guardrails 是一套可配置的安全与治理工具,提供预算执行、零数据保留、模型与提供商限制、提示词注入防御及数据丢失预防等功能,旨在保护智能体(Agents)、数据与控制成本。 🔗 查看原文
- 阿里云开源百炼 CLI,Agent 可调用全套模型和应用能力 — IT之家(RSS) (16小时前) 摘要:暂无摘要 🔗 查看原文
- 用 Rosalind Biodefense 增强社会韧性 — OpenAI:官网动态(RSS · 排除企业/客户案例) (21小时前) 摘要:OpenAI 推出 Rosalind Biodefense,为通过审核的开发者和美国政府伙伴提供 GPT-Rosalind 的可信访问,以推动前沿 AI 在生物防御、公共卫生和大流行病准备方面的应用。 🔗 查看原文
📈 行业动态
- 波士顿儿童医院利用AI解锁新诊断 — OpenAI:官网动态(RSS · 排除企业/客户案例) (12小时前) 摘要:波士顿儿童医院通过部署OpenAI技术,用于改善患者护理并减轻运营负担,成功帮助诊断了超过40种罕见病病例。 🔗 查看原文
- 中央网信办等四部门:提升全民人工智能素养,加快人才培育、深化普及应用 — IT之家(RSS) (13小时前) 摘要:中央网信办等四部门联合印发《2026年提升全民数字素养与技能工作要点》,部署了六项重点任务。其中明确要求"提升全民人工智能素养",具体包括强化人工智能赋能教育、加快人工智能人才培育、深化人工智能普及应用。其他任务涵盖数字资源供给、应用场景建设、普惠包容发展、安全有序网络空间以及协同联动机制。 🔗 查看原文
- 三星电子业内率先出样 HBM4E 内存 — IT之家(RSS) (23小时前) 摘要:暂无摘要 🔗 查看原文
🔬 论文研究
- GPIC:大规模视觉生成基准数据集发布 — X:Fei-Fei Li (@drfeifei, World Labs) (7小时前) 摘要:我对这个适用于大规模生成模型新时代的视觉生成基准数据集感到非常兴奋!🤩 🔗 查看原文
💡 技巧与观点
- 这个 skill 看着不错,可将文字、URL 或文章直接生成公众号首图、小红书图文卡、教程步骤卡等视觉物料,支持 28 种布局和 10 种主题。 — X:洪明 (@hongming731) (1小时前) 摘要:claude-design-card 是一款专为中文内容创作者设计的 Skill。它能将文字、URL 或文章直接转化为可发布的视觉卡片,如公众号首图、小红书图文卡、教程步骤卡等,支持 28 种布局与 10 种主题。其核心价值在于自动化了"写完文章"后最繁琐的流程:自动提炼重点、选择版式、生成 HTML 并截图成 PNG,替代了以往手动使用 Figma 或 Canva 等工具的步骤。该工具开源,适合经常撰写相关内容的创作者尝试。 🔗 查看原文
- LlamaIndex 团队基于 Google Agents API 构建 LlamaParse/LiteParse 智能体模板 — X:Google AI for Developers (@googleaidevs) (4小时前) 摘要:LlamaIndex 团队基于 Google 新发布的 Agents API 构建了一个模板,使智能体能够访问 LlamaParse 和 LiteParse,从而自动处理非结构化文档。其工作流程为:配置数据与输出的 Git 仓库,将仓库克隆至智能体沙箱,安装 LiteParse CLI 与 LlamaParse SDK 及相关技能,最后通过提示词驱动智能体自主执行任务。该模板最终形成一个可直接使用 LlamaParse 和 LiteParse 处理真实世界文档的智能体。 🔗 查看原文
- 参与我们的 I/O 2026 测验:该测验由 Google AI Studio 氛围编程生成 — Google Blog:AI(RSS) (5小时前) 摘要:Google 使用其开发工具 Google AI Studio,通过氛围编程(vibe coding)方式,创建了一个关于 Google I/O 2026 主要公告的在线测验。 🔗 查看原文
- 当公司过于"AI上瘾"时会发生什么? — TechCrunch:AI(RSS) (6小时前) 摘要:Box创始人Aaron Levie指出,决定用AI替代员工的人往往最不了解工作的实际内容,他将此称为"AI psychosis"。ClickUp近期为部署AI智能体裁员22%即是一例。2026年的科技行业裁员规模已接近2025年全年。 🔗 查看原文
- 亲测为实:难以置信的推理速度 — X:Rohan Paul (@rohanpaul_ai) (6小时前) 摘要:Kog团队在标准数据中心GPU上实现了极高的单用户推理速度,在8× AMD MI300X GPUs上达到3,000 tokens/s,在8× NVIDIA H200上达到2,100 tokens/s。相比常规推理速度(约100-300 tokens/s),实现了10-30倍提升。其核心思路是将LLM解码视为内存流问题,通过协同设计monokernel、重建同步机制、针对性内存访问映射及采用延迟张量并行的Laneformer模型架构,消除了传统流程的阻塞点。 🔗 查看原文
- Cognition的Scott Wu表示:AI编程智能体不应取代人类 — TechCrunch:AI(RSS) (7小时前) 摘要:Cognition公司开发了Devvin,这是一个号称首个且最成功的AI编程智能体。其著名程序员创始人Scott Wu明确表示,该智能体并非旨在取代人类程序员。 🔗 查看原文
- Gemini架构师分享AI前沿探索幕后故事 — X:Google AI (@GoogleAI) (8小时前) _摘要:聆听Gemini的架构师们回顾他们持续推动AI前沿的旅程,本期Release Notes节目。
@JeffDean、@koraykv、@OriolVinyalsML和@NoamShazeer一同出镜,分享模型背后团队的幕后故事,以及他们如何见证愿景的实现。_ 🔗 查看原文
- Kling AI助力电影RAPHAEL创作全流程揭秘 — X:可灵 Kling AI (@Kling_ai) (9小时前) _摘要:Kling AI戛纳展示--RAPHAEL:AI工作流幕后
深入了解RAPHAEL,一部使用Kling AI创作的AI驱动故事片。看看创作者如何在整个电影制作流程中运用Kling AI,从创意构思到最终电影画面,简化制作并释放新的创作可能性。_ 🔗 查看原文
- Braintrust如何用Codex将客户请求转化为代码 — OpenAI:官网动态(RSS · 排除企业/客户案例) (12小时前) 摘要:Braintrust的工程师正在使用Codex结合GPT-5.5模型,以加速其实验运行与代码编写的流程。 🔗 查看原文
- Claude Code--文档中未提及的所有可配置选项 — Hacker News 热门(buzzing.cc 中文翻译) (13小时前) 摘要:该篇文章标题涉及"Claude Code"的可配置选项,但提供的正文内容仅包含一张图片和一个外部链接,未给出任何关于模型版本、参数、性能、价格或功能的具体信息。根据规则,无法在摘要中提及原文不存在的细节。 🔗 查看原文
- 谷歌 DeepMind CEO 哈萨比斯:AGI 最快三年内到来,研发速度远超预期 — IT之家(RSS) (16小时前) 摘要:谷歌 DeepMind 首席执行官德米斯·哈萨比斯预测,AGI 研发速度远超预期,最快可能在 2029 年至 2030 年前后出现。作为 AlphaGo、AlphaFold 的主导者,他认为当前 AI 智能体是未来更强智能的预演,随着多模态和自主决策能力成熟,三年内迎来 AGI 关键突破已非科幻。但他同时警示,全球社会对 AGI 到来的准备严重不足,必须提前建立规则与防护机制。 🔗 查看原文
- Adam's Law:用高频词写Prompt效果更好 — X:Berry Xia (@berryxia) (20小时前) 摘要:FaceMind团队用100种语言和四大核心任务实验发现,在语义不变的前提下,使用预训练语料中出现频率更高的词汇(高频表达)来撰写提示词或进行微调,可以显著提升大语言模型的表现。这被总结为Adam's Law(文本频率定律),它为数据工程补上了"频率"这一新维度。原理在于高频表达能让模型在它最熟悉的概率空间内工作,从而优化输出质量。 🔗 查看原文
- 15秒动画IP预告片制作全流程分享 — X:PixVerse (@PixVerse_) (21小时前) 摘要:我们制作了一个15秒的动画IP预告片--从角色设定到最终视频。认识一下MILO和BUMBLE:地下邮政骑手 转发+关注+回复=我们会私信发送工作流程和提示词 🔗 查看原文
- Cursor 团队发布《开发者习惯报告》 — X:邵猛 (@shao__meng) (23小时前) 摘要:报告显示,AI正深刻改变开发工作形态。开发者周均代码产出从约3.6K行增至8.6K行,更大规模的PR(千行以上)占比上升。AI智能体在单次会话中的工具调用数增加约30%,正在处理更复杂的任务。同时,被接受的AI代码在60分钟后的留存率从约76%提升至约81%,表明更多AI生成内容进入了实际代码库。这些趋势共同指向AI已从个人辅助工具,演进为推动开发向更大规模任务与自动化基础设施发展的核心力量。 🔗 查看原文
- 特斯拉 FSD 安全性宣称遭质疑 — IT之家(RSS) (23小时前) 摘要:特斯拉声称其全自动驾驶软件(FSD)安全性最高可达人类的10倍,但路透社调查发现此数据经不起推敲。参与训练FSD的员工表示该技术远未成熟,其安全演示高度依赖人工。统计方法被11位交通安全研究人员指出存在缺陷,例如与更广泛的联邦事故数据进行不恰当比较。相比之下,竞争对手Waymo采用了更严谨的统计方法。目前,特斯拉FSD仍需驾驶员主动监督,安全部署可能还需数年。 🔗 查看原文