AI HOT 日报 · 2026年06月05日
🚀 模型发布/更新
- Nemotron 3.5 Content Safety:面向全球企业AI的可定制多模态安全 — Hugging Face:Blog(RSS) (5小时前) 摘要:Nemotron 3.5 Content Safety基于Gemma 3 4B IT,提供128K上下文窗口,支持用户提示、可选图像与助手响应的统一多模态安全评估。新增自定义策略执行,允许企业用自然语言定义专属安全规则;THINK模式可输出可审计的逐步推理痕迹。显式训练覆盖12种语言,并借助基座模型零样本泛化至约140种语言。输出提供低延迟二分类、带分类标签、THINK推理痕迹三种模式。安全分类遵循Aegis 2.0框架(13核心类别+10细分类别)。同步发布多模态、多语言安全数据集,可在8GB+ VRAM GPU上实时部署。 🔗 查看原文
- Google Magenta RealTime 2 (MRT2) 实时音乐模型发布 — X:Google AI for Developers (@googleaidevs) (5小时前) 摘要:Google AI for Developers 宣布推出开放权重的实时音乐模型 Magenta RealTime 2 (MRT2)。该模型可通过 MIDI 键盘、实时文本提示甚至手势进行演奏。MRT2 在 MacBook 上原生运行,延迟低于 200ms,提供开放权重、开源推理引擎以及配套应用和插件套件。 🔗 查看原文
- Nex-N2-Pro 发布:基于 Qwen3.5 的 397B MoE 推理模型,性能达 GPT-5.5 水平 — X:硅基流动 SiliconFlow (@SiliconFlowAI) (9小时前) 摘要:neolab 推出 Nex-N2-Pro,基于 Qwen3.5-397B-A17B,总参数 397B 的 MoE 推理模型,支持 262K 上下文与多模态(VLM),性能达到 GPT-5.5 和 Claude Opus 4.7 级别。模型可自动调节推理深度,减少 30-50% 思考 token 且无性能折损,在 Terminal Bench 2.1、GDPVal、SWE-Verified 上取得 SOTA。擅长智能体编码、深度搜索和工具使用,兼容 Claude Code、Cursor 等工具。硅基流动已提供 T+0 支持,前两周免费使用。 🔗 查看原文
- NVIDIA Nemotron 3 Ultra 为长时间运行的智能体带来更快、更高效的推理能力 — NVIDIA Technical Blog(开发者技术博客 · RSS) (10小时前) 摘要:NVIDIA 发布 Nemotron 3 Ultra 模型,专为长时间运行的 AI 智能体设计。该模型能够在多轮对话中保持上下文、调用工具、调用子智能体,并高效处理复杂工作流。随着多智能体协作导致模型 token 数量快速增长,Nemotron 3 Ultra 通过优化推理流程显著提升速度并降低计算成本,使长期运行的智能体任务更加可行。 🔗 查看原文
🛠️ 产品发布/更新
- NotebookLM 来源归属功能上线 — X:NotebookLM (@NotebookLM) (2小时前) _摘要:今天,我们推出又一项呼声很高的功能:来源归属!🥳
无需再猜测。现在你可以看到每个创作物背后所用的确切公式(提示词 + 来源)。想要调整?只需轻点"迭代",随心定制 💖_ 🔗 查看原文
- Gemini macOS 双击 Command 附加活动窗口 — X:Gemini (@GeminiApp) (2小时前) _摘要:使用适用于 macOS 的 Gemini 应用,获取针对屏幕内容的定制帮助。💻
只需同时按下两个 Command ⌘ 键,即可将当前活动窗口无缝附加到聊天中,无需手动截图或切换标签页。_ 🔗 查看原文
- Anthropic 开源 AI 驱动漏洞发现框架 — Hacker News 热门(buzzing.cc 中文翻译) (2小时前) 摘要:Anthropic 将其用于 AI 驱动漏洞发现的开源框架代码托管在 GitHub 上。该框架借助 AI 技术进行漏洞发现,旨在帮助识别软件中的安全缺陷。 🔗 查看原文
- OpenAI API 新增内容审核评分 — X:OpenAI Developers (@OpenAIDevs) (4小时前) _摘要:Moderation scores 现已在 Responses API 和 Completions API 中可用。
在与生成相同的请求流程中返回审核信号,然后由你的应用决定如何使用它们进行记录、路由、审核或拦截。
https://developers.openai.com/api/docs/guides/moderation_ 🔗 查看原文
- Codex 推出 iOS 应用构建插件 — X:OpenAI Developers (@OpenAIDevs) (5小时前) _摘要:更多 iOS 应用循环,现已集成至 Codex。
Build iOS Apps 插件让 Codex 可在应用内浏览器查看和测试你的 iOS 应用,打开 SwiftUI 预览,并无需离开 Codex 即可热重载编辑。_ 🔗 查看原文
- Replit Agent 联手 Shopify 快速建店 — X:Replit (@Replit) (6小时前) _摘要:我们与 Shopify 合作,让你从想法到上线商店只需几分钟
只需告诉 Replit Agent 你想卖什么。它会:
- 构建自定义店铺页面
- 创建你的 Shopify 商店
- 帮你添加商品
在 Shopify 中认领店铺,设置支付,即可开业。_ 🔗 查看原文
- NotebookLM 推出福尔摩斯游戏笔记本 — X:NotebookLM (@NotebookLM) (6小时前) _摘要:专业技巧:将笔记本游戏化
不要只是阅读笔记--去调查它们。我们全新的福尔摩斯笔记本将学习变成一款互动侦探游戏。推理事实,发现线索,证明即使是最复杂的问题也能迎刃而解。
➡️ https://goo.gle/Sherlock_ 🔗 查看原文
- Dreaming: ChatGPT 推出更强的记忆系统,更好记住用户偏好 — OpenAI:官网动态(RSS · 排除企业/客户案例) (15小时前) 摘要:ChatGPT 推出名为 Dreaming 的新记忆系统,能够更有效地记住用户偏好,并在跨对话场景中保持上下文的新鲜感和相关性,从而提升助手的个性化体验。 🔗 查看原文
- Meet OpenJarvis:一个本地优先的设备端个人AI智能体框架,支持工具、记忆与学习 — MarkTechPost(RSS) (17小时前) 摘要:Stanford 研究人员发布 OpenJarvis,一个完全在设备端运行推理、智能体、记忆与学习的开源框架。它将个人 AI 系统分解为五个可组合原语:Intelligence、Engine、Agents、Tools & Memory 和 Learning。该框架与最佳云端模型的性能差距在 3.2 points 以内,边际 API 成本降低约 800 倍。 🔗 查看原文
📈 行业动态
- Nemotron Parakeet ASR 印尼语准确率达 97.7% — X:NVIDIA (@nvidia) (2小时前) _摘要:当法律和监督依赖于转录内容时,70-80% 是不够的。
http://Rafiqspace.ai 通过微调 Nemotron Parakeet ASR 达到了 97.7% 的印尼语准确率(2.3% WER)-- 优于全球工具,同时每小时成本降低高达 90%。⚖️_ 🔗 查看原文
- 台积电难以跟上AI需求:"我们只能支持这么多" — The Verge:订阅版科技(RSS) (9小时前) 摘要:全球最大芯片制造商台积电表示,通过美国本土生产满足客户需求可能需要"非常长的时间",凸显AI需求带来的产能压力。 🔗 查看原文
- DeepSeek连续四周登顶Token份额榜 — X:OpenRouter (@OpenRouter) (9小时前) 摘要:DeepSeek 现已连续四周在我们平台的 token 份额排行榜上位居第一: https://openrouter.ai/rankings 🔗 查看原文
- 微软AI负责人:Anthropic模型太贵,正自研更便宜的替代模型 — Bloomberg:Technology(RSS) (12小时前) 摘要:微软AI部门负责人表示,Anthropic推出的模型成本过高,公司目前正在内部研发更廉价的替代模型,以降低成本。 🔗 查看原文
- Cloudflare Radar:机器人流量首次超过人类占比57.5% — X:小互 (@xiaohu) (21小时前) 摘要:Cloudflare Radar 实时统计显示,过去一周(5月28日至6月4日)全球所有 HTML 网页请求流量中,57.5% 来自机器人(爬虫、AI 抓取、自动化脚本),仅42.5%来自真人浏览器,机器人流量首次超过人类。按所有 HTTP 流量返回内容分类,JSON(API 机器通信)占33.1%居首,HTML 仅12%。互联网流量主体已从人类浏览网页转向机器间通信和机器人抓取。 🔗 查看原文
- 联合国报告:2030年AI数据中心水电消耗将翻倍 — IT之家(RSS) (23小时前) 摘要:联合国大学水、环境与健康研究所报告指出,受AI需求驱动,去年全球数据中心耗电448太瓦时(AI占五分之一),耗水4.5万亿升,碳排放1.89亿吨。预计到2030年,年耗电量将翻倍至945太瓦时(AI占40%),耗水增至9.3万亿升,碳排放升至3.99亿吨,占地面积从6900平方公里扩展至14500平方公里。报告警告若忽视环境成本,AI落地还将加剧土地紧张与电子废弃物问题。 🔗 查看原文
🔬 论文研究
- Google Research 发布被动心率监测系统 PHRM — Google Research:Blog(网页) (3小时前) 摘要:Google Research 开发了一种被动心率监测系统(PHRM),利用智能手机前置摄像头在日常使用中(人脸解锁后数秒内)捕捉面部视频,通过深度学习估算心率,平均绝对百分比误差(MAPE)低于10%(对比心电图金标准),满足各肤色人群的行业精度标准。系统将全天心率测量整合为每日静息心率(RHR),平均绝对误差(MAE)低于5 bpm(对比可穿戴设备)。研究同时发布了迄今最大规模的公开智能手机视频数据集及预训练模型PHRM-mini,合格研究人员可申请访问。 🔗 查看原文
- EVA-Bench Data 2.0 发布:覆盖三大领域、121 个工具、213 个场景 — Hugging Face:Blog(RSS) (11小时前)
摘要:EVA-Bench Data 2.0 将评估范围从单一企业领域扩展至航空公司客户服务管理(CSM)、企业 IT 服务管理(ITSM)和医疗 HR 服务交付(HRSD)三个领域,共涵盖 121 个工具、213 个场景,场景数较原始版本增长约 4 倍。每个场景均经 OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6 验证可解性。数据集遵循语音优先、真实性、多样性、认证流程和可复现性五项设计原则,包含单意图、多意图(最多 4 个意图)和对抗性呼叫类型。所有三个数据集已开源,可通过
load_dataset从 Hugging Face 直接下载。后续将推出多语言扩展。 🔗 查看原文 - Nemotron 预训练的任务种子合成问答生成 — Hugging Face:Blog(RSS) (12小时前) 摘要:在 Nemotron-3 Nano 模型的 100B token 续训练实验中,任务种子合成数据生成(Task-Seeded SDG)使 MMLU-Pro 提升 1.8 分,平均代码提升 1.9 分,常识理解提升 1.6 分,GPQA 提升 11.1 分,数学成绩保持稳定。该流程利用 lm-eval-harness 中约 70 个公开任务(约 700 子任务)的训练集作为种子,生成新示例并补充推理和上下文,经过格式校验、去重和答案验证后得到精选合成数据集,用于 Nemotron Ultra 和 Super 训练。 🔗 查看原文
- NVIDIA PPISP:补偿光度变化提升3D重建 — X:NVIDIA AI (@NVIDIAAI) (21小时前) _摘要:辐射场的质量取决于其背后的图像。
PPISP 可帮助补偿不同拍摄之间的光度变化,使 3D 重建在光照和相机设置不完全一致时更加鲁棒。
🔗 项目:https://nvda.ws/43JeJpk_ 🔗 查看原文
💡 技巧与观点
- 共存与协同智能的终结 — Ethan Mollick:One Useful Thing(RSS) (2小时前) 摘要:Ethan Mollick 在 One Useful Thing 博客中,以"共存与协同智能的终结"为题,并附带介绍了如何向 AI 推销一本书。 🔗 查看原文
- Boson AI 与 LMSYS 发布基于 SGLang-Omni 的 Higgs Audio v3 TTS 端到端服务 — LMSYS:Blog(Chatbot Arena 团队) (7小时前) 摘要:Boson AI 与 LMSYS 联合推出基于 SGLang-Omni 推理框架的 Higgs Audio v3 TTS 端到端服务。该模型约 4B 参数,基于 Qwen3-4B 骨干,支持 100 种语言(内部评测覆盖 111 种),在 Seed-TTS、CV3、MiniMax-Multilingual 及 Higgs-Multilingual 零样本语音克隆任务中达到单字级 WER/CER。开发者可通过文本内控制标签实时调整情感(20+种)、风格、韵律(语速/音高/停顿)及音效。模型支持流式合成,文本未完整时即可开始生成语音并保持一致性。SGLang-Omni 专为多阶段生成模型设计,统一调度 AR 解码与轻量计算,实现低延迟推理。 🔗 查看原文
- Alex Imas 和 Phil Trammell:AGI 后什么仍然稀缺? — Dwarkesh Patel:Podcast & Blog(RSS) (7小时前) 摘要:经济学家 Alex Imas 和 Phil Trammell 指出,AGI 时代机器人数量可以快速复制增长,但人类独特技能(以芭蕾舞演员为例)的数量保持不变,揭示了即使技术大幅进步,某些稀缺资源仍不可替代。 🔗 查看原文
- Nemotron 3.5 ASR:为你的语言、领域或口音进行微调 — Hugging Face:Blog(RSS) (11小时前) 摘要:Nemotron 3.5 ASR 是一个 600M 参数的多语言流式语音识别模型,单个检查点覆盖 40 种语言-地区(含英、西、德、法、意、日、韩、中、阿拉伯等)。采用 Cache-Aware FastConformer 编码器与 RNNT 解码器,缓存内部状态避免重复计算,实现低延迟流式转录且不损失精度。模型原生输出带标点和大写的生产级文本,无需后处理。支持指定语言(target_lang=es-ES)或自动语言检测(target_lang=auto)。通过注意力上下文大小(att_context_size)可在推理时直接调节延迟-准确率权衡,范围从 80ms 到 1.12s,无需重新训练。模型以 NeMo 检查点形式发布,可用于微调以适配特定语言、领域或口音。 🔗 查看原文
- OpenAI称AI递归自我改进迹象初现 — X:Kim (@kimmonismus) (11小时前) _摘要:OpenAI刚刚写道:"我们也看到了当今系统中递归自我改进(RSI)的早期迹象:AI开发本身正被AI加速。
我们预计这将加剧开发者与国家之间的竞争压力,并带来现有机构无法应对的治理挑战。
随着RSI的出现,社会将需要找到塑造AI发展轨迹的方法,确保其服务于人类利益。"
气氛变了,有事正在发生。_ 🔗 查看原文
- OpenRouter 翻遍 11 款 LLM 找最快的决策模型:Claude vs. Grok 领衔 — OpenRouter:Announcements(RSS) (12小时前) 摘要:OpenRouter 用总价 482 美元的推理花费,让 11 款大语言模型在 30 轮实时决策的"大逃杀"挑战中正面竞争。实验结果表明,传统的静态 benchmark 排名无法反映模型在需要即时反应的智能体任务(如自主控制机器人)中的真实表现,Claude 和 Grok 系列模型在决策速度与任务成功率上表现突出,而多项高分模型的实时调度能力未达预期。 🔗 查看原文