机器之心 AI NEWS DIGEST
2026 06 14
STORY 01 / 9

Claude Fable 5四日惊魂

01-01
橙色背景上的 Fable 5 产品封面。
01-02
Claude 官方账号发布 Fable 5 的社交截图。
01-03
Claude 长文截图展示公司对 Fable 5 的解释。
01-04
社交媒体截图中有微软人物照片和 Fable 5 图块。
01-05
黑色声明卡片写明美国政府要求暂停 Fable 5 和 Mythos 5。
01-06
中英文声明说明公司正在移除所有用户的访问权限。
01-07
Fable 5 封面作为短命模型事件的收束画面。
STORY 02 / 9

Fable 5被特朗普禁止幕后黑手曝光?Karpathy可能也用不了了

02-01
Karpathy 肖像前方有 Anthropic 背景字样。
02-02
Polymarket Money 截图写到 Karpathy 可能被禁止访问最新模型。
02-03
Karpathy 肖像是这段法律身份讨论的视觉焦点。
02-04
Axios 标题写到 Amazon 和白宫如何结束 Anthropic 的 Fable。
02-05
华尔街日报标题提到 Amazon CEO 与美国官员通话。
02-06
Chubby 截图质疑亚马逊和 Anthropic 之间的利益关系。
02-07
Axios 页面截图显示这条内幕新闻的来源。
02-08
LinkedIn 截图显示 Yann LeCun 对 Fable 管制的批评。
02-09
华尔街日报截图把亚马逊和 Anthropic 管制联系起来。
STORY 03 / 9

DeepMind震撼报告:四条通往超级人工智能之路

03-01
机器人头像旁边有 AGI 指向 ASI 的箭头。
03-02
Google DeepMind 报告首页写着 From AGI to ASI。
03-03
报告截图逐项列出数字智能的速度、记忆和复制优势。
访谈画面中受访者坐在麦克风前,字幕讨论人脑和计算功率。
03-05
路径截图中列出 algorithmic paradigm shift 等四条路径。
播客画面切到两人圆桌访谈,字幕提到望远镜和未来边界。
03-07
报告截图列出 data wall、economic limit 等瓶颈项目。
03-08
封面中 AGI 到 ASI 的箭头强调过渡主题。
STORY 04 / 9

员工骂高管、限token使用量、扎克伯格承认犯错:Meta内部炸锅了

04-01
Meta 公司标识近景照片。
04-02
The Information 标题写到 Meta 因 AI 成本限制员工使用。
04-03
TechCrunch 标题提到 Meta dashboard 和 tokenmaxxing。
04-04
Andrew Bosworth 头像和 Meta CTO 身份显示在资料页上。
04-05
Meta 蓝色标识出现在浅色背景墙上。
04-06
报道截图显示 Meta 内部 AI 使用排行争议。
04-07
Reuters 截图中有 Meta AI 标识和相关报道摘要。
04-08
扎克伯格身穿西装与旁边人物同框。
04-09
Meta 标识近景作为公司层面议题收束。
STORY 05 / 9

AI圈懵了:一家巴西市政IT公司开源的大模型,杀进了全球第一梯队

05-01
蓝色发光立方体上写着 Rio 3.5 Open 397B。
05-02
Today’s News 截图中 Rio 模型新闻排在列表上方。
05-03
Hugging Face 页面显示 prefeitura-rio 的 Rio-3.5-Open-397B。
05-04
基准截图按 Agent、Coding、STEM 和 General Reasoning 分组。
05-05
Chubby 截图写到一个没听过的模型成为开源 SOTA。
05-06
社交截图中 Clem Delangue 讨论开源 AI 的两条路径。
05-07
论文截图标题为 SwiReasoning。
05-08
柱状图对比 Rio 3.5、Qwen、DeepSeek、Kimi 等模型。
05-09
基准截图列出 Terminal-Bench、DeepSWE 和 SWE-Bench 等项目。
05-10
基准截图列出 GPQA、HLE、MMLU-Pro 等通用任务。
STORY 06 / 9

CVPR 2026 | GaussianDWM:用3D高斯表示统一自动驾驶场景理解与多模态生成

06-01
白底封面写着 GaussianDWM 和驾驶世界模型副标题。
06-02
架构图左侧展示多视角图像进入 3D Gaussian 表示。
视频画面显示高斯特征散点和道路图像投影。
视频画面展示两张道路图和 grounding 文本结果。
06-05
图中左侧是规划和区域描述,中间是道路场景理解,右侧是热力图生成。
06-06
结果截图中 GaussianDWM 行被高亮,平均指标为 59.23。
06-07
结果截图显示 Ours 在多个 shift 设置下取得较低 FID 和 FVD。
视频画面是多行道路帧,对比左偏和右偏渲染结果。
视频画面按 Day、Night、Rainy、Turn Left 分行展示未来道路帧。
视频画面按 Cloudy、Rainy、Night 分行展示未来帧。
06-11
案例图展示道路图像、文本查询、回答和生成深度序列。
06-12
案例图展示道路问答、目标框和 RGB-D 生成结果。
STORY 07 / 9

PEFT方法评测不能只看下游分:通用能力损失也该被量化

07-01
机器人头像面向由数字构成的屏幕。
07-02
散点图横轴是 general performance,纵轴是 target performance。
07-03
示意图把 OFT 标为 preserves geometry,把 PiSSA 标为 distorts geometry。
07-04
四个小图展示 Full、OFT、LoRA、MiSS 在 Math Task 中的曲线。
STORY 08 / 9

图片越糊越危险?西湖大学发现多模态大模型「攻击舒适区」

08-01
蒙面人物图标旁边有图片符号和浅绿色背景。
08-02
图中清晰问题被拒绝,模糊问题触发了违规回答开头。
08-03
多张曲线图显示 OCR 准确率和 ASR 随 DPI 变化。
08-04
截图列出不同模型的 Text ASR、ACZ Image ASR 和 OCR Accuracy。
08-05
柱状图比较 standard 和 cognitive offloading 下的攻击成功率。
STORY 09 / 9

BudgetMem:给Runtime Agent Memory装上「预算路由器」,让记忆系统学会按需分配运行成本

09-01
绿色芯片封面上写着 MEM FOR ROBOTS。
09-02
架构图中 query 进入 Budget Router 和多个 memory module。
09-03
结果截图列出 LoCoMo、LongMemEval、HotpotQA 与 Avg 的 F1、Judge、Cost。
今天的头条是 Claude Fable 5 的四日惊魂。文章称,这个 6 月 9 日刚发布的最强公开模型,6 月 12 日就被美国政府要求下线。
发布当天,Fable 5 被描述为 Mythos 家族的公开版本,面向软件工程、知识工作和视觉任务开放,定价也更低。
但系统卡里隐藏的能力限制很快引发争议。文章称,模型遇到前沿 AI 开发请求时会降低回答质量,却不主动告知用户。
这被批评者称为暗中降质。Anthropic 后来承认没有取得正确平衡,并移除了相关隐性限制。
第二个问题来自企业治理。文章称,微软因数据留存政策临时禁止员工使用 Fable 5,担心提示词和输出被长期保留。
最关键的转折发生在 6 月 12 日。美国商务部要求 Fable 5 和 Mythos 5 对外国主体接受出口管制。
Anthropic 的回应是关闭访问,因为选择性合规会影响大量用户,甚至包括公司内部的外籍员工。
文章还强调,政府引用的越狱说法在 Anthropic 看来只是局部案例,并不足以召回已经商用部署的模型。
这件事的信号很明确:前沿模型发布不只要看能力榜单,还要同时面对安全透明度、企业数据政策和国家安全许可。
第二条继续看 Fable 5。文章称,导致禁令的直接导火索之一,可能来自 Anthropic 的重要合作方亚马逊。
禁令范围被写得很宽,美国境外主体和美国境内外国主体都被纳入,这也引出 Karpathy 是否受影响的讨论。
但文章也提醒,Karpathy 持有 EB-1 绿卡,按出口管制法很可能被归类为美国人,实际情况并不确定。
真正的内幕线索是亚马逊。文章引用 Axios 称,亚马逊向政府提交报告,声称研究人员越狱了 Fable 5。
华尔街日报的报道则把焦点放到 Amazon CEO 与美国官员的通话,称这些接触触发了对 Anthropic 模型的打击。
这里的微妙点在于,亚马逊既是 Anthropic 最大外部投资方之一,也是云计算和 AI 模型分发链条上的关键参与者。
文章称,至少还有五家公司也向政府表达了担忧,这让 Fable 5 的问题看起来像一次行业集体施压。
LeCun 的评论把争议推向另一个方向:如果安全恐慌本身导致外国雇员无法用模型,责任该如何分配。
对 Anthropic 来说,讽刺在于,这家公司因为安全品牌出名,最后却因为安全指控被投资方和政府一起推上风口。
第三条是 DeepMind 的 AGI 到 ASI 报告。它关心的不是 AGI 哪天到来,而是人类水平 AI 之后会不会继续跃迁。
报告把 ASI 定义得很高:不是超过某个天才,而是在几乎所有领域超过大量专家组成的协作集体。
文章先列出数字智能的天然优势:更快处理、更大记忆、可复制实例,以及比人类组织更高的通信带宽。
第一条路径是扩展算力。如果 AGI 实例可以被大量复制或加速运行,群体能力就可能迅速超过单个人类。
第二条路径是算法范式变化,例如持续学习、开放环境智能体和新的训练方式,可能突破现有大模型框架。
第三条路径是递归自我改进,也就是 AI 帮助改进 AI 研究本身,让模型、数据和工具迭代更快。
第四条路径是群体智能。大量专业化 AGI 实例可以并行分工,并用高带宽通信减少人类组织里的摩擦。
但报告也列出很多刹车:数据墙、芯片和能源、研究越来越难,以及现有神经网络范式可能碰到天花板。
最有意思的限制叫抽象壁垒。文章说,AI 如果只在人类已有框架里工作,可能还需要真正和物理世界互动。
所以这份报告的价值不是押注日期,而是画出 AGI 之后的地形:哪些路可能加速,哪些悬崖可能让它停下。
第四条看 Meta。文章说,几个月前公司还鼓励员工大量用 AI,现在却开始从 tokenmaxxing 转向 tokenminimizing。
The Information 看到的备忘录称,Meta 要实时追踪员工 AI 使用和支出,设置预算,并限制 token 花费。
原因很直接:照当前趋势,单是内部 AI 使用在 2026 年就可能花掉数十亿美元。
文章还提到,员工曾冲内部 Claudeonomics 排行榜,有人在 30 天消耗 60.2 万亿 token,后来升到 73.7 万亿。
CTO Bosworth 的态度是,只有 AI 真能提升生产力时才该用,token 使用量本身不能衡量影响力。
与此同时,Meta 希望减少对 Claude 等外部编码工具的依赖,转而加强自研编码助手 MetaCode。
更难处理的是员工角色变化。Applied AI 团队被要求生成谜题和编程题,用来支持模型训练,引发明显不满。
Reuters 还报道,已有员工反对监控鼠标点击和键盘操作并用于 AI 训练数据的项目。
扎克伯格也承认,公司在 AI 劳动力转型中已经犯错,未来还会继续调整组织安排。
Meta 的案例说明,企业 AI 的难点不只是让员工用起来,而是让成本、数据和工作方式都可持续。
第五条是一个很反常识的开源模型故事。文章称,里约热内卢市政府旗下 IT 公司发布了 Rio 3.5 Open 397B。
这个模型来自 IplanRIO,基于 Qwen 3.5 397B 后训练,却在多个公开基准中被文章描述为开源第一梯队。
核心规格是 397B 总参数、17B 激活参数、MoE 架构,以及大约一百万 token 的上下文窗口。
文章称它的强项覆盖智能体编程、数学、STEM、多语言和多模态,已经能和更知名的开源及闭源模型同台比较。
社交媒体上的震动也来自身份反差:不是传统巨头实验室,而是一家巴西市政 IT 公司突然杀进前排。
Hugging Face 的 Clem Delangue 把它解读成路线选择:闭源 API 集中权力,或者开源 AI 让更多机构参与。
技术上,文章特别提到 SwiReasoning,它根据置信度信号,在显式思维链和潜空间推理之间动态切换。
柱状图和基准截图显示,Rio 3.5 在 Terminal、SWE、HLE 和 GPQA 等项目上与 Qwen、DeepSeek、Kimi、GPT 并列比较。
不过,文章也没有完成第三方复测。真正要看的,是模型在实际推理成本、安全性和多语言任务中的稳定表现。
这条新闻的信号是,开源生态的上限正在抬高,前沿模型不一定只会从少数商业实验室里长出来。
第六条是今天的 dense story。GaussianDWM 想解决的问题,是让自动驾驶世界模型既能理解场景,也能生成未来画面。
它的核心选择是 3D Gaussian。每个高斯单元不仅有位置、尺度和外观,还绑定来自 CLIP 和 SAM 的语言语义。
然后,Gaussian Projector 和任务感知采样把这些 3D token 压缩成 LLM 能读的表示,主实验里每个场景采样 4096 个 token。
这样做的意义是,模型不只看平面图像,还能把目标、道路、障碍物和空间位置组织成可查询的 3D 场景。
生成端也不是单独开一条线。低层 RGB-D 条件负责纹理和几何,高层 world knowledge 负责语义和空间先验。
在 NuInteract 上,GaussianDWM 平均指标达到 59.23,高于 DriveMonkey 的 52.12,3D visual grounding mAP 达到 52.78。
在空间生成上,±1 米视角位移时 FID 和 FVD 是 8.36 和 44.50;±2 米时是 11.27 和 68.17。
视频演示里,模型可以从同一输入道路画面生成左偏和右偏视角,保持道路几何关系基本一致。
第三个视频看未来帧生成。日间、夜间、雨天和转弯场景都被放进同一组预测里。
第四个视频进一步覆盖 cloudy、rainy 和 night,说明模型尝试在不同天气和光照下维持时序一致。
第五个视频把时间拉长到 3 秒、5 秒和 10 秒预测,用来观察长程生成是否还能保持道路结构。
所以这篇工作的重点不是更会画图,而是把可生成、可定位、可问答的 3D 世界表示放在同一个自动驾驶模型里。
第七条是 PEFT-Arena。它问的问题很实用:微调把数学分数拉上去时,模型到底忘掉了多少通用能力。
这个基准把目标域性能和通用能力保留放在双轴图里,理想方法应该尽量靠近右上角。
文章称,几乎所有方法都有权衡。全量微调目标分高但更容易损失通用能力,OFT 往往更均衡。
机制解释来自几何分析。遗忘不只是激活移动了多少,而是原本的通用表征结构是否被扭曲。
论文还用插值路径分析发现,最终 checkpoint 未必是最优点,中间路径可能保留更多通用能力。
第八条是多模态安全。西湖大学团队发现,图片不是越糊越安全,而是存在一个攻击舒适区。
研究把有害文本渲染成不同清晰度图像。模型仍能读懂文字,但安全拒绝机制在某个中间区间明显变弱。
论文把它解释为视觉认知过载:模型先忙着辨认字符,安全审查被挤到后面。
以 Qwen3-VL 为例,文本 ASR 是 36.7%,ACZ 图像 ASR 升到 86.2%,但 OCR 准确率仍然很高。
缓解方案很朴素:先转写图片文字,再做安全评估,最后决定是否回答,把识别和审查拆开。
最后一条是 BudgetMem。它给 agent memory 加了一个预算路由器,让系统按 query 决定记忆处理该花多少钱。
它不是提前把历史固定压缩好,而是在问题到来时检索相关片段,再构建面向当前 query 的记忆。
每个模块都有 LOW、MID、HIGH 三档预算,路由器可以为过滤、实体、时间、主题和摘要步骤分别选档。
训练上,BudgetMem 把档位选择看成序列决策,用最终回答质量和记忆提取成本共同定义奖励。
实验显示,它能在 LoCoMo、LongMemEval 和 HotpotQA 上形成更可控的性能成本前沿,让记忆系统真正按需计算。
机器之心 AI News Digest

机器之心 · 2026.06.14 · 9 stories · 12:16

机器之心 AI News Digest

机器之心 2026.06.14 digest with 9 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

  1. 0:00 - 1:28
    01. Claude Fable 5四日惊魂 Source
    文章复盘了 Claude Fable 5 从 6 月 9 日发布到 6 月 12 日被美国政府出口管制要求下线的四天过程。
  2. 1:28 - 2:54
    02. Fable 5被特朗普禁止幕后黑手曝光?Karpathy可能也用不了了 Source
    文章聚焦 Fable 5 和 Mythos 5 被禁的幕后线索,称亚马逊向美国政府提交研究材料,声称其研究人员越狱了 Fable 5。
  3. 2:55 - 4:34
    03. DeepMind震撼报告:四条通往超级人工智能之路 Source
    文章介绍 Google DeepMind 研究者发布的《From AGI to ASI》报告,讨论人类水平 AGI 之后走向超级人工智能的可能路径。
  4. 4:34 - 6:05
    04. 员工骂高管、限token使用量、扎克伯格承认犯错:Meta内部炸锅了 Source
    文章报道 Meta 内部 AI 使用从鼓励员工大量使用,转向追踪、限额和预算控制。
  5. 6:06 - 7:47
    05. AI圈懵了:一家巴西市政IT公司开源的大模型,杀进了全球第一梯队 Source
    文章介绍 Rio 3.5 Open 397B,一个由里约热内卢市政府旗下市政 IT 公司 IplanRIO 开发并开源的前沿通用模型。
  6. 7:48 - 9:51
    06. CVPR 2026 | GaussianDWM:用3D高斯表示统一自动驾驶场景理解与多模态生成 Source
    文章介绍 CVPR 2026 工作 GaussianDWM,它用语言增强的 3D Gaussian 场景表示统一自动驾驶场景理解和多模态生成。
  7. 9:52 - 10:37
    07. PEFT方法评测不能只看下游分:通用能力损失也该被量化 Source
    文章介绍 PEFT-Arena,一个从稳定性和可塑性权衡角度评测参数高效微调方法的基准与分析框架。
  8. 10:38 - 11:25
    08. 图片越糊越危险?西湖大学发现多模态大模型「攻击舒适区」 Source
    文章介绍西湖大学 AGI Lab 的研究,发现有害文本被渲染成低清、模糊或带噪图像后,多模态大模型可能进入攻击舒适区。
  9. 11:25 - 12:16
    09. BudgetMem:给Runtime Agent Memory装上「预算路由器」,让记忆系统学会按需分配运行成本 Source
    文章介绍 BudgetMem,一个面向 runtime agent memory 的 query-aware budget-tier routing 框架。