STORY 01 / 8

LEAP 用可迭代证明框架提升形式化数学求解

LEAP 形式化证明主题封面

LEAP 与多种形式化证明系统的求解率对比表

形式化证明智能体工作流主题图

LEAP 在数学证明基准上的结果摘要

STORY 02 / 8

GLM-5.2 让 GRPO 与 PPO 路线之争重新升温

GRPO 训练范式争论封面

GLM-5.2 开源发布社交截图

GLM-5.2 与闭源模型的长程任务评测对比

PPO 与 GRPO 的训练结构对比图

关于 critic 回归的社区讨论截图

长程任务中 value model 监督的讨论截图

PPO 与 GRPO 路线判断的社交截图

长程任务训练路线分歧的社区讨论

STORY 03 / 8

Physical Atari 把实时强化学习放到真实机器人上

Sutton 与 Carmack 参与 Physical Atari

Physical Atari 论文标题页

Physical Atari 系统架构图

Robotroller 控制器和机械部件

六款 Atari 游戏的实时学习奖励曲线

同一策略在不同机器人身体上的表现对比

Pong 与 Kangaroo 的 Atari 游戏画面

机器人换身体后的继续学习恢复曲线

Physical Atari 端到端响应时间测量

STORY 04 / 8

GenShield 将 AI 图像鉴伪与伪影修复合成闭环

GenShield 项目封面

GenShield-Set 数据构建流程

图像伪影诊断与修复样例

GenShield 模型架构与课程学习流程

GenShield 与图像编辑基线的评测结果

STORY 05 / 8

LED 用中间层分布恢复推理模型探索能力

Latent Exploration Decoding 主题封面

推理模型不同层的归一化熵曲线

LED 中间层概率聚合方法图

AIME 案例中的 CoT 与 LED 推理路径对比

LED 在多个推理基准上的 pass@1 和 pass@16 结果

STORY 06 / 8

Michael I. Jordan 批评 AGI 叙事伤害年轻研究者

Michael I. Jordan 在访谈中发言

Richard Sutton 推荐 Jordan 访谈的推文截图

Michael I. Jordan 访谈肖像

Jordan 继续在访谈中阐述 AI 经济视角

STORY 07 / 8

Meta AI 重组后的士气危机继续发酵

Meta 与 Zuckerberg 组织新闻封面

Wired 关于 Meta AI 部门混乱的报道截图

批评 Meta 裁员后黑客松的社交截图

Meta AI 重组争议的外媒页面

Meta 管理调整主题封面

员工质疑 Meta 黑客松文化的新闻截图

Meta AI 组织士气危机封面

STORY 08 / 8

PPO 曾被 NIPS 2017 拒稿，却在大模型时代再度走红

Schulman 提到 PPO 曾被 NIPS 2017 拒稿

Proximal Policy Optimization Algorithms 论文标题页

PPO 在 LLM 时代出现第二波影响的说明

Schulman 回应 PPO 当年拒稿原因的截图

今天的第一条，是 Google 团队把形式化数学证明做成了一个可迭代的智能体工作流。LEAP 不要求模型一次写出完美 Lean 证明，而是让它边规划、边验证、边修正。

文章说，过去通用模型在 Lean 中单发证明的通过率甚至不到百分之十，因此很多团队转向专用证明模型。LEAP 的判断是，问题不只在模型能力，也在缺少验证器交互。

它先生成非正式蓝图，把大目标拆成支持性引理，再用 AND-OR DAG 记录依赖关系。Lean 的失败反馈会回流到下一轮计划里。

最醒目的结果，是在 Lean-IMO-Bench 上把通用模型求解率拉到约百分之七十，并在 2025 年 Putnam 的十二道题上全部通过。

表中还显示，LEAP 在基础题集 overall 达到 83.3，在高级题集 overall 达到 56.7，明显高于多数对照方法。

这件事的意义在于，形式化数学并不只考语言模型背题，也考它能否在严格反馈中持续组织证明路线。

报道没有独立复现实验，所以结论仍要看后续验证。但它给出一个清晰信号：通用模型加上正确支架，可能比专用小模型路线更有弹性。

GLM-5.2 的发布让一个训练方法问题重新变热：GRPO 还够不够用。文章说，这个开源模型在长程强化学习阶段，悄悄转向了 critic 加 PPO 的路线。

报道称，GLM-5.2 是 744B 参数、40B 激活的 MoE 模型，MIT 协议开源，并支持 1M token 上下文。这个开放姿态本身就是它引发关注的第一层原因。

在长程任务评测里，文章引用的 FrontierSWE 数字是 74.4%，接近 Claude Opus 4.8 的 75.1%，也高于 GPT-5.5 的 72.6%。

但真正让训练圈讨论起来的，是它没有继续沿用 GRPO。GRPO 用同题多答案的组内平均奖励当基线，省掉价值网络，效率高，但反馈比较粗。

长程任务的问题在于，错误可能出现在很早的分支，也可能藏在很晚的子轨迹里。只靠整段答案比较，未必能告诉模型哪一步该改。

所以文章把 GLM-5.2 的变化解读为：价值网络回来了。token 级优势值虽然更贵，却可能更适合长短不一的推理轨迹。

这个判断也连接到 PPO 的第二波影响力。有人认为，足够通用、能随计算扩展的方法，最后会比结构更巧但边界更窄的方法走得远。

当然，GRPO 的变体还在继续出现。真正的结论不是某个缩写过时，而是长程强化学习正在重新权衡成本、稳定性和反馈粒度。

Sutton 和 Carmack 参与的新论文，把强化学习重新拉回真实世界。他们做的 Physical Atari，不是在模拟器里打游戏，而是让机器人真的去拨动摇杆。

论文的问题很直接：世界不会等智能体想完再行动。机器人面对的是连续时间、传感延迟、机械误差和不可暂停的环境。

这套系统由 Atari Devbox、摄像头、计算主机和 Robotroller 组成。机器人看屏幕、接收奖励信号，再通过真实摇杆完成动作。

Robotroller 没有改装游戏机电路，它像人一样操作 AtariCX40+ 摇杆。文章说采购部件约四百美元，定制件可用普通 3D 打印机完成。

团队让它在 Pong、Seaquest、Ms Pacman、Assault、Asterix 和 Kangaroo 六款游戏上学习，累计接近一百四十五小时。

结果显示，策略确实能在真实硬件上逐步提高分数。但更关键的是，换到另一台同图纸机器人时，表现会明显下降。

这种差异不是抽象问题。Pong 里只要摇杆响应慢一点点，球拍就会错过时机；同型号部件的微小公差，也足以改变策略效果。

继续在陌生身体上学习后，表现又会回升。这支持文章的核心判断：直接在目标身体上持续学习，是修复现实偏差的有效方式。

最后，系统约一百六十五毫秒的端到端延迟，说明硬件反应速度并没有完全拖垮任务。真正难的是策略、身体和现实环境之间的匹配。

GenShield 这篇 ICML 2026 工作，把 AI 图像取证从真假判断推进到诊断和修复。它不是只说一张图是真是假，而是解释异常，并尝试改正。

研究者构建了 GenShield-Set，一部分训练可解释检测，另一部分训练伪影修复，其中修复数据包含超过一万对高质量样本。

样例里，模型先描述局部结构错误，再生成 corrected image，最后判断是否还需要继续修复，形成多步 Visual CoT 闭环。

架构上，它同时保留 AI 图像检测专家和伪影修复专家，让检测线索和真实图像先验在训练中互相强化。

报道称，在结构、物理一致性和局部扭曲等指标上，GenShield 相比多个图像编辑基线取得更低残余伪影评分。

LED 这篇 ICML 2026 工作，处理的是大推理模型越训越自信、却越不愿探索的问题。pass@1 上去了，pass@n 的上限可能反而被压低。

研究者观察到，RL 后训练会把最后一层关键 token 的分布压得很尖，调高温度也不一定能采到新的正确分支。

LED 的思路是从中间层恢复探索。它把中间层早退概率纳入采样分布，让模型在潜在空间里保留更多分支可能。

案例图里，同一个 AIME 问题下，常规 CoT 走向固定路径，而 LED 在关键分支触发探索，给出另一条推理路线。

报道称，在五个模型和六个基准上，LED 平均提升 pass@1 0.61 个百分点、pass@16 1.03 个百分点。幅度不夸张，但成本也低。

Michael I. Jordan 这次访谈的锋芒很明确：他认为 AGI 只是一个公关词，而且正在误导年轻研究者。

他的批评不是说机器学习没有影响，而是说 AI 这个词经常把目标讲空：只说要模仿智能，却没有说要解决什么社会问题。

Jordan 强调，真正支撑工业系统的，是统计学、运筹学和机器学习长期积累出的工具，而不是突然回归的宏大 AI 标语。

他尤其不满硅谷式叙事：先假设放大模型会自然带来好事，再把商业模式和社会价值留给模糊承诺。

文章还把这场谈话连接到他的集体主义经济视角：AI 不是孤立模型，而是数据、激励、市场和集体收益如何设计的问题。

这也是为什么 Richard Sutton 会推荐这场访谈，称 Jordan 给出了有力而深思熟虑的 AI 视角。

对今天的 AI 讨论来说，这条消息的价值不在八卦，而在提醒我们：术语会塑造研究问题，也会塑造年轻人愿意追逐的方向。

如果只剩下 AGI 叙事，很多具体问题会被遮住。Jordan 要求回到可定义的价值、可验证的不确定性和可治理的数据经济。

Meta 这条消息不是模型参数，而是 AI 组织本身出了问题。文章说，重组之后，内部士气和管理信任都在承压。

导火索之一，是员工在内部直播中怒骂 AI 高管。随后，外媒报道把 Meta 新 AI 部门描述成一场内部混乱。

扎克伯格又提出七月举办全公司 AI 黑客松，想恢复团队氛围。但不少员工认为，裁员后工作量已经增加，没有时间也没有动力参加额外活动。

CTO Andrew Bosworth 随后承认，AI 重组执行得很糟。他说管理层过于急着推进战略，忽视了员工的价值感和发展路径。

补救方案包括改善沟通、限制经理直接管理人数、减少频繁换上级，并给员工更多 AI 辅导工具和职业发展支持。

但增加零食、差旅和团建预算，未必能解决核心矛盾。员工真正担心的是工作量、强制调岗、绩效压力和战略透明度。

这条新闻说明，大模型竞争不是只有技术曲线。组织信任一旦受损，再好的 AI 战略也会在执行层面变慢。

最后一条是 PPO 的反转故事。John Schulman 提到，这个后来影响 RLHF 和大模型训练的经典算法，当年曾被 NIPS 2017 拒稿。

PPO 原本只是想在保留 TRPO 稳定性的同时，降低实现复杂度，让强化学习训练更好调、更实用。

真正让它进入第二波热潮的，是大语言模型后训练。Schulman 说，PPO 在 LLM 时代的影响，包含一些原论文没有预料到的机制。

这个故事提醒我们，顶会评审看重新颖性和短期基线提升，但产业系统还会奖励稳定、可扩展、能真正跑起来的方法。

机器之心 · 2026.06.21 · 8 stories · 10:21

机器之心 AI News Digest

机器之心 2026.06.21 digest with 8 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

0:00 - 1:26

01. LEAP 用可迭代证明框架提升形式化数学求解 Source
文章介绍 Google Cloud AI Research 与 Google DeepMind 的 LEAP 框架，核心是让通用基础模型与 Lean 验证器进行结构化交互，而不是一次性生成完整证明。
1:27 - 3:11

02. GLM-5.2 让 GRPO 与 PPO 路线之争重新升温 Source
文章从 GLM-5.2 的开源发布切入，讨论它在长程强化学习阶段放弃 GRPO、转向 critic/PPO 式训练信号的技术含义。
3:11 - 4:57

03. Physical Atari 把实时强化学习放到真实机器人上 Source
文章介绍 Keen Technologies、阿尔伯塔大学和 Openmind 研究所提出的 Physical Atari 平台，用真实机械装置操作 Atari 控制器来测试实时强化学习。
4:57 - 5:56

04. GenShield 将 AI 图像鉴伪与伪影修复合成闭环 Source
文章介绍北京大学等机构提出的 GenShield，把 AI 生成图像检测、伪影解释和修复统一进一个自回归框架。
5:57 - 6:56

05. LED 用中间层分布恢复推理模型探索能力 Source
文章介绍 ICML 2026 工作 Latent Exploration Decoding，针对大推理模型后训练后采样多样性下降的问题。
6:57 - 8:19

06. Michael I. Jordan 批评 AGI 叙事伤害年轻研究者 Source
文章整理 Michael I. Jordan 在 MLST 访谈中的观点，主题包括 AGI 炒作、硅谷思维、机器学习传统、数据市场和不确定性量化。
8:20 - 9:35

07. Meta AI 重组后的士气危机继续发酵 Source
文章报道 Meta AI 部门重组后的内部不满，包括员工对 AI 高管爆粗、全公司 AI 黑客松遇冷，以及 CTO Andrew Bosworth 对重组沟通问题的承认。
9:35 - 10:21

08. PPO 曾被 NIPS 2017 拒稿，却在大模型时代再度走红 Source
文章回顾 John Schulman 提到 PPO 最初曾被 NIPS 2017 拒稿的往事，并把它与 RLHF、RLVR 时代的长期影响联系起来。