机器之心 AI NEWS DIGEST
2026 06 21
STORY 01 / 8

LEAP 用可迭代证明框架提升形式化数学求解

01-01
LEAP 形式化证明主题封面
01-02
LEAP 与多种形式化证明系统的求解率对比表
01-03
形式化证明智能体工作流主题图
01-04
LEAP 在数学证明基准上的结果摘要
STORY 02 / 8

GLM-5.2 让 GRPO 与 PPO 路线之争重新升温

02-01
GRPO 训练范式争论封面
02-02
GLM-5.2 开源发布社交截图
02-03
GLM-5.2 与闭源模型的长程任务评测对比
02-04
PPO 与 GRPO 的训练结构对比图
02-05
关于 critic 回归的社区讨论截图
02-06
长程任务中 value model 监督的讨论截图
02-07
PPO 与 GRPO 路线判断的社交截图
02-08
长程任务训练路线分歧的社区讨论
STORY 03 / 8

Physical Atari 把实时强化学习放到真实机器人上

03-01
Sutton 与 Carmack 参与 Physical Atari
03-02
Physical Atari 论文标题页
03-03
Physical Atari 系统架构图
03-04
Robotroller 控制器和机械部件
03-05
六款 Atari 游戏的实时学习奖励曲线
03-06
同一策略在不同机器人身体上的表现对比
03-07
Pong 与 Kangaroo 的 Atari 游戏画面
03-08
机器人换身体后的继续学习恢复曲线
03-09
Physical Atari 端到端响应时间测量
STORY 04 / 8

GenShield 将 AI 图像鉴伪与伪影修复合成闭环

04-01
GenShield 项目封面
04-02
GenShield-Set 数据构建流程
04-03
图像伪影诊断与修复样例
04-04
GenShield 模型架构与课程学习流程
04-05
GenShield 与图像编辑基线的评测结果
STORY 05 / 8

LED 用中间层分布恢复推理模型探索能力

05-01
Latent Exploration Decoding 主题封面
05-02
推理模型不同层的归一化熵曲线
05-03
LED 中间层概率聚合方法图
05-04
AIME 案例中的 CoT 与 LED 推理路径对比
05-05
LED 在多个推理基准上的 pass@1 和 pass@16 结果
STORY 06 / 8

Michael I. Jordan 批评 AGI 叙事伤害年轻研究者

Michael I. Jordan 在访谈中发言
06-02
Richard Sutton 推荐 Jordan 访谈的推文截图
06-03
Michael I. Jordan 访谈肖像
Jordan 继续在访谈中阐述 AI 经济视角
STORY 07 / 8

Meta AI 重组后的士气危机继续发酵

07-01
Meta 与 Zuckerberg 组织新闻封面
07-02
Wired 关于 Meta AI 部门混乱的报道截图
07-03
批评 Meta 裁员后黑客松的社交截图
07-04
Meta AI 重组争议的外媒页面
07-05
Meta 管理调整主题封面
07-06
员工质疑 Meta 黑客松文化的新闻截图
07-07
Meta AI 组织士气危机封面
STORY 08 / 8

PPO 曾被 NIPS 2017 拒稿,却在大模型时代再度走红

08-01
Schulman 提到 PPO 曾被 NIPS 2017 拒稿
08-02
Proximal Policy Optimization Algorithms 论文标题页
08-03
PPO 在 LLM 时代出现第二波影响的说明
08-04
Schulman 回应 PPO 当年拒稿原因的截图
今天的第一条,是 Google 团队把形式化数学证明做成了一个可迭代的智能体工作流。LEAP 不要求模型一次写出完美 Lean 证明,而是让它边规划、边验证、边修正。
文章说,过去通用模型在 Lean 中单发证明的通过率甚至不到百分之十,因此很多团队转向专用证明模型。LEAP 的判断是,问题不只在模型能力,也在缺少验证器交互。
它先生成非正式蓝图,把大目标拆成支持性引理,再用 AND-OR DAG 记录依赖关系。Lean 的失败反馈会回流到下一轮计划里。
最醒目的结果,是在 Lean-IMO-Bench 上把通用模型求解率拉到约百分之七十,并在 2025 年 Putnam 的十二道题上全部通过。
表中还显示,LEAP 在基础题集 overall 达到 83.3,在高级题集 overall 达到 56.7,明显高于多数对照方法。
这件事的意义在于,形式化数学并不只考语言模型背题,也考它能否在严格反馈中持续组织证明路线。
报道没有独立复现实验,所以结论仍要看后续验证。但它给出一个清晰信号:通用模型加上正确支架,可能比专用小模型路线更有弹性。
GLM-5.2 的发布让一个训练方法问题重新变热:GRPO 还够不够用。文章说,这个开源模型在长程强化学习阶段,悄悄转向了 critic 加 PPO 的路线。
报道称,GLM-5.2 是 744B 参数、40B 激活的 MoE 模型,MIT 协议开源,并支持 1M token 上下文。这个开放姿态本身就是它引发关注的第一层原因。
在长程任务评测里,文章引用的 FrontierSWE 数字是 74.4%,接近 Claude Opus 4.8 的 75.1%,也高于 GPT-5.5 的 72.6%。
但真正让训练圈讨论起来的,是它没有继续沿用 GRPO。GRPO 用同题多答案的组内平均奖励当基线,省掉价值网络,效率高,但反馈比较粗。
长程任务的问题在于,错误可能出现在很早的分支,也可能藏在很晚的子轨迹里。只靠整段答案比较,未必能告诉模型哪一步该改。
所以文章把 GLM-5.2 的变化解读为:价值网络回来了。token 级优势值虽然更贵,却可能更适合长短不一的推理轨迹。
这个判断也连接到 PPO 的第二波影响力。有人认为,足够通用、能随计算扩展的方法,最后会比结构更巧但边界更窄的方法走得远。
当然,GRPO 的变体还在继续出现。真正的结论不是某个缩写过时,而是长程强化学习正在重新权衡成本、稳定性和反馈粒度。
Sutton 和 Carmack 参与的新论文,把强化学习重新拉回真实世界。他们做的 Physical Atari,不是在模拟器里打游戏,而是让机器人真的去拨动摇杆。
论文的问题很直接:世界不会等智能体想完再行动。机器人面对的是连续时间、传感延迟、机械误差和不可暂停的环境。
这套系统由 Atari Devbox、摄像头、计算主机和 Robotroller 组成。机器人看屏幕、接收奖励信号,再通过真实摇杆完成动作。
Robotroller 没有改装游戏机电路,它像人一样操作 AtariCX40+ 摇杆。文章说采购部件约四百美元,定制件可用普通 3D 打印机完成。
团队让它在 Pong、Seaquest、Ms Pacman、Assault、Asterix 和 Kangaroo 六款游戏上学习,累计接近一百四十五小时。
结果显示,策略确实能在真实硬件上逐步提高分数。但更关键的是,换到另一台同图纸机器人时,表现会明显下降。
这种差异不是抽象问题。Pong 里只要摇杆响应慢一点点,球拍就会错过时机;同型号部件的微小公差,也足以改变策略效果。
继续在陌生身体上学习后,表现又会回升。这支持文章的核心判断:直接在目标身体上持续学习,是修复现实偏差的有效方式。
最后,系统约一百六十五毫秒的端到端延迟,说明硬件反应速度并没有完全拖垮任务。真正难的是策略、身体和现实环境之间的匹配。
GenShield 这篇 ICML 2026 工作,把 AI 图像取证从真假判断推进到诊断和修复。它不是只说一张图是真是假,而是解释异常,并尝试改正。
研究者构建了 GenShield-Set,一部分训练可解释检测,另一部分训练伪影修复,其中修复数据包含超过一万对高质量样本。
样例里,模型先描述局部结构错误,再生成 corrected image,最后判断是否还需要继续修复,形成多步 Visual CoT 闭环。
架构上,它同时保留 AI 图像检测专家和伪影修复专家,让检测线索和真实图像先验在训练中互相强化。
报道称,在结构、物理一致性和局部扭曲等指标上,GenShield 相比多个图像编辑基线取得更低残余伪影评分。
LED 这篇 ICML 2026 工作,处理的是大推理模型越训越自信、却越不愿探索的问题。pass@1 上去了,pass@n 的上限可能反而被压低。
研究者观察到,RL 后训练会把最后一层关键 token 的分布压得很尖,调高温度也不一定能采到新的正确分支。
LED 的思路是从中间层恢复探索。它把中间层早退概率纳入采样分布,让模型在潜在空间里保留更多分支可能。
案例图里,同一个 AIME 问题下,常规 CoT 走向固定路径,而 LED 在关键分支触发探索,给出另一条推理路线。
报道称,在五个模型和六个基准上,LED 平均提升 pass@1 0.61 个百分点、pass@16 1.03 个百分点。幅度不夸张,但成本也低。
Michael I. Jordan 这次访谈的锋芒很明确:他认为 AGI 只是一个公关词,而且正在误导年轻研究者。
他的批评不是说机器学习没有影响,而是说 AI 这个词经常把目标讲空:只说要模仿智能,却没有说要解决什么社会问题。
Jordan 强调,真正支撑工业系统的,是统计学、运筹学和机器学习长期积累出的工具,而不是突然回归的宏大 AI 标语。
他尤其不满硅谷式叙事:先假设放大模型会自然带来好事,再把商业模式和社会价值留给模糊承诺。
文章还把这场谈话连接到他的集体主义经济视角:AI 不是孤立模型,而是数据、激励、市场和集体收益如何设计的问题。
这也是为什么 Richard Sutton 会推荐这场访谈,称 Jordan 给出了有力而深思熟虑的 AI 视角。
对今天的 AI 讨论来说,这条消息的价值不在八卦,而在提醒我们:术语会塑造研究问题,也会塑造年轻人愿意追逐的方向。
如果只剩下 AGI 叙事,很多具体问题会被遮住。Jordan 要求回到可定义的价值、可验证的不确定性和可治理的数据经济。
Meta 这条消息不是模型参数,而是 AI 组织本身出了问题。文章说,重组之后,内部士气和管理信任都在承压。
导火索之一,是员工在内部直播中怒骂 AI 高管。随后,外媒报道把 Meta 新 AI 部门描述成一场内部混乱。
扎克伯格又提出七月举办全公司 AI 黑客松,想恢复团队氛围。但不少员工认为,裁员后工作量已经增加,没有时间也没有动力参加额外活动。
CTO Andrew Bosworth 随后承认,AI 重组执行得很糟。他说管理层过于急着推进战略,忽视了员工的价值感和发展路径。
补救方案包括改善沟通、限制经理直接管理人数、减少频繁换上级,并给员工更多 AI 辅导工具和职业发展支持。
但增加零食、差旅和团建预算,未必能解决核心矛盾。员工真正担心的是工作量、强制调岗、绩效压力和战略透明度。
这条新闻说明,大模型竞争不是只有技术曲线。组织信任一旦受损,再好的 AI 战略也会在执行层面变慢。
最后一条是 PPO 的反转故事。John Schulman 提到,这个后来影响 RLHF 和大模型训练的经典算法,当年曾被 NIPS 2017 拒稿。
PPO 原本只是想在保留 TRPO 稳定性的同时,降低实现复杂度,让强化学习训练更好调、更实用。
真正让它进入第二波热潮的,是大语言模型后训练。Schulman 说,PPO 在 LLM 时代的影响,包含一些原论文没有预料到的机制。
这个故事提醒我们,顶会评审看重新颖性和短期基线提升,但产业系统还会奖励稳定、可扩展、能真正跑起来的方法。
机器之心 AI News Digest

机器之心 · 2026.06.21 · 8 stories · 10:21

机器之心 AI News Digest

机器之心 2026.06.21 digest with 8 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

  1. 0:00 - 1:26
    01. LEAP 用可迭代证明框架提升形式化数学求解 Source
    文章介绍 Google Cloud AI Research 与 Google DeepMind 的 LEAP 框架,核心是让通用基础模型与 Lean 验证器进行结构化交互,而不是一次性生成完整证明。
  2. 1:27 - 3:11
    02. GLM-5.2 让 GRPO 与 PPO 路线之争重新升温 Source
    文章从 GLM-5.2 的开源发布切入,讨论它在长程强化学习阶段放弃 GRPO、转向 critic/PPO 式训练信号的技术含义。
  3. 3:11 - 4:57
    03. Physical Atari 把实时强化学习放到真实机器人上 Source
    文章介绍 Keen Technologies、阿尔伯塔大学和 Openmind 研究所提出的 Physical Atari 平台,用真实机械装置操作 Atari 控制器来测试实时强化学习。
  4. 4:57 - 5:56
    04. GenShield 将 AI 图像鉴伪与伪影修复合成闭环 Source
    文章介绍北京大学等机构提出的 GenShield,把 AI 生成图像检测、伪影解释和修复统一进一个自回归框架。
  5. 5:57 - 6:56
    05. LED 用中间层分布恢复推理模型探索能力 Source
    文章介绍 ICML 2026 工作 Latent Exploration Decoding,针对大推理模型后训练后采样多样性下降的问题。
  6. 6:57 - 8:19
    06. Michael I. Jordan 批评 AGI 叙事伤害年轻研究者 Source
    文章整理 Michael I. Jordan 在 MLST 访谈中的观点,主题包括 AGI 炒作、硅谷思维、机器学习传统、数据市场和不确定性量化。
  7. 8:20 - 9:35
    07. Meta AI 重组后的士气危机继续发酵 Source
    文章报道 Meta AI 部门重组后的内部不满,包括员工对 AI 高管爆粗、全公司 AI 黑客松遇冷,以及 CTO Andrew Bosworth 对重组沟通问题的承认。
  8. 9:35 - 10:21
    08. PPO 曾被 NIPS 2017 拒稿,却在大模型时代再度走红 Source
    文章回顾 John Schulman 提到 PPO 最初曾被 NIPS 2017 拒稿的往事,并把它与 RLHF、RLVR 时代的长期影响联系起来。