STORY 01 / 8
STORY 02 / 8
STORY 03 / 8
STORY 06 / 8
STORY 07 / 8
STORY 08 / 8
今天的第一条,是 Google 团队把形式化数学证明做成了一个可迭代的智能体工作流。LEAP 不要求模型一次写出完美 Lean 证明,而是让它边规划、边验证、边修正。
文章说,过去通用模型在 Lean 中单发证明的通过率甚至不到百分之十,因此很多团队转向专用证明模型。LEAP 的判断是,问题不只在模型能力,也在缺少验证器交互。
它先生成非正式蓝图,把大目标拆成支持性引理,再用 AND-OR DAG 记录依赖关系。Lean 的失败反馈会回流到下一轮计划里。
最醒目的结果,是在 Lean-IMO-Bench 上把通用模型求解率拉到约百分之七十,并在 2025 年 Putnam 的十二道题上全部通过。
表中还显示,LEAP 在基础题集 overall 达到 83.3,在高级题集 overall 达到 56.7,明显高于多数对照方法。
这件事的意义在于,形式化数学并不只考语言模型背题,也考它能否在严格反馈中持续组织证明路线。
报道没有独立复现实验,所以结论仍要看后续验证。但它给出一个清晰信号:通用模型加上正确支架,可能比专用小模型路线更有弹性。
GLM-5.2 的发布让一个训练方法问题重新变热:GRPO 还够不够用。文章说,这个开源模型在长程强化学习阶段,悄悄转向了 critic 加 PPO 的路线。
报道称,GLM-5.2 是 744B 参数、40B 激活的 MoE 模型,MIT 协议开源,并支持 1M token 上下文。这个开放姿态本身就是它引发关注的第一层原因。
在长程任务评测里,文章引用的 FrontierSWE 数字是 74.4%,接近 Claude Opus 4.8 的 75.1%,也高于 GPT-5.5 的 72.6%。
但真正让训练圈讨论起来的,是它没有继续沿用 GRPO。GRPO 用同题多答案的组内平均奖励当基线,省掉价值网络,效率高,但反馈比较粗。
长程任务的问题在于,错误可能出现在很早的分支,也可能藏在很晚的子轨迹里。只靠整段答案比较,未必能告诉模型哪一步该改。
所以文章把 GLM-5.2 的变化解读为:价值网络回来了。token 级优势值虽然更贵,却可能更适合长短不一的推理轨迹。
这个判断也连接到 PPO 的第二波影响力。有人认为,足够通用、能随计算扩展的方法,最后会比结构更巧但边界更窄的方法走得远。
当然,GRPO 的变体还在继续出现。真正的结论不是某个缩写过时,而是长程强化学习正在重新权衡成本、稳定性和反馈粒度。
Sutton 和 Carmack 参与的新论文,把强化学习重新拉回真实世界。他们做的 Physical Atari,不是在模拟器里打游戏,而是让机器人真的去拨动摇杆。
论文的问题很直接:世界不会等智能体想完再行动。机器人面对的是连续时间、传感延迟、机械误差和不可暂停的环境。
这套系统由 Atari Devbox、摄像头、计算主机和 Robotroller 组成。机器人看屏幕、接收奖励信号,再通过真实摇杆完成动作。
Robotroller 没有改装游戏机电路,它像人一样操作 AtariCX40+ 摇杆。文章说采购部件约四百美元,定制件可用普通 3D 打印机完成。
团队让它在 Pong、Seaquest、Ms Pacman、Assault、Asterix 和 Kangaroo 六款游戏上学习,累计接近一百四十五小时。
结果显示,策略确实能在真实硬件上逐步提高分数。但更关键的是,换到另一台同图纸机器人时,表现会明显下降。
这种差异不是抽象问题。Pong 里只要摇杆响应慢一点点,球拍就会错过时机;同型号部件的微小公差,也足以改变策略效果。
继续在陌生身体上学习后,表现又会回升。这支持文章的核心判断:直接在目标身体上持续学习,是修复现实偏差的有效方式。
最后,系统约一百六十五毫秒的端到端延迟,说明硬件反应速度并没有完全拖垮任务。真正难的是策略、身体和现实环境之间的匹配。
GenShield 这篇 ICML 2026 工作,把 AI 图像取证从真假判断推进到诊断和修复。它不是只说一张图是真是假,而是解释异常,并尝试改正。
研究者构建了 GenShield-Set,一部分训练可解释检测,另一部分训练伪影修复,其中修复数据包含超过一万对高质量样本。
样例里,模型先描述局部结构错误,再生成 corrected image,最后判断是否还需要继续修复,形成多步 Visual CoT 闭环。
架构上,它同时保留 AI 图像检测专家和伪影修复专家,让检测线索和真实图像先验在训练中互相强化。
报道称,在结构、物理一致性和局部扭曲等指标上,GenShield 相比多个图像编辑基线取得更低残余伪影评分。
LED 这篇 ICML 2026 工作,处理的是大推理模型越训越自信、却越不愿探索的问题。pass@1 上去了,pass@n 的上限可能反而被压低。
研究者观察到,RL 后训练会把最后一层关键 token 的分布压得很尖,调高温度也不一定能采到新的正确分支。
LED 的思路是从中间层恢复探索。它把中间层早退概率纳入采样分布,让模型在潜在空间里保留更多分支可能。
案例图里,同一个 AIME 问题下,常规 CoT 走向固定路径,而 LED 在关键分支触发探索,给出另一条推理路线。
报道称,在五个模型和六个基准上,LED 平均提升 pass@1 0.61 个百分点、pass@16 1.03 个百分点。幅度不夸张,但成本也低。
Michael I. Jordan 这次访谈的锋芒很明确:他认为 AGI 只是一个公关词,而且正在误导年轻研究者。
他的批评不是说机器学习没有影响,而是说 AI 这个词经常把目标讲空:只说要模仿智能,却没有说要解决什么社会问题。
Jordan 强调,真正支撑工业系统的,是统计学、运筹学和机器学习长期积累出的工具,而不是突然回归的宏大 AI 标语。
他尤其不满硅谷式叙事:先假设放大模型会自然带来好事,再把商业模式和社会价值留给模糊承诺。
文章还把这场谈话连接到他的集体主义经济视角:AI 不是孤立模型,而是数据、激励、市场和集体收益如何设计的问题。
这也是为什么 Richard Sutton 会推荐这场访谈,称 Jordan 给出了有力而深思熟虑的 AI 视角。
对今天的 AI 讨论来说,这条消息的价值不在八卦,而在提醒我们:术语会塑造研究问题,也会塑造年轻人愿意追逐的方向。
如果只剩下 AGI 叙事,很多具体问题会被遮住。Jordan 要求回到可定义的价值、可验证的不确定性和可治理的数据经济。
Meta 这条消息不是模型参数,而是 AI 组织本身出了问题。文章说,重组之后,内部士气和管理信任都在承压。
导火索之一,是员工在内部直播中怒骂 AI 高管。随后,外媒报道把 Meta 新 AI 部门描述成一场内部混乱。
扎克伯格又提出七月举办全公司 AI 黑客松,想恢复团队氛围。但不少员工认为,裁员后工作量已经增加,没有时间也没有动力参加额外活动。
CTO Andrew Bosworth 随后承认,AI 重组执行得很糟。他说管理层过于急着推进战略,忽视了员工的价值感和发展路径。
补救方案包括改善沟通、限制经理直接管理人数、减少频繁换上级,并给员工更多 AI 辅导工具和职业发展支持。
但增加零食、差旅和团建预算,未必能解决核心矛盾。员工真正担心的是工作量、强制调岗、绩效压力和战略透明度。
这条新闻说明,大模型竞争不是只有技术曲线。组织信任一旦受损,再好的 AI 战略也会在执行层面变慢。
最后一条是 PPO 的反转故事。John Schulman 提到,这个后来影响 RLHF 和大模型训练的经典算法,当年曾被 NIPS 2017 拒稿。
PPO 原本只是想在保留 TRPO 稳定性的同时,降低实现复杂度,让强化学习训练更好调、更实用。
真正让它进入第二波热潮的,是大语言模型后训练。Schulman 说,PPO 在 LLM 时代的影响,包含一些原论文没有预料到的机制。
这个故事提醒我们,顶会评审看重新颖性和短期基线提升,但产业系统还会奖励稳定、可扩展、能真正跑起来的方法。