机器之心 AI NEWS DIGEST
2026 06 20
STORY 01 / 7

快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了

01-01
论文标题页显示 GoLongRL 的题名、作者和机构。
01-02
任务类型表列出 9 类长上下文任务及对应奖励函数。
01-03
UMAP 散点图展示不同任务类型训练数据的分布。
01-04
四阶段 pipeline 图展示源语料收集、任务过滤、样本构造和迭代精化。
01-05
多模型柱状图比较 GoLongRL 与其他长上下文模型。
01-06
30B 主实验表显示 GoLongRL-30B-A3B 平均分 69.8。
STORY 02 / 7

AI接管数字世界!华为Claw-Anything:面向跨设备、跨时间、跨服务的Claw评测与数据引擎

02-01
封面图显示 Claw-Anything 连接手机、电脑和多个应用图标。
02-02
示意图分三栏展示长程事件流、多服务和跨设备任务。
02-03
基准表列出服务数量、上下文长度、任务数量和训练环境规模。
02-04
概览图展示个人助理 Agent 工作流和不同模型表现。
02-05
基准表显示 Claw-Anything 的任务规模明显高于短程单服务基准。
02-06
数据构造 pipeline 图展示数字环境、事件流和验证任务生成流程。
STORY 03 / 7

CameraSquad:精准运镜,多视角一致——视频世界模型的空间智能新范式

03-01
封面图展示同一人物在 CameraSquad 输出中的视角对比。
03-02
多轨迹生成示例展示输入视频与两条目标相机轨迹输出。
视频对比 CameraSquad、ReCamMaster、Gen3C 和 TrajectoryCrafter 的人物视角生成结果。
视频展示多人动作场景中多条相机轨迹的并行生成对比。
03-05
框架图展示 PRoPE 相机注意力、内容注意力和双模式跨视角注意力。
03-06
点云反投影图展示多视角生成视频融合后的动态三维点云。
03-07
更多定性对比图展示人体和场景视频中的多轨迹一致结果。
STORY 04 / 7

沿着何恺明团队「漂移模型」再走一步:奖励只需排名,单步文生图偏好优化提速3.51倍

04-01
论文标题页显示 Drifting Preference Optimization for One-Step Generative Models。
04-02
封面图展示三只杯子和多只羊的文生图样例。
04-03
方法概览图展示高分和低分样本如何形成偏好漂移。
04-04
算法伪代码图列出 DrPO 在线训练步骤和 drift radii。
04-05
训练效率图比较 DRaFT 和 DrPO 的更新时间、加速比和 backward 成本。
04-06
SDXL-Turbo 定量结果表比较 DrPO 与 DRaFT、DPO、PSO、GRPO 等方法。
04-07
红蓝条形图展示 Qwen3-VL 对 DrPO 和对照方法的偏好比例。
04-08
定性对比图展示仓鼠、雪中犬、玩具汽车和车厢等生成样例。
04-09
定量结果表展示单步文生图偏好优化方法之间的指标差异。
04-10
离线 DrPO 曲线显示 PickScore 随训练步数变化。
STORY 05 / 7

哈?改个URL就行!alphaXiv甩出论文复现神器,单卡也能跑

05-01
alphaXiv 官方 X 帖介绍 autoresearch for arXiv papers。
GIF 展示 arXiv 页面右侧出现 alphaXiv 面板。
视频展示从论文页面进入 autoarxiv 任务环境。
视频展示智能体分析仓库、依赖和实验配置。
视频展示智能体修改脚本并生成最小化复现结果。
05-06
autoarxiv 任务界面提示确认论文对应代码仓库。
05-07
任务界面显示正在导入 tensorflow/tensorflow 并配置运行环境。
STORY 06 / 7

诺奖得主出走:AlphaFold核心缔造者告别谷歌,投奔Anthropic

06-01
John Jumper 公开演讲照片。
06-02
John Jumper X 帖截图,宣布离开 Google DeepMind 并加入 Anthropic。
06-03
Demis Hassabis 转发回复,感谢 Jumper 在 AlphaFold 上的合作。
06-04
长文截图讨论 DeepMind 模型竞争和更多人才流动担忧。
06-05
Jumper 公告截图显示他将加入 Anthropic。
STORY 07 / 7

谷歌:我手握最多诺奖得主,为啥就留不住他们?

07-01
谷歌主题封面图使用橙黄色表情图表达尴尬处境。
07-02
X 帖截图称 Noam 离开让 Gemini 未来不确定。
07-03
新闻标题截图写有研究者因 big company-itis 离开谷歌。
07-04
X 帖截图列出 Gemini、AI Studio、Workspace、Spark、Jules、Antigravity 等入口。
07-05
截图讨论谷歌为什么有两个相互竞争的 coding agent。
07-06
X 帖截图解释谷歌内部激励偏向新项目而非维护既有产品。
07-07
X 帖截图列出 Anthropic 近 18 个月招揽的高密度技术人才。
07-08
中文长文截图讨论谷歌算力、组织和人才流动争议。
快手这次开源的是 GoLongRL,一套面向长上下文强化学习后训练的数据、算法和代码组合。
核心不是把检索题做得更难,而是把长上下文能力拆成 9 类任务,并让每类任务使用匹配语义的奖励。
这套数据共有 22,965 个样本,既改写开源长文本数据,也在真实图书、论文和报告上生成问答。
构造流程分四步:先收集源语料,再分配任务,随后生成和过滤样本,最后根据基准诊断持续补数据。
算法上,TMN-Reweight 把跨任务奖励尺度对齐和 prompt 难度重加权拆开,避免某些任务梯度主导训练。
原文称,GoLongRL-30B-A3B 的长上下文平均分达到 69.8,超过多款更大的旗舰模型。
华为的 Claw-Anything 想评测的是一种更难的 AI 助理:它要长期看见用户的整个数字世界。
这个基准把任务放进长程历史、多服务和跨设备三维环境,而不是只给模型一封干净邮件。
它包含 200 个验证任务和 2000 个训练环境,单个任务平均要跨 10.1 个服务、约 191.7k 字上下文。
原文给出的例子是婚礼策划师,要综合日历、邮件、财务和联系人,同时不能擅自替用户发邮件。
最强模型在这里也并不轻松:文章称 GPT-5.5 的 pass@1 只有 34.5%。
它同时是一套数据工厂,自动生成数字人生、事件流和验证器,用来训练更可靠的常驻助理。
CameraSquad 解决的是视频世界模型里的一个老问题:换视角以后,同一个人和同一个场景不能变样。
它给定一段输入视频和多组目标相机参数,一次性并行生成多条空间一致的视频。
第一个演示里,CameraSquad 在人物面部转动时比其他方法更能保持身份和姿态一致。
第二个演示把动作和多人场景放在一起,重点是不同轨迹下内容仍然对得上。
方法上,它把内容注意力和相机注意力解耦,再用两种跨视角注意力分别管外观一致和几何一致。
多视角结果还能反投影成更完整的动态点云,为 4D 重建提供更可靠的世界状态。
原文称,它在 WebVid、HumanVid 和 VBench 的多个指标上领先,说明空间控制没有牺牲视频质量。
DrPO 这篇工作的目标,是给单步文生图模型做偏好后训练,同时避开重型奖励模型反传的成本。
背景是,单步生成模型不再容易拿到完整去噪轨迹,所以很多扩散模型偏好优化方法不能直接套用。
DrPO 的核心做法,是让当前模型先采样一组候选图像,再用奖励模型只做打分排序。
高分样本在特征空间里产生吸引,低分样本产生排斥,于是奖励排序被转成局部漂移方向。
为了防止模型偏离基础分布,DrPO 还把参考模型样本和当前模型样本做成参考漂移。
这样一来,奖励仍然决定哪些图像更好,但梯度更新不需要穿过 HPSv3 这类大型奖励模型。
原文给出的数字是:相同 effective batch 下,DRaFT 每步 21.62 秒,DrPO 只要 6.17 秒。
在 SDXL-Turbo 上,DrPO 保持单步推理,同时在 PickScore、AES 和 ImageReward 等指标上取得更好结果。
成对偏好评测里,Qwen3-VL 从语义忠实度、连贯性、瑕疵和审美质量上比较两张图。
定性结果则显示,同一提示词下 DrPO 的指令跟随和视觉质量更稳定。
因为奖励只参与排序,DrPO 也能接入 GenEval 这类不可微评价信号。
文章也提醒,特征空间质量会影响漂移方向;离线 DrPO 收敛更快,但仍有分布偏移风险。
alphaXiv 这次发布的 autoresearch,想把读论文推进到自动尝试复现实验。
使用方式很直接:把论文 URL 里的 arxiv 改成 autoarxiv,系统就开始关联代码和任务。
演示视频先从论文页面进入任务环境,再把对应 GitHub 仓库导入智能体工作区。
智能体会阅读 README、检查项目结构,并判断完整实验需要多少算力和时间。
原文举例说,完整实验原本需要 4 张 H100 和 100 步迭代,智能体会压缩成单卡也能跑的最小复现。
价值不在于立刻完整复现论文,而是先判断代码能否跑通、完整复现大概要投入多少资源。
文章也提醒,上手过程仍然偏慢;但用户可以接入自己的计算资源和智能体。
AlphaFold 核心缔造者 John Jumper 宣布离开谷歌 DeepMind,下一站是 Anthropic。
他在 X 上说,自己近九年后离开 GDM,并特别感谢 Demis Hassabis 当年让他领导 AlphaFold。
Jumper 与 Hassabis 因 AlphaFold 改变化学生物研究,已经在 2024 年共同获得诺贝尔化学奖。
原文把这件事放进更大的 AI 人才争夺战:不久前,Noam Shazeer 也从谷歌去了 OpenAI。
对 Anthropic 来说,挖到 AlphaFold 核心人物,也让外界更关注它是否会深入 AI for Science。
这篇文章追问的是同一个问题:谷歌有最多诺奖级人才,为什么还是留不住关键 AI 研究者。
导火索是三天内两次出走:Noam Shazeer 去 OpenAI,John Jumper 去 Anthropic。
文章把病根概括为大公司病:内部政治、算力资源争夺、跨部门协同和前沿模型路线不够聚焦。
另一个问题是产品线混乱,同样是 Gemini 相关能力,却散落在多个入口、套餐和命名系统里。
Jules 和 Antigravity 两个 coding agent 并存,被原文当作谷歌内部重复建设的例子。
工程师 Gergely Orosz 的解释是,谷歌激励新项目和晋升,却不太奖励维护旧产品。
对照组是 Anthropic:它在过去一年多招揽多位技术负责人,如今又加上 AlphaFold 核心人物。
所以这场竞争不只是模型参数和算力,更是组织能不能释放顶尖人才野心的问题。
机器之心 AI News Digest

机器之心 · 2026.06.20 · 7 stories · 7:21

机器之心 AI News Digest

机器之心 2026.06.20 digest with 7 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

  1. 0:00 - 0:59
    01. 快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了 Source
    文章报道快手语言大模型团队与中国科学院大学提出 GoLongRL,一套开源长上下文强化学习后训练方案,包含 22,965 个样本、9 类任务、完整训练代码和 TMN-Reweight 多任务优化算法。
  2. 0:59 - 1:53
    02. AI接管数字世界!华为Claw-Anything:面向跨设备、跨时间、跨服务的Claw评测与数据引擎 Source
    文章介绍华为提出的 Claw-Anything,用于评测和生成常驻型个人助理 Agent 所需的长程历史、多服务、多设备任务环境。
  3. 1:54 - 2:50
    03. CameraSquad:精准运镜,多视角一致——视频世界模型的空间智能新范式 Source
    文章介绍 CameraSquad,一种面向多轨迹并行生成的相机可控视频生成方法,目标是在一次推理中保持多视角内容一致和精确相机控制。
  4. 2:51 - 4:35
    04. 沿着何恺明团队「漂移模型」再走一步:奖励只需排名,单步文生图偏好优化提速3.51倍 Source
    文章介绍西湖大学和香港中文大学(深圳)团队提出的 Drifting Preference Optimization,用漂移场做单步文生图模型偏好后训练,让奖励模型只负责排序而不参与反向传播。
  5. 4:36 - 5:33
    05. 哈?改个URL就行!alphaXiv甩出论文复现神器,单卡也能跑 Source
    文章报道 alphaXiv 推出 autoresearch/autoarxiv 功能,用户把论文 URL 中的 arxiv 改成 autoarxiv 后,系统会关联代码仓库、尝试最小化复现并估算完整复现成本。
  6. 5:33 - 6:14
    06. 诺奖得主出走:AlphaFold核心缔造者告别谷歌,投奔Anthropic Source
    文章报道诺贝尔化学奖得主、AlphaFold 核心缔造者 John Jumper 宣布离开谷歌 DeepMind,加入 Anthropic。
  7. 6:15 - 7:21
    07. 谷歌:我手握最多诺奖得主,为啥就留不住他们? Source
    文章从 Noam Shazeer 和 John Jumper 接连离开谷歌切入,讨论谷歌在顶尖 AI 人才、组织效率、产品线混乱和 AI for Science 竞争中的压力。