论文标题页显示 Drifting Preference Optimization for One-Step Generative Models。

封面图展示三只杯子和多只羊的文生图样例。

方法概览图展示高分和低分样本如何形成偏好漂移。

算法伪代码图列出 DrPO 在线训练步骤和 drift radii。

训练效率图比较 DRaFT 和 DrPO 的更新时间、加速比和 backward 成本。

SDXL-Turbo 定量结果表比较 DrPO 与 DRaFT、DPO、PSO、GRPO 等方法。

红蓝条形图展示 Qwen3-VL 对 DrPO 和对照方法的偏好比例。

定性对比图展示仓鼠、雪中犬、玩具汽车和车厢等生成样例。

定量结果表展示单步文生图偏好优化方法之间的指标差异。

离线 DrPO 曲线显示 PickScore 随训练步数变化。

机器之心 · 2026.06.20 · 7 stories · 7:21

机器之心 AI News Digest

机器之心 2026.06.20 digest with 7 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

0:00 - 0:59

01. 快手开源GoLongRL：23K样本、9大任务类型，长上下文RL荒的时代结束了 Source
文章报道快手语言大模型团队与中国科学院大学提出 GoLongRL，一套开源长上下文强化学习后训练方案，包含 22,965 个样本、9 类任务、完整训练代码和 TMN-Reweight 多任务优化算法。
0:59 - 1:53

02. AI接管数字世界！华为Claw-Anything：面向跨设备、跨时间、跨服务的Claw评测与数据引擎 Source
文章介绍华为提出的 Claw-Anything，用于评测和生成常驻型个人助理 Agent 所需的长程历史、多服务、多设备任务环境。
1:54 - 2:50

03. CameraSquad：精准运镜，多视角一致——视频世界模型的空间智能新范式 Source
文章介绍 CameraSquad，一种面向多轨迹并行生成的相机可控视频生成方法，目标是在一次推理中保持多视角内容一致和精确相机控制。
2:51 - 4:35

04. 沿着何恺明团队「漂移模型」再走一步：奖励只需排名，单步文生图偏好优化提速3.51倍 Source
文章介绍西湖大学和香港中文大学（深圳）团队提出的 Drifting Preference Optimization，用漂移场做单步文生图模型偏好后训练，让奖励模型只负责排序而不参与反向传播。
4:36 - 5:33

05. 哈？改个URL就行！alphaXiv甩出论文复现神器，单卡也能跑 Source
文章报道 alphaXiv 推出 autoresearch/autoarxiv 功能，用户把论文 URL 中的 arxiv 改成 autoarxiv 后，系统会关联代码仓库、尝试最小化复现并估算完整复现成本。
5:33 - 6:14

06. 诺奖得主出走：AlphaFold核心缔造者告别谷歌，投奔Anthropic Source
文章报道诺贝尔化学奖得主、AlphaFold 核心缔造者 John Jumper 宣布离开谷歌 DeepMind，加入 Anthropic。
6:15 - 7:21

07. 谷歌：我手握最多诺奖得主，为啥就留不住他们？ Source
文章从 Noam Shazeer 和 John Jumper 接连离开谷歌切入，讨论谷歌在顶尖 AI 人才、组织效率、产品线混乱和 AI for Science 竞争中的压力。