STORY 01 / 7
STORY 05 / 7
快手这次开源的是 GoLongRL,一套面向长上下文强化学习后训练的数据、算法和代码组合。
核心不是把检索题做得更难,而是把长上下文能力拆成 9 类任务,并让每类任务使用匹配语义的奖励。
这套数据共有 22,965 个样本,既改写开源长文本数据,也在真实图书、论文和报告上生成问答。
构造流程分四步:先收集源语料,再分配任务,随后生成和过滤样本,最后根据基准诊断持续补数据。
算法上,TMN-Reweight 把跨任务奖励尺度对齐和 prompt 难度重加权拆开,避免某些任务梯度主导训练。
原文称,GoLongRL-30B-A3B 的长上下文平均分达到 69.8,超过多款更大的旗舰模型。
华为的 Claw-Anything 想评测的是一种更难的 AI 助理:它要长期看见用户的整个数字世界。
这个基准把任务放进长程历史、多服务和跨设备三维环境,而不是只给模型一封干净邮件。
它包含 200 个验证任务和 2000 个训练环境,单个任务平均要跨 10.1 个服务、约 191.7k 字上下文。
原文给出的例子是婚礼策划师,要综合日历、邮件、财务和联系人,同时不能擅自替用户发邮件。
最强模型在这里也并不轻松:文章称 GPT-5.5 的 pass@1 只有 34.5%。
它同时是一套数据工厂,自动生成数字人生、事件流和验证器,用来训练更可靠的常驻助理。
CameraSquad 解决的是视频世界模型里的一个老问题:换视角以后,同一个人和同一个场景不能变样。
它给定一段输入视频和多组目标相机参数,一次性并行生成多条空间一致的视频。
第一个演示里,CameraSquad 在人物面部转动时比其他方法更能保持身份和姿态一致。
第二个演示把动作和多人场景放在一起,重点是不同轨迹下内容仍然对得上。
方法上,它把内容注意力和相机注意力解耦,再用两种跨视角注意力分别管外观一致和几何一致。
多视角结果还能反投影成更完整的动态点云,为 4D 重建提供更可靠的世界状态。
原文称,它在 WebVid、HumanVid 和 VBench 的多个指标上领先,说明空间控制没有牺牲视频质量。
DrPO 这篇工作的目标,是给单步文生图模型做偏好后训练,同时避开重型奖励模型反传的成本。
背景是,单步生成模型不再容易拿到完整去噪轨迹,所以很多扩散模型偏好优化方法不能直接套用。
DrPO 的核心做法,是让当前模型先采样一组候选图像,再用奖励模型只做打分排序。
高分样本在特征空间里产生吸引,低分样本产生排斥,于是奖励排序被转成局部漂移方向。
为了防止模型偏离基础分布,DrPO 还把参考模型样本和当前模型样本做成参考漂移。
这样一来,奖励仍然决定哪些图像更好,但梯度更新不需要穿过 HPSv3 这类大型奖励模型。
原文给出的数字是:相同 effective batch 下,DRaFT 每步 21.62 秒,DrPO 只要 6.17 秒。
在 SDXL-Turbo 上,DrPO 保持单步推理,同时在 PickScore、AES 和 ImageReward 等指标上取得更好结果。
成对偏好评测里,Qwen3-VL 从语义忠实度、连贯性、瑕疵和审美质量上比较两张图。
定性结果则显示,同一提示词下 DrPO 的指令跟随和视觉质量更稳定。
因为奖励只参与排序,DrPO 也能接入 GenEval 这类不可微评价信号。
文章也提醒,特征空间质量会影响漂移方向;离线 DrPO 收敛更快,但仍有分布偏移风险。
alphaXiv 这次发布的 autoresearch,想把读论文推进到自动尝试复现实验。
使用方式很直接:把论文 URL 里的 arxiv 改成 autoarxiv,系统就开始关联代码和任务。
演示视频先从论文页面进入任务环境,再把对应 GitHub 仓库导入智能体工作区。
智能体会阅读 README、检查项目结构,并判断完整实验需要多少算力和时间。
原文举例说,完整实验原本需要 4 张 H100 和 100 步迭代,智能体会压缩成单卡也能跑的最小复现。
价值不在于立刻完整复现论文,而是先判断代码能否跑通、完整复现大概要投入多少资源。
文章也提醒,上手过程仍然偏慢;但用户可以接入自己的计算资源和智能体。
AlphaFold 核心缔造者 John Jumper 宣布离开谷歌 DeepMind,下一站是 Anthropic。
他在 X 上说,自己近九年后离开 GDM,并特别感谢 Demis Hassabis 当年让他领导 AlphaFold。
Jumper 与 Hassabis 因 AlphaFold 改变化学生物研究,已经在 2024 年共同获得诺贝尔化学奖。
原文把这件事放进更大的 AI 人才争夺战:不久前,Noam Shazeer 也从谷歌去了 OpenAI。
对 Anthropic 来说,挖到 AlphaFold 核心人物,也让外界更关注它是否会深入 AI for Science。
这篇文章追问的是同一个问题:谷歌有最多诺奖级人才,为什么还是留不住关键 AI 研究者。
导火索是三天内两次出走:Noam Shazeer 去 OpenAI,John Jumper 去 Anthropic。
文章把病根概括为大公司病:内部政治、算力资源争夺、跨部门协同和前沿模型路线不够聚焦。
另一个问题是产品线混乱,同样是 Gemini 相关能力,却散落在多个入口、套餐和命名系统里。
Jules 和 Antigravity 两个 coding agent 并存,被原文当作谷歌内部重复建设的例子。
工程师 Gergely Orosz 的解释是,谷歌激励新项目和晋升,却不太奖励维护旧产品。
对照组是 Anthropic:它在过去一年多招揽多位技术负责人,如今又加上 AlphaFold 核心人物。
所以这场竞争不只是模型参数和算力,更是组织能不能释放顶尖人才野心的问题。