机器之心 AI NEWS DIGEST
2026 06 07
STORY 01 / 8

重写《给阿嬷的情书》结局:VideoClaw 多智能体长视频框架

01-01
VideoClaw 文章封面展示长视频生成与多智能体创作主题。
01-02
原文图示展示视频创作智能体的技术演进脉络。
01-03
VideoClaw 框架图展示从创意到视频输出的多智能体协作链路。
01-04
原文图示展示场记状态库如何沉淀角色、场景和分镜信息。
01-05
原文图示展示 VLM 审查、诊断和重新生成的闭环。
原文视频展示 VideoClaw 生成的写实短剧片段。
原文视频展示 VideoClaw 的另一段剧情生成片段。
原文视频展示 VideoClaw 继续生成的剧情片段。
01-09
技术演进图把工作流辅助、短视频制作和长视频创作放在同一脉络。
01-10
场记状态库体现 VideoClaw 对长程叙事一致性的管理。
01-11
迭代质量优化图对应实际生成质量仍需持续验证的问题。
STORY 02 / 8

灵巧手的第一份高难度考卷:DexJoCo

02-01
DexJoCo 文章封面展示灵巧操作评测主题。
02-02
原文总览图展示 DexJoCo 的任务、数据和评测范围。
02-03
DexJoCo 流程图展示任务构建、遥操作、数据转换、训练和评测。
02-04
原文图示展示手套、追踪器和 Allegro Hand 的数据采集系统。
原文视频展示 DexJoCo 的遥操作或任务示范场景。
原文视频展示机械臂与灵巧手完成浇水相关操作。
原文视频展示仿真环境中的双手灵巧操作任务。
原文视频展示机器人手部操作带有标识的小物体。
原文视频展示双臂围绕微波炉和食物完成长程任务。
原文视频展示机器人在数字面板上执行输入任务。
原文视频展示一个短时灵巧手操作片段。
原文视频展示双臂协作完成插入或装配任务。
原文视频展示灵巧手夹持红色小物体完成操作任务。
02-14
原文图示展示现代机器人策略模型在 DexJoCo 基准上的表现。
STORY 03 / 8

RoboScience 与 Bi-Adapt 的双手操作泛化

03-01
RoboScience 文章封面展示具身智能和机器人操作主题。
03-02
原文图示展示 RoboScience 团队在 ICRA 的论文和奖项背景。
03-03
原文图示展示 Bi-Adapt 的高效双手操作学习框架。
03-04
原文结果图展示 Bi-Adapt 在五类双臂任务上的仿真成功率。
原文视频展示双臂机器人操作验证画面。
03-06
原文图示展示 Bi-Adapt 的动作学习、可供性迁移、少样本适配和执行流程。
原文视频展示 RoboScience 平台或机器人操作演示。
03-08
原文图示展示 RoboScience 的 VLOA 双引擎架构。
03-09
仿真结果图展示 Bi-Adapt 相对基线的操作成功率表现。
03-10
Bi-Adapt 流程图对应少样本泛化仍需在更多场景中检验。
STORY 04 / 8

Claude Code 之父谈品味、工程师和组织形态

04-01
文章封面展示 Claude Code 和 Boris Cherny 访谈主题。
原文视频展示 Boris Cherny 相关访谈素材。
04-03
Claude Code 访谈封面用于承接模型能力提升的讨论。
原文视频素材对应 Boris 关于工程师角色变化的访谈。
04-05
文章讨论 Claude Code 如何改变创业团队的资源配置。
Boris Cherny 访谈素材对应 AI 编程工具对组织形态的影响。
STORY 05 / 8

ChatGPT 虚构修复照片提示词 bug

05-01
文章封面展示 ChatGPT 异常图片生成主题。
05-02
原文截图展示英文提示词触发后的打码生成结果。
05-03
原文截图展示英文测试中的超现实生成结果。
05-04
原文截图展示 ChatGPT 对不存在照片的拒绝回复。
05-05
原文截图展示较早网友分享的虚构照片测试结果。
05-06
原文截图对应研究者对提示词机制的分析。
05-07
英文提示词测试图体现模型在无输入任务中的异常补全。
STORY 06 / 8

FusionRoute:Token 级多 LLM 协作

06-01
FusionRoute 文章封面展示多 LLM 协作主题。
06-02
原文图示对比整段协作和 token 级协作方式。
06-03
原文结果图展示 FusionRoute 在多个基准上的实验表现。
06-04
原文图片展示 FusionRoute 的论文作者和项目信息。
STORY 07 / 8

隐式思维链的理论证明

07-01
文章封面展示隐式思维链研究主题。
07-02
原文图示展示思考模式下的 token 成本问题。
07-03
原文图示对比显式 CoT、标准 ICoT 和 Log-ICoT。
07-04
原文热图展示 4 层 Transformer 逐层聚焦在树结构节点上。
07-05
原文图片展示论文标题和研究团队信息。
STORY 08 / 8

GoS 为多智能体溯因推理构建共享状态

08-01
GoS 文章封面展示多智能体推理主题。
08-02
原文图示展示传统推理框架在溯因任务中的四类失败模式。
08-03
原文框架图展示 GoS 的双层神经符号架构。
08-04
原文图示展示推理焦点引导调查和证据反向更新。
08-05
原文结果图展示 GoS 在分布式系统故障诊断中的表现。
文章称,VideoClaw 试图解决的不是五秒惊艳片段,而是一句创意能否自动长成连贯长视频。
报道指出,现有长视频生成常把片段分开做,人物、场景和剧情很容易在段落之间漂移。
VideoClaw 的核心做法,是把创意扩写、角色设定、分镜、关键帧和后期拼接拆成可见流水线。
这种设计的关键,不是完全取消创作者,而是在剧本、角色和分镜等节点保留人工介入窗口。
为了让剧情能继续往后写,系统引入场记状态库,保存角色关系、场景位置和版本信息。
文章还强调,VLM 会在关键帧和视频片段生成后做质检,发现偏移时给出诊断并触发回溯。
第一个演示把《给阿嬷的情书》改写成写实短剧,用连续镜头呈现人物关系和时间流转。
第二段素材继续展示多镜头叙事,而不是只停留在单张生成图或单个动效上。
第三段素材说明 VideoClaw 的目标是让剧情继续延展,同时尽量维持前后设定一致。
从开源项目看,团队把 ComfyUI-Copilot、Pixelle-Video 和 VideoClaw 放在同一条视频创作工具链上。
文章的真正看点,是视频生成从模型能力竞赛,进一步转向生产流程和长程记忆管理。
但最终质量还要看真实开源复现,尤其是更长剧情中的一致性、人工返工量和成本。
文章称,灵巧手的下一道门槛,不是能不能抓住东西,而是能不能真正完成有目标的任务。
DexJoCo 基于 MuJoCo 构建,包含 11 个功能性任务和 1.1K 条人类遥操作示范轨迹。
它覆盖工具使用、双手协作、长程执行和推理任务,目标是让机器人从会抓取走向会做事。
数据采集链路使用手套和追踪器记录人手动作,再把轨迹重定向到 Allegro Hand。
第一个视频展示真实采集或遥操作场景,说明这些轨迹不是只靠合成脚本写出来的。
浇水演示测试按下、倒出和改变环境状态。
仿真中的双手任务进一步考察协调能力,因为两只手的接触点和动作方向必须相互配合。
另一段短片展示灵巧手对小物体的精细交互,凸显接触丰富任务的难度。
微波炉任务更像真实家务流程,机器人要按顺序处理开门、放入物体和继续操作。
数字面板任务则把语言或目标指令落到具体按键动作上,测试执行顺序和手指精度。
短片保留接触控制难题,用来观察失败边界。
装配演示要求双臂同时控制位置和姿态,正好体现普通夹爪基准覆盖不到的难点。
最后一段红色物体操作展示了手指级夹持和姿态调整,是评测细粒度控制的另一类证据。
文章的结论是,DexJoCo 更像一套基础设施,用来系统追问 VLA 模型离人类级灵巧操作还有多远。
文章把 RoboScience 的 ICRA 2026 成果,放在具身智能泛化操作这个核心问题上。
邵林团队的 Bi-Adapt 论文入围 ICRA 2026 机器人操作与运动方向最佳论文奖提名。
文章称,团队在 ICRA 2026 共有 10 篇论文入选,方向覆盖抓取、导航、力感知和任务规划。
Bi-Adapt 的核心,是把已经学会的双臂操作迁移到没见过的新物体类别上。
仿真测试中,Bi-Adapt 在五类新类别任务上的成功率达到 59% 到 70%,高于多个基线。
第一段视频展示机器人双臂在任务中移动和配合,说明论文不只停留在静态图表上。
真实机器人实验还完成了展开、打开和取盖等任务,用来验证从仿真到现实的迁移。
方法流程可以概括为三步,先找对应位置,再学会双手配合,最后用少量试错修正。
第二段视频展示 RoboScience 的仿真或操作平台,体现团队把算法放进更完整的机器人系统里。
文章还提到 VLOA 架构,把视觉、语言、对象和动作联合起来,作为通用操作模型的底座。
这条新闻真正重要的地方,是它把具身智能的热点从单次演示,拉回可泛化、可验证的操作能力。
但这种能力还要继续接受硬件差异、更多物体类别和独立复现实验的检验。
文章称,Claude Code 的核心建设者 Boris Cherny 并不认为品味会长期是人类最后的护城河。
在他的叙述里,Claude Code 起初并不是规划好的核心产品,而是 Anthropic Labs 探索未来产品形态时长出来的。
Boris 坦率说,早期 Claude Code 只能完成他大约 10% 到 20% 的工作。
后来的变化当然有产品工程,但 Boris 认为真正决定上限的,是 Sonnet、Opus 等底层模型能力提升。
文章还提到,Anthropic 曾披露每位工程师代码产出约增长三倍,但 Boris 认为这个数字已经过时。
对招聘来说,他更看重通才,因为团队成员每天都在用户沟通、设计、数据分析和工程之间切换。
他给创始人的建议很直接,少放人,多给 token,让小团队把重复工作尽可能自动化。
这篇文章真正值得看的是,它把 AI 写代码从工具问题,推到了组织如何工作这个问题。
文章报道了一个奇怪的 ChatGPT 图片 bug,用户没有上传照片,模型却可能自行生成所谓修复结果。
触发方式是让模型恢复一张不存在的奇怪照片,并要求它不要追问、不要重新索要图片。
机器之心英文测试中,生成图像呈现明显猎奇和超现实风格,而中文提示词相对正常。
也有用户没有拿到图片,而是收到拒绝回复,系统判断这张不存在的照片可能违规。
文章认为,这像是一类对抗性提示词,把缺少输入的修复任务伪装成确定任务。
模型可能把内容很奇怪、闭着眼睛修复、自行想象这些背景话,误当成图像生成指令。
这件事提醒我们,多模态安全不只要拦截有害图片,还要识别任务本身有没有真实输入。
文章介绍的 FusionRoute,想让多个专家 LLM 在每个 token 生成步骤上协作。
它不再让一个模型写完整答案再投票,而是训练 router 为当前 token 选择合适专家。
更关键的是,router 还提供补充 logits,让系统不是只从专家中挑一个,而能修正专家薄弱处。
论文在数学、代码、指令跟随和通用生成基准上测试,包括 GSM8K、MATH-500、HumanEval 和 PerfectBlend。
这篇论文的意义,是把多模型协作从粗粒度讨论,推进到可训练、可补位的 token 级路由。
文章介绍一篇理论论文,试图证明 Transformer 可以把思维链内化到隐藏状态里。
显式思维链很贵,因为模型必须串行输出许多中间 token,延迟和成本都会上升。
Log-ICoT 的做法是一次藏掉思维链树的一整层,让训练阶段从 k-1 缩短到 log₂k。
在 k=16 的例子里,这意味着训练阶段从 15 个变成 4 个,并让每层 Transformer 对应一层推理结构。
这项工作的意义,是给更便宜的推理提供理论方向,但复杂真实任务还需要进一步验证。
文章介绍的 Graph of States,想让多智能体在医疗诊断和故障排查中稳定协作。
论文指出,传统框架容易出现证据伪造、上下文漂移、回溯失败和过早停止。
GoS 的做法是把假设、证据和推理进展放进显式信念状态,由因果图和状态机共同维护。
系统会用推理焦点引导专家智能体取证,再把新证据反向写回状态图。
在 150 个真实生产 incident 的故障诊断实验中,GoS 的 Match 达到 70.67%,Relevant 达到 88.00%。
机器之心 AI News Digest

机器之心 · 2026.06.07 · 8 stories · 9:27

机器之心 AI News Digest

机器之心 2026.06.07 digest with 8 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

  1. 0:00 - 1:42
    01. 重写《给阿嬷的情书》结局:VideoClaw 多智能体长视频框架 Source
    文章介绍哈工大张民团队与阿里巴巴推出的第二代多智能体视频创作框架,包括 Pixelle-Video 和面向长视频的 VideoClaw。
  2. 1:43 - 3:30
    02. 灵巧手的第一份高难度考卷:DexJoCo Source
    文章介绍中科院自动化所等机构提出的 DexJoCo,一个基于 MuJoCo 的任务导向灵巧操作基准与工具链。
  3. 3:31 - 5:12
    03. RoboScience 与 Bi-Adapt 的双手操作泛化 Source
    文章围绕 RoboScience 机器科学首席科学家邵林团队在 ICRA 2026 的论文成果展开,重点介绍 Bi-Adapt 如何让机器人把已学会的双臂操作经验迁移到新物体类别上,并通过少量试错完成适配。
  4. 5:13 - 6:21
    04. Claude Code 之父谈品味、工程师和组织形态 Source
    文章整理 Anthropic 技术成员、Claude Code 核心建设者 Boris Cherny 的访谈观点。
  5. 6:22 - 7:18
    05. ChatGPT 虚构修复照片提示词 bug Source
    文章报道网友发现 ChatGPT 图片生成中的一个奇怪现象。
  6. 7:19 - 8:03
    06. FusionRoute:Token 级多 LLM 协作 Source
    文章介绍 ICML 2026 论文 FusionRoute。
  7. 8:04 - 8:45
    07. 隐式思维链的理论证明 Source
    文章介绍 UC Berkeley 和普林斯顿大学研究团队关于隐式思维链的理论工作。
  8. 8:45 - 9:27
    08. GoS 为多智能体溯因推理构建共享状态 Source
    文章介绍南开大学研究团队与联想合作的 ICML 2026 论文 Graph of States。