STORY 01 / 8
STORY 03 / 8
STORY 04 / 8
STORY 08 / 8
文章称,VideoClaw 试图解决的不是五秒惊艳片段,而是一句创意能否自动长成连贯长视频。
报道指出,现有长视频生成常把片段分开做,人物、场景和剧情很容易在段落之间漂移。
VideoClaw 的核心做法,是把创意扩写、角色设定、分镜、关键帧和后期拼接拆成可见流水线。
这种设计的关键,不是完全取消创作者,而是在剧本、角色和分镜等节点保留人工介入窗口。
为了让剧情能继续往后写,系统引入场记状态库,保存角色关系、场景位置和版本信息。
文章还强调,VLM 会在关键帧和视频片段生成后做质检,发现偏移时给出诊断并触发回溯。
第一个演示把《给阿嬷的情书》改写成写实短剧,用连续镜头呈现人物关系和时间流转。
第二段素材继续展示多镜头叙事,而不是只停留在单张生成图或单个动效上。
第三段素材说明 VideoClaw 的目标是让剧情继续延展,同时尽量维持前后设定一致。
从开源项目看,团队把 ComfyUI-Copilot、Pixelle-Video 和 VideoClaw 放在同一条视频创作工具链上。
文章的真正看点,是视频生成从模型能力竞赛,进一步转向生产流程和长程记忆管理。
但最终质量还要看真实开源复现,尤其是更长剧情中的一致性、人工返工量和成本。
文章称,灵巧手的下一道门槛,不是能不能抓住东西,而是能不能真正完成有目标的任务。
DexJoCo 基于 MuJoCo 构建,包含 11 个功能性任务和 1.1K 条人类遥操作示范轨迹。
它覆盖工具使用、双手协作、长程执行和推理任务,目标是让机器人从会抓取走向会做事。
数据采集链路使用手套和追踪器记录人手动作,再把轨迹重定向到 Allegro Hand。
第一个视频展示真实采集或遥操作场景,说明这些轨迹不是只靠合成脚本写出来的。
仿真中的双手任务进一步考察协调能力,因为两只手的接触点和动作方向必须相互配合。
另一段短片展示灵巧手对小物体的精细交互,凸显接触丰富任务的难度。
微波炉任务更像真实家务流程,机器人要按顺序处理开门、放入物体和继续操作。
数字面板任务则把语言或目标指令落到具体按键动作上,测试执行顺序和手指精度。
装配演示要求双臂同时控制位置和姿态,正好体现普通夹爪基准覆盖不到的难点。
最后一段红色物体操作展示了手指级夹持和姿态调整,是评测细粒度控制的另一类证据。
文章的结论是,DexJoCo 更像一套基础设施,用来系统追问 VLA 模型离人类级灵巧操作还有多远。
文章把 RoboScience 的 ICRA 2026 成果,放在具身智能泛化操作这个核心问题上。
邵林团队的 Bi-Adapt 论文入围 ICRA 2026 机器人操作与运动方向最佳论文奖提名。
文章称,团队在 ICRA 2026 共有 10 篇论文入选,方向覆盖抓取、导航、力感知和任务规划。
Bi-Adapt 的核心,是把已经学会的双臂操作迁移到没见过的新物体类别上。
仿真测试中,Bi-Adapt 在五类新类别任务上的成功率达到 59% 到 70%,高于多个基线。
第一段视频展示机器人双臂在任务中移动和配合,说明论文不只停留在静态图表上。
真实机器人实验还完成了展开、打开和取盖等任务,用来验证从仿真到现实的迁移。
方法流程可以概括为三步,先找对应位置,再学会双手配合,最后用少量试错修正。
第二段视频展示 RoboScience 的仿真或操作平台,体现团队把算法放进更完整的机器人系统里。
文章还提到 VLOA 架构,把视觉、语言、对象和动作联合起来,作为通用操作模型的底座。
这条新闻真正重要的地方,是它把具身智能的热点从单次演示,拉回可泛化、可验证的操作能力。
但这种能力还要继续接受硬件差异、更多物体类别和独立复现实验的检验。
文章称,Claude Code 的核心建设者 Boris Cherny 并不认为品味会长期是人类最后的护城河。
在他的叙述里,Claude Code 起初并不是规划好的核心产品,而是 Anthropic Labs 探索未来产品形态时长出来的。
Boris 坦率说,早期 Claude Code 只能完成他大约 10% 到 20% 的工作。
后来的变化当然有产品工程,但 Boris 认为真正决定上限的,是 Sonnet、Opus 等底层模型能力提升。
文章还提到,Anthropic 曾披露每位工程师代码产出约增长三倍,但 Boris 认为这个数字已经过时。
对招聘来说,他更看重通才,因为团队成员每天都在用户沟通、设计、数据分析和工程之间切换。
他给创始人的建议很直接,少放人,多给 token,让小团队把重复工作尽可能自动化。
这篇文章真正值得看的是,它把 AI 写代码从工具问题,推到了组织如何工作这个问题。
文章报道了一个奇怪的 ChatGPT 图片 bug,用户没有上传照片,模型却可能自行生成所谓修复结果。
触发方式是让模型恢复一张不存在的奇怪照片,并要求它不要追问、不要重新索要图片。
机器之心英文测试中,生成图像呈现明显猎奇和超现实风格,而中文提示词相对正常。
也有用户没有拿到图片,而是收到拒绝回复,系统判断这张不存在的照片可能违规。
文章认为,这像是一类对抗性提示词,把缺少输入的修复任务伪装成确定任务。
模型可能把内容很奇怪、闭着眼睛修复、自行想象这些背景话,误当成图像生成指令。
这件事提醒我们,多模态安全不只要拦截有害图片,还要识别任务本身有没有真实输入。
文章介绍的 FusionRoute,想让多个专家 LLM 在每个 token 生成步骤上协作。
它不再让一个模型写完整答案再投票,而是训练 router 为当前 token 选择合适专家。
更关键的是,router 还提供补充 logits,让系统不是只从专家中挑一个,而能修正专家薄弱处。
论文在数学、代码、指令跟随和通用生成基准上测试,包括 GSM8K、MATH-500、HumanEval 和 PerfectBlend。
这篇论文的意义,是把多模型协作从粗粒度讨论,推进到可训练、可补位的 token 级路由。
文章介绍一篇理论论文,试图证明 Transformer 可以把思维链内化到隐藏状态里。
显式思维链很贵,因为模型必须串行输出许多中间 token,延迟和成本都会上升。
Log-ICoT 的做法是一次藏掉思维链树的一整层,让训练阶段从 k-1 缩短到 log₂k。
在 k=16 的例子里,这意味着训练阶段从 15 个变成 4 个,并让每层 Transformer 对应一层推理结构。
这项工作的意义,是给更便宜的推理提供理论方向,但复杂真实任务还需要进一步验证。
文章介绍的 Graph of States,想让多智能体在医疗诊断和故障排查中稳定协作。
论文指出,传统框架容易出现证据伪造、上下文漂移、回溯失败和过早停止。
GoS 的做法是把假设、证据和推理进展放进显式信念状态,由因果图和状态机共同维护。
系统会用推理焦点引导专家智能体取证,再把新证据反向写回状态图。
在 150 个真实生产 incident 的故障诊断实验中,GoS 的 Match 达到 70.67%,Relevant 达到 88.00%。