机器人头像前方是二进制数据背景。

图中有提示文本、视频片段和音频生成模块。

白底论文首页写有 Baton 的英文标题和作者。

图中包含 video flow、audio flow 和 cross-modal attention。

沙地中人物趴地遮挡，远处爆炸烟尘升起。

训练场中两名男子交流并发生出拳动作。

木屋外两人围着篝火处理白色布料。

叉子切肉后切到人物咀嚼表情。

女孩在车内驾驶，后座出现戴面具儿童。

花园中女子挥拍，旁边有人参与羽毛球运动。

男孩在室外同时运两个篮球。

户外人物持枪、抬枪、放下并面向镜头。

篮球场上男子运球投篮，球飞向篮筐。

宽表格列出多个模型和音视频指标。

表格列出 Veo、Wan、Kling、Seedance 和 Ours。

复杂提示、视频片段和音频生成模块在图中连接。

结构图中视频流、音频流和语义蓝图共同参与生成。

机器之心 · 2026.06.15 · 12 stories · 15:20

机器之心 AI News Digest

机器之心 2026.06.15 digest with 12 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

0:00 - 1:20

01. 一夜反转！「杀进第一梯队」的巴西LLM竟「套壳缝合」了国产模型 Source
文章报道，前一天因跑分亮眼而受到关注的巴西 Rio 3.
1:20 - 2:37

02. 微软CEO长文：以后两种资本，人力资本+Token资本 Source
文章介绍微软 CEO Satya Nadella 发布的长文，核心判断是 AI 时代的企业会同时经营人力资本和 Token 资本。
2:38 - 3:45

03. 智源大会 | 天工AI重新定义世界模型，公布Matrix-Game 3.5 最新技术突破 Source
文章报道昆仑万维 Skywork 团队在智源大会公布 Matrix-Game 3.
3:46 - 5:47

04. 腾讯Robotics X开源HyVLA-0.5：基于亚毫米级指套UMI与真机强化，摆脱繁重遥操 Source
文章报道腾讯 Robotics X、福田实验室与混元团队开源 Hy-Embodied-0.
5:47 - 8:09

05. 给音视频生成打草稿！复旦&腾讯提出Bat：首创语音蓝图指引，实现音画逻辑精准同步 Source
文章介绍复旦大学与腾讯提出的 Baton 方法，它用显式语义蓝图指导联合视频与音频生成，目标是解决复杂提示下动作、角色、声音和时序错位的问题。
8:10 - 9:19

06. 用国产GPU训练AI给自己写内核，摩尔线程刷榜硬核基准 Source
文章报道摩尔线程发布 MusaCoder 与 MooreEval 执行式验证协议，用国产 GPU 训练模型生成原生 GPU 内核，并在 KernelBench 相关任务上取得领先表现。
9:20 - 10:23

07. 理想定义具身智能汽车：比人安全、比人高效，还要对齐特斯拉FSD Source
文章报道理想汽车 Livis Day 软件与具身智能发布会，核心是把智能汽车重新定义为基于大模型、智能体和端到端 VLA 能力的具身智能产品。
10:24 - 11:41

08. 1680份员工履历揭开Anthropic招人底牌：「基础设施老兵」更吃香 Source
文章转述科技招聘分析者 seb 对 1680 份 Anthropic 工程履历的统计，发现公司大规模雇佣的是有生产系统经验的构建者，而不只是理论研究员。
11:41 - 12:48

09. 2026年玩AI必备技能：不是提示词，是循环工程 Source
文章介绍 Addy Osmani 关于 Loop Engineering 的讨论，认为 AI 应用能力正在从写提示词转向设计循环。
12:49 - 13:52

10. ICML&ACL Oral | 迈向全自动实验室，北大两篇顶会论文让大模型从「推理」走向「物理执行」 Source
文章介绍北京大学团队的两篇顶会论文：BioProBench 评测生物协议理解和推理，BioProAgent 探索受约束科学规划。
13:52 - 14:35

11. 打破SWE-bench唯分数论，首个独立测量harness的基准开源了 Source
文章介绍 Claw-SWE-Bench，一个用于独立测量 OpenClaw 风格 agent harness 对编程任务评测影响的基准。
14:36 - 15:20

12. 1080条提示词、7款模型大比拼：视频生成离「好看、好用又准确」还差多少？ Source
文章介绍 KIVI-Bench，一个面向知识密集型视频生成的评测集，包含 1080 条提示词和 7 款模型对比。