机器之心 AI NEWS DIGEST
2026 06 15
STORY 01 / 12

一夜反转!「杀进第一梯队」的巴西LLM竟「套壳缝合」了国产模型

01-01
漫画式封面突出 Rio 3.5 被质疑套壳。
01-02
Nex-AGI 社交声明写明 Rio 3.5 不是新模型。
01-03
公式图写出 Rio 3.5 与两款模型的混合关系。
01-04
GitHub issue 页面列出 Rio 3.5 合并质疑。
01-05
模型回答区域出现 NexAGI-M2 相关字样。
01-06
统计表显示 Nex、Nex-AGI 与 Rio 名称出现比例。
01-07
截图展示混合权重和共线性数值。
01-08
深色界面对比图展示研究者的外部分析。
01-09
Rio 3.5 争议封面作为结尾画面。
STORY 02 / 12

微软CEO长文:以后两种资本,人力资本+Token资本

02-01
Satya Nadella 的人物封面。
02-02
X 平台截图显示 Nadella 的英文长文标题。
02-03
Nadella 人像作为管理观点的视觉锚点。
02-04
长文标题突出 ecosystem 与 stable 两个关键词。
02-05
截图并列展示马斯克评论和 Nadella 早前回应。
02-06
Nadella 封面作为微软战略讨论画面。
02-07
Nadella 长文截图作为结尾画面。
STORY 03 / 12

智源大会 | 天工AI重新定义世界模型,公布Matrix-Game 3.5 最新技术突破

03-01
智源大会舞台上显示 Matrix-Game 主题。
03-02
幻灯片列出 Matrix-Game 版本演进。
03-03
图中展示键鼠、手柄、文本和动作模块接入。
03-04
幻灯片包含模型版本、数据和交互能力信息。
03-05
幻灯片展示视频片段和游戏场景资源规模。
03-06
世界模型应用幻灯片列出 agent、game、robotics 等方向。
03-07
演讲者站在大会舞台前介绍 Matrix-Game。
03-08
动作和输入信号汇入世界模型的结构图。
STORY 04 / 12

腾讯Robotics X开源HyVLA-0.5:基于亚毫米级指套UMI与真机强化,摆脱繁重遥操

04-01
多视角机械臂在桌面执行操作任务。
04-02
HyVLA 总览图包含 UMI 数据、模型和部署流程。
视频展示 Hy-Embodied-0.5-VLA 标题和机械臂任务片段。
04-04
模型结构图包含 language history、vision tokens 和 action expert。
04-05
表格列出 HyVLA-0.5 与其他方法的 clean 和 randomized 成绩。
画面上半部分是多机械臂任务,下半部分是跨本体抓取迁移。
视频前半段是 FlowPRO 方法示意,后半段是桌面机器人任务。
04-08
黑色背景图展示多段真实机器人任务和性能柱状图。
多视角画面中机械臂在工厂桌面连续搬运物体。
04-10
多台机器人执行任务,右侧有成功率柱状图。
04-11
总览图把数据、模型、强化微调和跨本体部署连接起来。
04-12
图中有人手、机器人视角和桌面操作任务。
工厂桌面上机械臂持续完成多步操作。
04-14
机械臂操作拼图作为具身智能工程闭环结尾。
STORY 05 / 12

给音视频生成打草稿!复旦&腾讯提出Bat:首创语音蓝图指引,实现音画逻辑精准同步

05-01
机器人头像前方是二进制数据背景。
05-02
图中有提示文本、视频片段和音频生成模块。
05-03
白底论文首页写有 Baton 的英文标题和作者。
05-04
图中包含 video flow、audio flow 和 cross-modal attention。
沙地中人物趴地遮挡,远处爆炸烟尘升起。
训练场中两名男子交流并发生出拳动作。
木屋外两人围着篝火处理白色布料。
叉子切肉后切到人物咀嚼表情。
女孩在车内驾驶,后座出现戴面具儿童。
花园中女子挥拍,旁边有人参与羽毛球运动。
男孩在室外同时运两个篮球。
户外人物持枪、抬枪、放下并面向镜头。
篮球场上男子运球投篮,球飞向篮筐。
05-14
宽表格列出多个模型和音视频指标。
05-15
表格列出 Veo、Wan、Kling、Seedance 和 Ours。
05-16
复杂提示、视频片段和音频生成模块在图中连接。
05-17
结构图中视频流、音频流和语义蓝图共同参与生成。
STORY 06 / 12

用国产GPU训练AI给自己写内核,摩尔线程刷榜硬核基准

06-01
橙色芯片图形突出摩尔线程 GPU 主题。
06-02
多组柱状图比较不同模型在各级任务上的正确率。
06-03
白底论文首页写有 MusaCoder 标题和作者。
06-04
图中有 server、compile pool、shared FS 和 reward model。
06-05
流程图从原始数据到 SFT 和强化训练。
06-06
图中分为 Stage 1、Stage 2、Stage 3。
06-07
表格列出 pass、resolved 和 apply failed 等指标。
06-08
摩尔线程风格芯片图作为结尾。
STORY 07 / 12

理想定义具身智能汽车:比人安全、比人高效,还要对齐特斯拉FSD

07-01
Livis Day 舞台和理想汽车车辆同框。
07-02
黑底幻灯片列出安全、能力、效率三项标准。
07-03
黑底图比较 Mind4-Pro 与其他模型的指标。
07-04
大屏展示理想智能系统的多模块架构。
07-05
黑底柱状图比较 M100 与 Thor-U 多项任务。
Livis Day 舞台大屏和车辆在现场展示。
07-07
理想发布会现场作为结尾画面。
STORY 08 / 12

1680份员工履历揭开Anthropic招人底牌:「基础设施老兵」更吃香

08-01
长图写有分析 1680 份 Anthropic 履历。
08-02
柱状图中 2025 年为 686,2026 年截至六月为 455。
08-03
经验柱状图显示 9-13 年和 13-18 年人数最多。
08-04
横向柱状图列出 infrastructure、ML 和 backend 等背景。
08-05
柱状图列出 Google 119、Meta 105、Stripe 82 等来源。
08-06
柱状图显示 Bachelor 71.7%、Master 30.1%、PhD 13.7%。
08-07
横向柱状图列出 Stanford、UC Berkeley、MIT 等学校。
08-08
图中比较 junior 与全部工程师的背景比例。
08-09
履历图标和 Anthropic 标志构成招聘分析封面。
STORY 09 / 12

2026年玩AI必备技能:不是提示词,是循环工程

09-01
黑底封面上写着 Loop Engineering。
09-02
Addy Osmani 在舞台上演讲。
09-03
表格列出 automations、worktrees、skills 和 state 等项目。
09-04
Loop Engineering 主题封面。
09-05
表格右侧展示 code app 和 Claude Code 形态。
09-06
舞台照片表现技术分享场景。
09-07
Loop Engineering 字样作为结尾。
STORY 10 / 12

ICML&ACL Oral | 迈向全自动实验室,北大两篇顶会论文让大模型从「推理」走向「物理执行」

10-01
机器人在实验室中拿着试管。
10-02
论文首页写有 BioProBench 标题和作者。
10-03
图中有来源统计、任务环图和类别分布。
10-04
表格列出多个模型的 Acc、Prec、Recall、F1 和 Failed。
10-05
论文首页写有 BioProAgent 和 neuro-symbolic grounding。
10-06
图中从 input memory 进入 neuro-symbolic core,再到 verification execution。
10-07
雷达图比较科学推理、自我纠错和物理合规。
10-08
BIOMA 体系图展示评估、规划、执行和反馈循环。
STORY 11 / 12

打破SWE-bench唯分数论,首个独立测量harness的基准开源了

11-01
图中 Claw-SWE-Bench adapter 位于 harness 和 SWE-bench 之间。
11-02
表格比较 base adapter 和 full adapter 两行结果。
11-03
点图比较多个模型 cleanup 前后的 Pass@1。
11-04
散点图展示解决率、Pass@1 和 API 成本。
11-05
论文首页写有 Claw-SWE-Bench 标题。
STORY 12 / 12

1080条提示词、7款模型大比拼:视频生成离「好看、好用又准确」还差多少?

12-01
电影胶片中嵌入多个实验和操作场景。
12-02
流程图从 prompt 进入视频生成和事实性评估。
12-03
图中对比两段设置手机蜂窝网络的视频结果。
12-04
表格中 FactP 为 70.8,HelpS 为 69.0。
12-05
饼图显示实体误描 42.6%、错误过程 40.7%。
第一条看 Rio 3.5 的一夜反转。昨天它还被称为巴西开源模型黑马,今天就被 Nex-AGI 指控为套壳合并模型。
Nex-AGI 的声明很直接:Rio 3.5-Open-397B 不是一个全新模型,而是由现有模型高度混合得到。
文章中的公式把质疑写得更具体:Rio 3.5 近似等于六成 Nex N2 Pro,加四成 Qwen 3.5。
社区也把证据放进了公开仓库讨论,GitHub issue 的标题就是这条近似合并关系。
更尴尬的是,在一些测试提示下,模型回答会露出 NexAGI-M2 这样的身份痕迹。
自我识别统计也不利于 Rio。截图中 Nex 和 Nex-AGI 相关名称占比很高,而 Rio 自身识别比例是零。
权重分析进一步显示,两组混合权重和接近零点九九的共线性数值,让合并假设更难被忽略。
这件事真正击中的,是开源模型生态的信任问题:高分不是全部,训练来源和许可证同样重要。
如果后续没有完整解释,Rio 3.5 从黑马到争议样本的速度,会成为模型发布透明度的一次警示。
第二条是 Nadella 的 AI 经济长文。他抛出的关键词不是提示词,而是人力资本加 Token 资本。
他的标题是:没有生态系统的前沿是不稳定的。意思是,模型能力必须嵌进工具、数据和组织流程才有长期价值。
文章把未来企业描述成两类资本同时运转:一类是人,一类是由模型调用、算力和工作流构成的 Token 能力。
这意味着企业竞争不只看有多少员工,也看能否把 AI 调用变成稳定、可治理、可复用的生产系统。
Nadella 还强调数字主权和生态互操作,因为如果算力、数据和模型被单点锁死,前沿能力本身也会变得脆弱。
马斯克的转发让这篇文章更有戏剧性。它也呼应了外界一直在问的问题:微软和 OpenAI 到底谁更依赖谁。
但从微软视角看,关键不是某个模型,而是能不能把模型接进开发者、企业软件和云平台生态。
所以这篇长文的信号是:AI 竞争正在从模型榜单,进入组织设计、成本核算和生态治理。
第三条看世界模型。智源大会上,Skywork 团队公布了 Matrix-Game 3.5 的技术路线。
文章的核心转向,是把世界模型从预测下一帧,推向状态和动作的联合生成。
这意味着模型不只要想象画面怎么变,还要同时理解键鼠、手柄、文本和动作信号怎样改变环境。
团队展示的技术路线里,实时流式、长时序记忆和交互控制是几个关键词。
支撑这条路线的,是一个研究引擎:画面中写着 5M+ 视频片段,以及 1200+ 高质量游戏场景。
应用上,文章把它连接到 agent、游戏、机器人和物理 AI 基础设施。世界模型正在从视频生成走向环境模拟。
Matrix-Game 3.5 计划在七月发布,后续关键要看技术报告里的训练细节和独立评测。
如果这条路线成立,未来 agent 可以在可交互世界里练习,而不是只在静态数据上学习。
第四条进入具身智能。腾讯 Robotics X 开源 HyVLA-0.5,目标是让真实机器人摆脱繁重遥操作。
文章称,系统用亚毫米级指套式 UMI 采集超过一万小时人类示教数据,监督训练阶段不依赖传统遥操作。
先看视频总览:它把标题、指套采集、机器人任务和强化后训练都放在一条演示里。
模型结构上,它把语言历史、视觉输入、动作专家和关节注意力放进同一个 VLA 系统。
效果图里最醒目的数值,是 RoboTwin 2.0 上 clean 90.9,randomized 90.1。
第二段视频展示两条线:同一本体微调,以及从一个机器人迁移到另一种本体的操作。
第三段视频讲 FlowPRO:它利用人类反馈偏好和真实失败数据,做强化后训练。
这一步的意义是,机器人不是只从成功样本学动作,也能从失败偏好里学到更稳的执行策略。
第四段视频是工厂场景长程 rollout,机械臂连续处理物体,强调没有剪辑和重置。
文章还展示了多机器人实验,同一套系统要覆盖不同夹爪、不同任务和不同物理约束。
这里真正值得关注的不是单个演示,而是数据、模型、后训练和执行系统被打包成开源栈。
如果指套 UMI 数据能规模化,机器人学习的数据成本会下降,VLA 模型也更容易迭代。
但真实世界机器人最难的仍是泛化和稳定性。发布视频很重要,后续第三方复现同样关键。
所以 HyVLA-0.5 的信号是:具身智能竞争正在从模型名词,进入可采集、可训练、可部署的工程闭环。
第五条是音视频生成。复旦和腾讯提出 Baton,用语义蓝图先给视频和声音打草稿。
问题在于,复杂提示不只要求画面好看,还要求动作顺序、人物对白和声音节奏都对上。
论文题目里的关键词是显式语义蓝图,也就是先规划发生什么,再生成画面和声音。
系统结构把视频流、音频流和跨模态注意力放在一起,让声音不再只是画面之后的附加物。
第一个演示是沙地爆炸场景,人物遮挡和远处烟尘需要在同一时间线里同步。
第二个演示是拳击训练,人物对话和突然出拳要保持角色关系。
第三个演示是篝火边两人互动,动作目标从拿布到放到火边,顺序很关键。
第四个演示是切肉和咀嚼,声音和画面如果错位,观感会立刻露馅。
第五个演示是车内驾驶,人物转头和后座互动需要与车内空间保持一致。
第六个演示是花园羽毛球,运动轨迹和身体动作要连贯。
第七个演示是男孩双球运球,两个球的节奏如果不稳,很容易穿帮。
第八个演示是户外持枪动作,物体姿态、人物嘴部和动作切换都需要语义约束。
第九个演示是篮球投篮,运球、出手、入筐和走回镜头是一条完整事件链。
表格结果显示,作者不只看画质,还看音频质量、同步、字词错误和动作准确性。
小表格里,Baton 与 Veo、Wan、Kling、Seedance 等模型放在一起比较,强调复杂提示下的音画逻辑。
这些演示共同说明,Baton 不是只修补某一个动作,而是试图把一段提示拆成可执行的事件计划。
有了蓝图,模型才更容易知道先发生什么、谁发出声音、声音什么时候进入,以及动作什么时候结束。
这篇研究的信号是,视频生成正在从漂亮片段竞争,转向可规划、可控、能讲清楚事件顺序的系统。
第六条是国产 GPU 上的代码生成。摩尔线程让 AI 给自己写原生 GPU 内核,并在 KernelBench 上刷到第一。
图表里,Ours 在总体正确率上明显高于 GLM、Kimi、DeepSeek 和 Claude 等对比模型。
论文题目点明关键:这是面向摩尔线程 GPU 的原生内核生成,而不是只生成通用 CUDA。
MooreEval 架构负责把生成代码拿去编译、验证、性能分析和奖励反馈,避免只看文本答案。
训练管线也很完整:数据迁移、知识蒸馏、偏好数据、监督微调和强化训练都被串起来。
三阶段图进一步解释,模型先扩展任务,再学习结构化推理,最后通过多轮反思改进代码。
这件事的看点,是国产算力生态开始用模型自动补齐底层软件和内核优化短板。
如果这类系统成熟,芯片厂商竞争的不只是硬件峰值,也包括能否让 AI 持续优化自己的软件栈。
第七条是理想汽车。Livis Day 上,李想把下一代智能汽车定义为具身智能产品。
他的判断是,现在的手机和汽车都还只是功能驱动,真正智能的车要像智能体一样感知、决策和行动。
文章把标准拆成三件事:比人安全、具备更强能力、并且比人类驾驶更高效。
理想还展示了 Mind4-Pro 的模型能力对比,强调速度、成本和端侧部署效率。
发布会大屏里的系统架构,把大模型、车辆控制、智能座舱和端到端驾驶连接起来。
马赫 M100 与 Thor-U 的对比图,则把话题推进到底层芯片和车端推理能力。
这条新闻的重点不是单次发布会,而是车企开始用具身智能语言重新定义智能汽车。
接下来要看的,是这些模型和芯片指标能否转化为真实道路上的安全、泛化和用户体验。
第八条看 Anthropic 的招聘画像。文章引用 1680 份公开履历,结论是基础设施老兵更吃香。
加入年份图显示,2025 年工程师数量大幅增加,2026 年上半年仍保持高节奏。
经验结构也很明显:加入前经验中位数是 12.2 年,9 到 18 年经验段占了很大比例。
职能上,基础设施、平台、云、机器学习和后端系统排在前面,说明 Anthropic 要的是能落地大规模系统的人。
上一份雇主里,Google、Meta、Stripe、Amazon、OpenAI 排在前列,这更像生产系统人才迁移。
学历图也打破刻板印象:本科占比最高,博士比例只有 13.7%。
学校来源仍然集中在 Stanford、伯克利、MIT 和 CMU,但这不是唯一筛选逻辑。
junior exception 图说明,少数年轻员工更可能带着博士、产品软件或大厂背景进入。
这组数据的信号是,前沿模型公司不只抢研究明星,更抢能把算力、数据和产品系统跑稳的人。
第九条是 Loop Engineering。文章说,2026 年玩 AI 的关键可能不是提示词,而是会不会设计循环。
这来自谷歌云 AI 总监 Addy Osmani 的博客,他把 AI 使用从单次输入输出,推进到持续迭代的工作流。
循环的核心是让模型执行任务、观察结果、修正计划,再把状态带回下一轮。
表格里,自动化对应计划任务,worktree 对应隔离并行尝试,skills 对应可复用知识,连接器负责工具接入。
这套说法把提示词从魔法口令,变成工程系统里的一个输入节点。
对开发者来说,真正的能力会体现在如何设计反馈、测试、状态保存和失败恢复。
这也是 agent 产品从聊天框走向实际工作的关键:模型必须被放进可重复的循环里。
所以 Loop Engineering 的重点不是新名词,而是提醒大家把 AI 当系统设计问题来处理。
第十条是北大的自动化实验室路线。两篇论文把大模型从推理,推向真实生物实验规划和执行。
BioProBench 先解决评测问题:模型到底能不能理解生物实验协议、步骤和约束。
概览图显示,它覆盖不同语料来源、任务和生物类别,不只是单一问答。
性能表则比较多个闭源和开源模型在错误识别与推理任务上的表现。
BioProAgent 再往前走一步,目标是在真实约束下做科学规划,而不是只给文字答案。
架构图里,记忆、神经符号核心、验证执行和安全互锁共同约束模型行动。
综合能力图强调,自动实验室不仅要会推理,还要能自我纠错、遵守硬件和物理约束。
这组工作的重要性,是把科学智能体从文献和代码,推向可能接管湿实验下游流程的系统。
第十一条是短论文。Claw-SWE-Bench 要拆开看 SWE-bench 分数,单独测 harness 的影响。
表格里的差距很大:base adapter 只解决 67 个任务,full adapter 到 257 个,Pass@1 从 19.1 到 73.4。
这说明,同一个模型的分数可能被测试脚手架、补丁应用和清理逻辑明显影响。
成本前沿图进一步提醒,评测不能只比最高分,还要看解决率和 API 成本。
它的价值是给编程 agent 评测降温:榜单数字之前,先确认测量工具本身是否公平。
最后一条短论文看 KIVI-Bench。它问的是:视频生成模型能不能生成事实准确、能照着做的视频。
研究者构建了 1080 条提示词,并比较 7 款模型,重点不只是美观,而是事实性和帮助性。
Pixel 10 示例很典型:一个视频视觉质量好但操作事实错,另一个事实更对但画面质量差。
结果表和人类评估显示,FactP、HelpS 这类指标更贴近人类对可用视频的偏好。
错误饼图也很清楚:实体误描和过程错误是最大问题。知识视频离好看、好用、准确还差一段距离。
机器之心 AI News Digest

机器之心 · 2026.06.15 · 12 stories · 15:20

机器之心 AI News Digest

机器之心 2026.06.15 digest with 12 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

  1. 0:00 - 1:20
    01. 一夜反转!「杀进第一梯队」的巴西LLM竟「套壳缝合」了国产模型 Source
    文章报道,前一天因跑分亮眼而受到关注的巴西 Rio 3.
  2. 1:20 - 2:37
    02. 微软CEO长文:以后两种资本,人力资本+Token资本 Source
    文章介绍微软 CEO Satya Nadella 发布的长文,核心判断是 AI 时代的企业会同时经营人力资本和 Token 资本。
  3. 2:38 - 3:45
    03. 智源大会 | 天工AI重新定义世界模型,公布Matrix-Game 3.5 最新技术突破 Source
    文章报道昆仑万维 Skywork 团队在智源大会公布 Matrix-Game 3.
  4. 3:46 - 5:47
    04. 腾讯Robotics X开源HyVLA-0.5:基于亚毫米级指套UMI与真机强化,摆脱繁重遥操 Source
    文章报道腾讯 Robotics X、福田实验室与混元团队开源 Hy-Embodied-0.
  5. 5:47 - 8:09
    05. 给音视频生成打草稿!复旦&腾讯提出Bat:首创语音蓝图指引,实现音画逻辑精准同步 Source
    文章介绍复旦大学与腾讯提出的 Baton 方法,它用显式语义蓝图指导联合视频与音频生成,目标是解决复杂提示下动作、角色、声音和时序错位的问题。
  6. 8:10 - 9:19
    06. 用国产GPU训练AI给自己写内核,摩尔线程刷榜硬核基准 Source
    文章报道摩尔线程发布 MusaCoder 与 MooreEval 执行式验证协议,用国产 GPU 训练模型生成原生 GPU 内核,并在 KernelBench 相关任务上取得领先表现。
  7. 9:20 - 10:23
    07. 理想定义具身智能汽车:比人安全、比人高效,还要对齐特斯拉FSD Source
    文章报道理想汽车 Livis Day 软件与具身智能发布会,核心是把智能汽车重新定义为基于大模型、智能体和端到端 VLA 能力的具身智能产品。
  8. 10:24 - 11:41
    08. 1680份员工履历揭开Anthropic招人底牌:「基础设施老兵」更吃香 Source
    文章转述科技招聘分析者 seb 对 1680 份 Anthropic 工程履历的统计,发现公司大规模雇佣的是有生产系统经验的构建者,而不只是理论研究员。
  9. 11:41 - 12:48
    09. 2026年玩AI必备技能:不是提示词,是循环工程 Source
    文章介绍 Addy Osmani 关于 Loop Engineering 的讨论,认为 AI 应用能力正在从写提示词转向设计循环。
  10. 12:49 - 13:52
    10. ICML&ACL Oral | 迈向全自动实验室,北大两篇顶会论文让大模型从「推理」走向「物理执行」 Source
    文章介绍北京大学团队的两篇顶会论文:BioProBench 评测生物协议理解和推理,BioProAgent 探索受约束科学规划。
  11. 13:52 - 14:35
    11. 打破SWE-bench唯分数论,首个独立测量harness的基准开源了 Source
    文章介绍 Claw-SWE-Bench,一个用于独立测量 OpenClaw 风格 agent harness 对编程任务评测影响的基准。
  12. 14:36 - 15:20
    12. 1080条提示词、7款模型大比拼:视频生成离「好看、好用又准确」还差多少? Source
    文章介绍 KIVI-Bench,一个面向知识密集型视频生成的评测集,包含 1080 条提示词和 7 款模型对比。