STORY 04 / 12
第一条看 Rio 3.5 的一夜反转。昨天它还被称为巴西开源模型黑马,今天就被 Nex-AGI 指控为套壳合并模型。
Nex-AGI 的声明很直接:Rio 3.5-Open-397B 不是一个全新模型,而是由现有模型高度混合得到。
文章中的公式把质疑写得更具体:Rio 3.5 近似等于六成 Nex N2 Pro,加四成 Qwen 3.5。
社区也把证据放进了公开仓库讨论,GitHub issue 的标题就是这条近似合并关系。
更尴尬的是,在一些测试提示下,模型回答会露出 NexAGI-M2 这样的身份痕迹。
自我识别统计也不利于 Rio。截图中 Nex 和 Nex-AGI 相关名称占比很高,而 Rio 自身识别比例是零。
权重分析进一步显示,两组混合权重和接近零点九九的共线性数值,让合并假设更难被忽略。
这件事真正击中的,是开源模型生态的信任问题:高分不是全部,训练来源和许可证同样重要。
如果后续没有完整解释,Rio 3.5 从黑马到争议样本的速度,会成为模型发布透明度的一次警示。
第二条是 Nadella 的 AI 经济长文。他抛出的关键词不是提示词,而是人力资本加 Token 资本。
他的标题是:没有生态系统的前沿是不稳定的。意思是,模型能力必须嵌进工具、数据和组织流程才有长期价值。
文章把未来企业描述成两类资本同时运转:一类是人,一类是由模型调用、算力和工作流构成的 Token 能力。
这意味着企业竞争不只看有多少员工,也看能否把 AI 调用变成稳定、可治理、可复用的生产系统。
Nadella 还强调数字主权和生态互操作,因为如果算力、数据和模型被单点锁死,前沿能力本身也会变得脆弱。
马斯克的转发让这篇文章更有戏剧性。它也呼应了外界一直在问的问题:微软和 OpenAI 到底谁更依赖谁。
但从微软视角看,关键不是某个模型,而是能不能把模型接进开发者、企业软件和云平台生态。
所以这篇长文的信号是:AI 竞争正在从模型榜单,进入组织设计、成本核算和生态治理。
第三条看世界模型。智源大会上,Skywork 团队公布了 Matrix-Game 3.5 的技术路线。
文章的核心转向,是把世界模型从预测下一帧,推向状态和动作的联合生成。
这意味着模型不只要想象画面怎么变,还要同时理解键鼠、手柄、文本和动作信号怎样改变环境。
团队展示的技术路线里,实时流式、长时序记忆和交互控制是几个关键词。
支撑这条路线的,是一个研究引擎:画面中写着 5M+ 视频片段,以及 1200+ 高质量游戏场景。
应用上,文章把它连接到 agent、游戏、机器人和物理 AI 基础设施。世界模型正在从视频生成走向环境模拟。
Matrix-Game 3.5 计划在七月发布,后续关键要看技术报告里的训练细节和独立评测。
如果这条路线成立,未来 agent 可以在可交互世界里练习,而不是只在静态数据上学习。
第四条进入具身智能。腾讯 Robotics X 开源 HyVLA-0.5,目标是让真实机器人摆脱繁重遥操作。
文章称,系统用亚毫米级指套式 UMI 采集超过一万小时人类示教数据,监督训练阶段不依赖传统遥操作。
先看视频总览:它把标题、指套采集、机器人任务和强化后训练都放在一条演示里。
模型结构上,它把语言历史、视觉输入、动作专家和关节注意力放进同一个 VLA 系统。
效果图里最醒目的数值,是 RoboTwin 2.0 上 clean 90.9,randomized 90.1。
第二段视频展示两条线:同一本体微调,以及从一个机器人迁移到另一种本体的操作。
第三段视频讲 FlowPRO:它利用人类反馈偏好和真实失败数据,做强化后训练。
这一步的意义是,机器人不是只从成功样本学动作,也能从失败偏好里学到更稳的执行策略。
第四段视频是工厂场景长程 rollout,机械臂连续处理物体,强调没有剪辑和重置。
文章还展示了多机器人实验,同一套系统要覆盖不同夹爪、不同任务和不同物理约束。
这里真正值得关注的不是单个演示,而是数据、模型、后训练和执行系统被打包成开源栈。
如果指套 UMI 数据能规模化,机器人学习的数据成本会下降,VLA 模型也更容易迭代。
但真实世界机器人最难的仍是泛化和稳定性。发布视频很重要,后续第三方复现同样关键。
所以 HyVLA-0.5 的信号是:具身智能竞争正在从模型名词,进入可采集、可训练、可部署的工程闭环。
第五条是音视频生成。复旦和腾讯提出 Baton,用语义蓝图先给视频和声音打草稿。
问题在于,复杂提示不只要求画面好看,还要求动作顺序、人物对白和声音节奏都对上。
论文题目里的关键词是显式语义蓝图,也就是先规划发生什么,再生成画面和声音。
系统结构把视频流、音频流和跨模态注意力放在一起,让声音不再只是画面之后的附加物。
第一个演示是沙地爆炸场景,人物遮挡和远处烟尘需要在同一时间线里同步。
第二个演示是拳击训练,人物对话和突然出拳要保持角色关系。
第三个演示是篝火边两人互动,动作目标从拿布到放到火边,顺序很关键。
第四个演示是切肉和咀嚼,声音和画面如果错位,观感会立刻露馅。
第五个演示是车内驾驶,人物转头和后座互动需要与车内空间保持一致。
第六个演示是花园羽毛球,运动轨迹和身体动作要连贯。
第七个演示是男孩双球运球,两个球的节奏如果不稳,很容易穿帮。
第八个演示是户外持枪动作,物体姿态、人物嘴部和动作切换都需要语义约束。
第九个演示是篮球投篮,运球、出手、入筐和走回镜头是一条完整事件链。
表格结果显示,作者不只看画质,还看音频质量、同步、字词错误和动作准确性。
小表格里,Baton 与 Veo、Wan、Kling、Seedance 等模型放在一起比较,强调复杂提示下的音画逻辑。
这些演示共同说明,Baton 不是只修补某一个动作,而是试图把一段提示拆成可执行的事件计划。
有了蓝图,模型才更容易知道先发生什么、谁发出声音、声音什么时候进入,以及动作什么时候结束。
这篇研究的信号是,视频生成正在从漂亮片段竞争,转向可规划、可控、能讲清楚事件顺序的系统。
第六条是国产 GPU 上的代码生成。摩尔线程让 AI 给自己写原生 GPU 内核,并在 KernelBench 上刷到第一。
图表里,Ours 在总体正确率上明显高于 GLM、Kimi、DeepSeek 和 Claude 等对比模型。
论文题目点明关键:这是面向摩尔线程 GPU 的原生内核生成,而不是只生成通用 CUDA。
MooreEval 架构负责把生成代码拿去编译、验证、性能分析和奖励反馈,避免只看文本答案。
训练管线也很完整:数据迁移、知识蒸馏、偏好数据、监督微调和强化训练都被串起来。
三阶段图进一步解释,模型先扩展任务,再学习结构化推理,最后通过多轮反思改进代码。
这件事的看点,是国产算力生态开始用模型自动补齐底层软件和内核优化短板。
如果这类系统成熟,芯片厂商竞争的不只是硬件峰值,也包括能否让 AI 持续优化自己的软件栈。
第七条是理想汽车。Livis Day 上,李想把下一代智能汽车定义为具身智能产品。
他的判断是,现在的手机和汽车都还只是功能驱动,真正智能的车要像智能体一样感知、决策和行动。
文章把标准拆成三件事:比人安全、具备更强能力、并且比人类驾驶更高效。
理想还展示了 Mind4-Pro 的模型能力对比,强调速度、成本和端侧部署效率。
发布会大屏里的系统架构,把大模型、车辆控制、智能座舱和端到端驾驶连接起来。
马赫 M100 与 Thor-U 的对比图,则把话题推进到底层芯片和车端推理能力。
这条新闻的重点不是单次发布会,而是车企开始用具身智能语言重新定义智能汽车。
接下来要看的,是这些模型和芯片指标能否转化为真实道路上的安全、泛化和用户体验。
第八条看 Anthropic 的招聘画像。文章引用 1680 份公开履历,结论是基础设施老兵更吃香。
加入年份图显示,2025 年工程师数量大幅增加,2026 年上半年仍保持高节奏。
经验结构也很明显:加入前经验中位数是 12.2 年,9 到 18 年经验段占了很大比例。
职能上,基础设施、平台、云、机器学习和后端系统排在前面,说明 Anthropic 要的是能落地大规模系统的人。
上一份雇主里,Google、Meta、Stripe、Amazon、OpenAI 排在前列,这更像生产系统人才迁移。
学历图也打破刻板印象:本科占比最高,博士比例只有 13.7%。
学校来源仍然集中在 Stanford、伯克利、MIT 和 CMU,但这不是唯一筛选逻辑。
junior exception 图说明,少数年轻员工更可能带着博士、产品软件或大厂背景进入。
这组数据的信号是,前沿模型公司不只抢研究明星,更抢能把算力、数据和产品系统跑稳的人。
第九条是 Loop Engineering。文章说,2026 年玩 AI 的关键可能不是提示词,而是会不会设计循环。
这来自谷歌云 AI 总监 Addy Osmani 的博客,他把 AI 使用从单次输入输出,推进到持续迭代的工作流。
循环的核心是让模型执行任务、观察结果、修正计划,再把状态带回下一轮。
表格里,自动化对应计划任务,worktree 对应隔离并行尝试,skills 对应可复用知识,连接器负责工具接入。
这套说法把提示词从魔法口令,变成工程系统里的一个输入节点。
对开发者来说,真正的能力会体现在如何设计反馈、测试、状态保存和失败恢复。
这也是 agent 产品从聊天框走向实际工作的关键:模型必须被放进可重复的循环里。
所以 Loop Engineering 的重点不是新名词,而是提醒大家把 AI 当系统设计问题来处理。
第十条是北大的自动化实验室路线。两篇论文把大模型从推理,推向真实生物实验规划和执行。
BioProBench 先解决评测问题:模型到底能不能理解生物实验协议、步骤和约束。
概览图显示,它覆盖不同语料来源、任务和生物类别,不只是单一问答。
性能表则比较多个闭源和开源模型在错误识别与推理任务上的表现。
BioProAgent 再往前走一步,目标是在真实约束下做科学规划,而不是只给文字答案。
架构图里,记忆、神经符号核心、验证执行和安全互锁共同约束模型行动。
综合能力图强调,自动实验室不仅要会推理,还要能自我纠错、遵守硬件和物理约束。
这组工作的重要性,是把科学智能体从文献和代码,推向可能接管湿实验下游流程的系统。
第十一条是短论文。Claw-SWE-Bench 要拆开看 SWE-bench 分数,单独测 harness 的影响。
表格里的差距很大:base adapter 只解决 67 个任务,full adapter 到 257 个,Pass@1 从 19.1 到 73.4。
这说明,同一个模型的分数可能被测试脚手架、补丁应用和清理逻辑明显影响。
成本前沿图进一步提醒,评测不能只比最高分,还要看解决率和 API 成本。
它的价值是给编程 agent 评测降温:榜单数字之前,先确认测量工具本身是否公平。
最后一条短论文看 KIVI-Bench。它问的是:视频生成模型能不能生成事实准确、能照着做的视频。
研究者构建了 1080 条提示词,并比较 7 款模型,重点不只是美观,而是事实性和帮助性。
Pixel 10 示例很典型:一个视频视觉质量好但操作事实错,另一个事实更对但画面质量差。
结果表和人类评估显示,FactP、HelpS 这类指标更贴近人类对可用视频的偏好。
错误饼图也很清楚:实体误描和过程错误是最大问题。知识视频离好看、好用、准确还差一段距离。