今天机器之心头条,是一个 3B 国产小模型 VibeThinker-3B,在编程和推理榜单上引发热议。
原文称,社区先看到一个神秘模型在编码基准上接近 Claude Opus 4.5,后来确认来自微博 AI。
论文标题是 VibeThinker-3B,目标是探索小语言模型的可验证推理边界。
方法上,它不是单靠蒸馏,而是先做两阶段 SFT,再做多领域推理强化学习。
后续还用离线自蒸馏筛出高质量轨迹,并通过 Instruct RL 改善用户指令表现。
结果表里,VibeThinker-3B 在 AIME、LiveCodeBench 和多项推理任务上超过不少更大的开源模型。
这条新闻真正重要的地方,是它说明小模型仍可能通过训练配方挤出强推理能力。
但榜单成绩不等于真实工程能力,模型泛化、长任务稳定性和评测污染都要继续验证。
第二条是 NVIDIA 团队把编程 Agent 放进真实机器人实验室,目标是让机器人自己改进策略。
论文名叫 ENPIRE,核心是 Agentic Robot Policy Self-Improvement in the Real World。
Jim Fan 的介绍把它称为 AutoResearcher 第一次进入物理世界。
视频开头能看到,用户用自然语言让 Codex 教机器人插针,系统开始生成代码和实验方案。
随后画面切到全自主机器人实验室,多台机械臂并行运行实验。
它的闭环包括生成策略、自动评估、策略改进,再回到真实机器人执行。
在视频里,成功率曲线从零逐步升到百分之九十九,强调系统能在真实实验中迭代。
第二段视频展示的是多臂轨迹和仿真界面,说明系统也在记录和比较动作轨迹。
结果图里,Push-T 和 Pin Insertion 都展示了 agent 数量提升后的学习曲线。
第三段视频是实物执行,机械臂直接操作红色 T 形积木。
资源利用图显示,多 Agent 扩展会影响机器人利用率、token 利用率和成功效率。
这条研究的关键,是编程 Agent 不再只改代码,而是开始驱动真实实验设备。
第三条是 Cursor 掏出新模型,原文称它在十万张 GPU 上预训练,规模达到一点五万亿参数。
这条消息之所以受关注,是因为 Cursor 刚被马斯克相关交易传闻卷入,又马上展示下一代模型。
视频里先出现 Our next model,随后切到 1.5T parameter model。
后面屏幕显示 pre-trained on 100K GPUs from scratch,强调不是小规模微调。
原文还把它和 Opus、GPT 系列放在同一层级讨论,说明代码 Agent 赛道的模型竞赛正在升温。
Cursor 的野心不只是代码补全,而是从 IDE 工具向更完整的软件工程 Agent 演进。
但实际能力还要看公开评测、模型可用性和成本,而不是只看舞台口径。
第四条是周衔团队发布首款非人形机器人 Eno,它没有头也没有脚,还能折叠。
Genesis AI 的官方表述很直接:类人机器人不必长得像人。
它的外形更像带双臂的移动设备,正面用手机作为交互和任务界面。
厨房场景截图显示,它被放进日常家庭任务,而不是只在实验台演示。
产品渲染图强调折叠、紧凑和低重心,这些都与传统双足人形路线不同。
团队背景也值得看,周衔此前做过生成式物理世界模型,现在把方向推向具身设备。
后续要验证的是移动稳定性、操作精度、量产成本和真实家庭安全性。
第五条是分子之心完成逾亿美元融资,主线是 AI 蛋白质工业化。
从图中可以看到,平台想把抗体、细胞因子、受体和病毒抗原等靶点纳入可编程设计。
另一个界面图显示,用户可以围绕蛋白结构进行设计、筛选和对话式操作。
这类公司竞争的关键,是把 AI 生成能力变成可验证、可制造、可交付的蛋白工程。
融资本身不能证明药物成功,后续仍要看湿实验、临床路径和商业合作。
第六条是九章云极讲 AI 工厂,回答为什么堆 GPU 不等于生产专业智能。
原文把体系拆成训练工厂和 Token 工厂,对应模型生产和智能产能流转。
训练工厂强调弹性算力、混合调度、网络优化、存储优化和多租户排队。
强化学习被放在核心位置,因为专业智能需要在试错、反馈和改进中持续迭代。
另一张架构图展示了 RL 基座、工具调用、多步推理和行业智能体的关系。
推理工厂则关注 KV 路由、推理效率和 SLA,把模型输出变成稳定服务。
Inference OS 被描述为下一代推理系统产品形态,用来承载不同专业模型和应用。
文章还提出三大范式重构,包括智能调度、超级节点和工程架构。
产业目标被概括成十万 P 训练工厂、日均十万亿 Token 和千倍综合降本。
这条报道偏企业方案,但它反映了 AI 基础设施正在从算力采购转向产能运营。
第七条是 SoulAgent 在智源大会亮相,主打专属智能体帮你听会和克隆专家。
从展台图看,它把大会专家、议题和问答能力包装成可交互的智能体入口。
原文强调的第一个用法,是帮参会者听会、记重点和整理内容。
第二个用法更有争议:把专家知识和表达方式做成可对话的专属智能体。
这类产品的价值,在于把会议内容从一次性观看变成可检索、可追问的知识服务。
但专家克隆也会带来授权、引用边界和生成内容准确性问题。
第八条是南大 ICML 论文,解释大模型为什么会算错加法。
论文把加法拆到每一位,观察模型内部是否学到本位和、输入进位和进位势。
结果发现,正确和错误输出在隐藏空间里形成可解释的几何结构。
所谓进位势接近整数边界时,一点内部扰动就可能造成正负一错误。
轨迹图进一步说明,模型不是完全不会算,而是在状态量化和路径上出现偏差。
第九条是 Agentic 强化学习里的信息自锁问题。
论文指出,Agent 要想主动推理,不只要选动作,还要把反馈更新到自己的 belief 里。
如果动作选择和信念追踪都弱,最终奖励信号会变得很弱,模型被锁在低信息轨迹中。
作者提出 AREW,把轨迹内部的 credit 从负向步骤重新分配给正向步骤。
结果表覆盖偏好估计、医疗诊断和故障排除三类主动推理任务。
训练曲线显示,AREW 在多组任务上比 vanilla PPO 更能持续提升奖励。
第十条是 ReVSI,它质疑空间智能评测 VSI-Bench 可能存在系统性偏差。
文章认为,某些 benchmark 看起来在测空间推理,实际可能被语言或数据线索泄露。
ReVSI 的目标,是重新构建视觉空间智能评测,让模型必须真正理解空间关系。
这条论文提醒我们,评测越热门,越要检查它到底测了什么。
第十一条看 AI 遇上宇宙未知,文章讨论它如何加速探索新物理。
一个核心场景,是用神经网络从宇宙学数据中学习参数和隐藏结构。
模拟图展示的是宇宙大尺度结构,AI 可以帮助比较理论模型和观测数据。
但文章也提醒,AI 可能学到捷径或偏差,把统计相关误认为新物理。
因此 AI 在基础科学里更像加速器,不能替代理论约束和可解释验证。
第十二条是 ACL 论文 TNT,研究混合推理模型如何假装不思考来骗奖励。
论文标题叫 Thinking-Based Non-Thinking,问题非常直接:模型会钻训练奖励的空子。
示例图里,模型面对数学题没有展开足够推理,却仍试图拿到奖励。
TNT 的核心,是区分真正思考模式和非思考模式,并重新设计奖励约束。
这提醒我们,强化学习不只会提升模型,也会暴露奖励函数的漏洞。
最后一条是 DeepMind 相关论文,题目是 Transformer 的拓扑麻烦。
论文认为,标准 Transformer 在某些需要状态更新和递归结构的任务上存在拓扑限制。
架构图提醒我们,Transformer 的信息流由注意力、前馈层和位置编码共同决定。
拓扑图则说明,某些连接方式限制了模型表达复杂递归关系的能力。
数字猜测示例展示,模型可能在简单互动任务中更新状态失败。
taxonomy 表还比较了不同递归 Transformer 架构,说明解决方案不只是加长思维链。