机器之心 AI NEWS DIGEST
2026 06 10
STORY 01 / 13

Claude Fable 5发布,性能和价格同时跃升

01-01
Fable 5发布封面。
01-02
Claude官方发布截图。
01-03
订阅与API价格对比。
01-04
FrontierCode基准曲线。
01-05
编程基准柱状图。
Fable 5演示视频片段。
STORY 02 / 13

Agent Harness解释Claude Code背后的执行系统

02-01
Agent Harness封面。
02-02
综述论文首页。
02-03
Harness系统总览。
02-04
代码角色分类图。
02-05
Harness执行机制。
02-06
Agent应用形态图。
02-07
Harness总览回看。
STORY 03 / 13

美团Tabbit 1.0上线,AI浏览器开始自动干活

03-01
Tabbit产品标志。
03-02
Tabbit 1.0发布现场。
03-03
Tabbit浏览器首页。
Tabbit浏览器操作演示。
网页内容问答动图。
网页侧栏整理结果。
网页控件操作动图。
网页信息处理动图。
Tabbit浏览器操作演示。
STORY 04 / 13

微信AI生态开放内测,得物和本地生活平台率先接入

04-01
得物物流场景封面。
04-02
得物包装盒配图。
04-03
首批平台接入线索。
04-04
得物履约相关画面。
STORY 05 / 13

千问高考志愿Agent上线,先让40万AI考生试跑

05-01
志愿填报主题插画。
05-02
千问志愿Agent发布现场。
05-03
1300万份报告指标。
05-04
志愿报告页面。
05-05
MBTI性格测试界面。
志愿报告交互演示。
05-07
发布会规模指标。
STORY 06 / 13

SwarmFlow开源,多智能体协作开始强调可控流程

06-01
JIUWEN SWARM封面。
06-02
SwarmFlow架构图。
06-03
多agent协作流程图。
06-04
SwarmFlow界面截图。
多agent流程执行演示。
任务分析协作演示。
业务任务协作演示。
06-08
多agent终端日志。
06-09
团队技能生成界面。
STORY 07 / 13

BEV进入具身智能,机器人数据开始追求可规模化

07-01
Dexterity-BEV封面。
07-02
Dexterity-BEV标题图。
07-03
BEV方法框图。
07-04
多任务采集拼图。
07-05
机器人平台接口图。
3D浏览器交互演示。
07-07
数据规模化曲线。
07-08
机器人硬件平台拼图。
3D浏览器交互演示。
STORY 08 / 13

中科第五纪与清华团队获得ICRA机器人抓取赛冠军

08-01
ICRA一等奖证书。
08-02
杂乱抓取赛道证书。
08-03
ICRA赛场报告现场。
08-04
ICRA冠军证书回看。
STORY 09 / 13

MINT让VLA从模仿轨迹走向理解意图

09-01
机械臂操作封面。
09-02
MINT论文首页。
09-03
MINT方法总览图。
09-04
CALVIN结果对比。
STORY 10 / 13

DRDD重新解释扩散模型里的噪声作用

10-01
图像翻译任务封面。
10-02
DRDD论文首页。
10-03
DRDD方法总览。
10-04
噪声水平指标曲线。
STORY 11 / 13

研究者质疑Claude在AI研究任务中被限制

11-01
Fable 5争议封面。
11-02
研究者批评截图。
11-03
研究者吐槽截图。
11-04
Anthropic安全文档截图。
11-05
Anthropic安全系统页面。
11-06
研究者评论截图。
STORY 12 / 13

莱顿宣言提醒数学界谨慎对待AI自动化

12-01
AI与数学主题封面。
12-02
莱顿宣言官网首页。
12-03
宣言签署者列表。
12-04
莱顿宣言页面。
12-05
签署者页面回看。
STORY 13 / 13

MiniAppBench用小程序评测AI生成可交互应用

13-01
MiniAppBench封面。
13-02
应用形态讨论截图。
13-03
文本与小程序输出对比。
13-04
MiniAppBench结果表。
今天的头条是Claude Fable 5。Anthropic把它定位成当前最强公开模型,重点能力落在代码、知识工作、视觉和科研任务上。
官方发布材料强调,这不是单一基准的提升,而是多类任务一起抬升,所以开发者社区很快把它和一次大版本跃迁相提并论。
价格端也同步变化。文章展示的套餐和API截图显示,使用门槛和调用成本都在上移,这会影响团队是否把它放进生产链路。
在代码能力上,文章给出FrontierCode曲线和多个编程基准截图。重点不是分数本身,而是它在长任务和复杂仓库场景里更稳。
Agentic coding柱状图继续补充这个结论。Fable 5被放在SWE-bench和HumanEval等任务里比较,优势主要体现在更像持续工作的工程助手。
不过这也提醒我们,模型升级不等于自动降本。能力更强、价格更高,真正要验证的是每个团队能否把更高成本换成更少返工。
所以Fable 5的意义,是把模型竞争再次推回真实工作流:不只看会不会回答,而要看能不能稳定完成长链路任务。
Claude Code这类产品火起来之后,一个更底层的问题浮出水面:强的coding agent靠的不只是模型,还靠外部执行系统。
UIUC、Meta和斯坦福的综述把这套系统称为Agent Harness。它负责把推理、行动、反馈和验证串成一个能持续工作的闭环。
图里的关键不是工具越多越好,而是模型在读代码、调用工具、运行测试、查看错误之后,能回到同一个任务脉络里继续推进。
文章进一步说,代码本身正在变成智能体的操作对象。它既是计划,也是环境,也是协作语言,还能成为可验证的中间状态。
这解释了为什么一个agent产品需要沙箱、权限、记忆、测试器和恢复机制。没有这些,模型只是在聊天,不是在完成工程任务。
同一套思路还会扩展到GUI、操作系统、科研和机器人。未来的竞争,很可能发生在模型与harness的组合质量上。
因此,这篇文章的价值在于把抽象的agent能力拆开:模型负责推理,harness负责把推理变成可追踪、可恢复的行动。
美团GN06团队把Tabbit 1.0推到正式版。它不是把聊天框贴在浏览器旁边,而是把AI能力嵌入网页处理流程。
发布现场最醒目的关键词是永久免费。文章称,Tabbit经历公测和多轮更新后,开始面向macOS和Windows用户推广。
它的入口仍然像浏览器,但侧边栏里有对话、妙招、智能代理和脚本。用户不必在网页、笔记和大模型工具之间来回搬运内容。
在演示里,Tabbit可以直接读取网页上下文,帮用户整理论文、抽取信息,甚至辅助填写和切换页面里的控件。
动图里还能看到,它会把网页内容拆成结构化结果,再把用户追问放回当前页面语境里处理。
这对研究和办公场景尤其有价值。以前要复制文本、整理表格、再让模型总结,现在很多步骤可以在同一个浏览器窗口里完成。
不过,AI浏览器真正难的不是能不能演示,而是面对复杂网页、登录状态和权限边界时,能不能稳定且可控地执行。
所以Tabbit的看点,是浏览器正在从信息展示窗口变成任务入口。它能不能留下来,要看日常任务里是否真的少了切换和返工。
如果这个方向成立,下一代浏览器竞争的重点,就会从页面渲染转向网页语境里的代理执行能力。
微信AI生态开始向开发者开放内测。它的重点不是再做一个聊天入口,而是让外部服务可以被微信AI调用。
当前阶段,用户还不能直接体验完整功能;是否接入,也由开发者自己决定,不会影响原有小程序服务。
得物被放在显眼位置,是因为它的商品鉴别、导购、下单和履约链路,天然适合被agent调用成一个连续任务。
美团、携程和同程这些生活服务平台也参与内测,说明微信想连接的不只是内容,而是交易和本地生活动作。
真正的问题会落在权限、履约和用户确认上。微信AI如果要替用户办事,就必须把每一步服务边界讲清楚。
阿里千问把agent落到一个非常具体的场景:高考志愿填报。这里的难点不是回答问题,而是处理一堆互相牵制的选择。
发布会把产品称为高考志愿填报专家Agent,面向全国考生免费提供咨询。它要覆盖分数、位次、专业、城市和风险偏好。
为了提前踩坑,团队让40万名AI考生模拟填报,并生成1300万份志愿报告,用来测试不同分数段和地区策略。
报告页面里,用户可以看到院校、专业和录取风险信息。相比普通聊天,这更像一个带结构化数据的决策工具。
产品还加入性格测试和偏好收集,因为志愿填报不只是分数匹配,也会受到兴趣、城市和家庭成本的影响。
不过,AI建议必须保留解释链路。考生真正需要的是知道为什么推荐,而不是只看到一个看似权威的列表。
所以这个案例值得关注:它把agent从演示视频推进到高风险真实决策,但也要求更强的数据更新和责任边界。
多智能体协作正在从热闹的分工演示,走向更难的一步:怎样让一群agent按可控流程把任务做完。
openJiuwen这次开源的SwarmFlow,重点是工作流编排。它把目标、角色、步骤和验收条件放进同一个流程结构。
过去,多agent容易看起来很聪明,却在复杂任务里重复、偏航或者互相等待。SwarmFlow想解决的是协作过程的稳定性。
界面截图显示,系统会把不同智能体、子任务和执行状态组织在一起,让用户能看到团队到底在做哪一步。
第一个演示视频里,多agent围绕一个具体任务推进,关键不是角色数量,而是每个节点都有清晰输入和输出。
第二个视频继续展示任务分析和协作拆解。它更像把一次成功经验变成可复用流程,而不是让agent自由聊天。
第三个视频则把场景换到业务任务,说明SwarmFlow希望服务的不只是研究demo,也包括企业里的复杂流程。
从终端日志可以看到,流程执行还需要清楚记录谁完成了什么、哪里失败、下一步由哪个agent接手。
因此,SwarmFlow的核心价值不是把agent数量堆多,而是让协作变成可检查、可复用、可恢复的工程流程。
具身智能现在遇到的问题,很像几年前的自动驾驶:数据不少,但很多数据没有被组织进统一的物理空间。
BEV的价值,是把多相机、多传感器和多任务输出,压到一个可以被规划系统直接理解的坐标系里。
跨维智能把这个思路迁移到机器人灵巧操作,目标是让数据不再只是图片堆积,而是带有空间关系的训练资产。
文章里的任务拼图显示,采集场景覆盖多种物体、平台和操作任务。这正是机器人数据规模化前必须解决的异构问题。
硬件和远程操作接口也被放进同一套框架。因为没有稳定的数据入口,后面的模型训练很难真正扩大规模。
演示视频展示了3D浏览器里的空间查看和交互。它让读者看到,机器人任务数据可以被当作可浏览、可标注的空间对象。
规模曲线给出的直觉很清楚:对齐后的数据越多,性能提升越稳;未对齐数据堆得再多,收益也更容易变慢。
当然,BEV不是万能答案。机器人还要面对硬件差异、接触动力学和安全执行,这些都比自动驾驶更杂。
但这篇文章说明了一个方向:具身智能要继续扩大规模,可能先要把真实世界整理成机器能稳定读取的空间数据库。
机器人方向还有一条竞赛消息:中科第五纪联合清华团队,在ICRA 2026抓取与操控竞赛中拿到全球冠军。
他们参加的是Picking in Clutter Track,也就是杂乱环境抓取赛道。这个任务贴近真实仓储和服务机器人场景。
这类比赛难在物体遮挡、形状变化和抓取顺序。机器人必须先看清环境,再规划动作,还要在执行中处理不确定性。
文章把这次夺冠和具身操作大脑联系起来,说明国内团队在视觉识别、运动规划和动态适配上继续推进。
不过,竞赛冠军只是一个强信号。真正走向产业,还要证明系统在成本、可靠性和新物体迁移上都能站住。
MINT这篇研究抓住了VLA的一个痛点:机器人不能只学会模仿轨迹,还要理解这条轨迹背后的任务意图。
论文题目也很直接,叫Mimic Intent, Not Just Trajectories。模型要学的是为什么这么做,而不只是手怎么移动。
方法图把意图空间、任务视频和机器人动作连在一起,目标是提升组合泛化和少样本迁移。
结果对比显示,MINT在CALVIN和LIBERO等基准上有提升,尤其关注长程任务和新任务迁移。
DRDD重新追问扩散模型里的噪声。噪声不只是要被去掉的扰动,也可能帮助不同图像域对齐。
论文全称是Decoupled Residual Denoising Diffusion Models,目标是统一处理图像到图像翻译任务。
方法图里,残差去噪和域协调被拆开建模,让模型同时学习要保留什么、又要改变什么。
实验覆盖低光、去雨、去雾和风格转换。指标曲线显示,噪声水平会影响SSIM和LPIPS。
Fable 5发布后,研究社区里还有另一种声音:一些AI研究者觉得,Claude在研究任务里会被安全策略拖住。
文章收集的社交媒体截图显示,批评集中在合法研究问题被拒答、被误判,或者输出质量突然下降。
Jake的帖子更具体:他认为模型会把某些AI研究任务当作危险请求处理,导致原本正常的技术分析无法继续。
这背后的冲突很典型。安全策略要防止滥用,但如果规则太粗,也可能误伤需要复现实验和分析模型行为的研究者。
Anthropic自己的材料也在强调更安全的AI系统。问题是,安全边界如何透明、可解释、可申诉,仍然没有简单答案。
所以这条新闻不只是模型翻车吐槽,它提醒我们:越强的模型进入科研流程,越需要精细化权限和清晰的研究者通道。
数学界也在回应AI浪潮。《人工智能与数学莱顿宣言》提醒人们,不受控制的自动化可能改变基础科学的运行方式。
宣言由16位数学专家发起,关注AI辅助证明、自动生成、同行评议和学术共同体责任。
签署者已经超过2000位。这个数字说明,数学界并不是简单排斥AI,而是希望先把使用边界和学术规范讲清楚。
文章的重点是,数学不只追求答案,还追求证明过程和理解本身。如果自动化替代了这些环节,学科意义会被改变。
接下来要看的,是期刊、会议和学校会不会把宣言变成具体规则,比如标注AI使用、限制自动生成证明或调整审稿标准。
MiniAppBench关心AI交互的下一步:模型不只是回答一段话,而是直接生成一个可点击的小程序。
文章引用Karpathy的判断:传统应用商店式分发正在变旧,未来可能是按需生成的临时应用。
MiniAppBench把评测对象变成可交互界面,考察模型能否生成能用、能点、能完成任务的小程序。
结果表和仓库截图说明,这不是概念展示,而是一套可以复现和比较的交互基准。
机器之心 AI News Digest

机器之心 · 2026.06.10 · 13 stories · 14:01

机器之心 AI News Digest

机器之心 2026.06.10 digest with 13 source-grounded stories, Chinese captions, synchronized narration, and source media panels.

Stories

  1. 0:00 - 1:22
    01. Claude Fable 5发布,性能和价格同时跃升 Source
    Anthropic发布Claude Fable 5,主打更强的软件工程、知识工作、视觉和科研能力。
  2. 1:22 - 2:41
    02. Agent Harness解释Claude Code背后的执行系统 Source
    文章围绕UIUC、Meta和斯坦福的综述《Code as Agent Harness》,解释为什么强大的coding agent不只是会写代码,还需要能规划、执行、验证和迭代的外部系统。
  3. 2:42 - 4:17
    03. 美团Tabbit 1.0上线,AI浏览器开始自动干活 Source
    美团GN06团队推出Tabbit 1.
  4. 4:17 - 5:08
    04. 微信AI生态开放内测,得物和本地生活平台率先接入 Source
    微信开放平台开始向开发者提供接入微信AI生态的能力,当前仍处内测阶段。
  5. 5:08 - 6:21
    05. 千问高考志愿Agent上线,先让40万AI考生试跑 Source
    阿里千问发布面向高考志愿填报的免费Agent。
  6. 6:22 - 7:51
    06. SwarmFlow开源,多智能体协作开始强调可控流程 Source
    openJiuwen社区开源SwarmFlow,定位为面向多智能体团队的可控工作流编排。
  7. 7:51 - 9:21
    07. BEV进入具身智能,机器人数据开始追求可规模化 Source
    跨维智能把自动驾驶里的BEV思想引入具身智能,提出Dexterity-BEV方向。
  8. 9:22 - 10:14
    08. 中科第五纪与清华团队获得ICRA机器人抓取赛冠军 Source
    中科第五纪联合清华大学孙富春教授团队组成Youth2Real战队,在ICRA 2026第11届Robotic Grasping and Manipulation Competition的Picking in Clutter Track中获得全球冠军。
  9. 10:15 - 10:54
    09. MINT让VLA从模仿轨迹走向理解意图 Source
    上海创智学院和上海交大提出MINT,面向机器人视觉语言动作模型的组合泛化和迁移问题。
  10. 10:54 - 11:31
    10. DRDD重新解释扩散模型里的噪声作用 Source
    DRDD研究把扩散模型中的高斯噪声重新解释为域协调器,而不是只把噪声看成需要被去掉的扰动。
  11. 11:31 - 12:33
    11. 研究者质疑Claude在AI研究任务中被限制 Source
    围绕Claude Fable 5,研究社区出现一条反向声音:一些研究者认为,模型在AI和大模型相关研究任务中会因为策略限制变得不稳定或拒答。
  12. 12:33 - 13:26
    12. 莱顿宣言提醒数学界谨慎对待AI自动化 Source
    《人工智能与数学莱顿宣言》由16位数学专家发起,并获得2000多位学者签署。
  13. 13:27 - 14:01
    13. MiniAppBench用小程序评测AI生成可交互应用 Source
    蚂蚁提出MiniAppBench并入选ICML 2026 Spotlight,关注AI从生成文本走向生成可交互小程序。