STORY 02 / 13
STORY 06 / 13
STORY 08 / 13
STORY 11 / 13
今天的头条是Claude Fable 5。Anthropic把它定位成当前最强公开模型,重点能力落在代码、知识工作、视觉和科研任务上。
官方发布材料强调,这不是单一基准的提升,而是多类任务一起抬升,所以开发者社区很快把它和一次大版本跃迁相提并论。
价格端也同步变化。文章展示的套餐和API截图显示,使用门槛和调用成本都在上移,这会影响团队是否把它放进生产链路。
在代码能力上,文章给出FrontierCode曲线和多个编程基准截图。重点不是分数本身,而是它在长任务和复杂仓库场景里更稳。
Agentic coding柱状图继续补充这个结论。Fable 5被放在SWE-bench和HumanEval等任务里比较,优势主要体现在更像持续工作的工程助手。
不过这也提醒我们,模型升级不等于自动降本。能力更强、价格更高,真正要验证的是每个团队能否把更高成本换成更少返工。
所以Fable 5的意义,是把模型竞争再次推回真实工作流:不只看会不会回答,而要看能不能稳定完成长链路任务。
Claude Code这类产品火起来之后,一个更底层的问题浮出水面:强的coding agent靠的不只是模型,还靠外部执行系统。
UIUC、Meta和斯坦福的综述把这套系统称为Agent Harness。它负责把推理、行动、反馈和验证串成一个能持续工作的闭环。
图里的关键不是工具越多越好,而是模型在读代码、调用工具、运行测试、查看错误之后,能回到同一个任务脉络里继续推进。
文章进一步说,代码本身正在变成智能体的操作对象。它既是计划,也是环境,也是协作语言,还能成为可验证的中间状态。
这解释了为什么一个agent产品需要沙箱、权限、记忆、测试器和恢复机制。没有这些,模型只是在聊天,不是在完成工程任务。
同一套思路还会扩展到GUI、操作系统、科研和机器人。未来的竞争,很可能发生在模型与harness的组合质量上。
因此,这篇文章的价值在于把抽象的agent能力拆开:模型负责推理,harness负责把推理变成可追踪、可恢复的行动。
美团GN06团队把Tabbit 1.0推到正式版。它不是把聊天框贴在浏览器旁边,而是把AI能力嵌入网页处理流程。
发布现场最醒目的关键词是永久免费。文章称,Tabbit经历公测和多轮更新后,开始面向macOS和Windows用户推广。
它的入口仍然像浏览器,但侧边栏里有对话、妙招、智能代理和脚本。用户不必在网页、笔记和大模型工具之间来回搬运内容。
在演示里,Tabbit可以直接读取网页上下文,帮用户整理论文、抽取信息,甚至辅助填写和切换页面里的控件。
动图里还能看到,它会把网页内容拆成结构化结果,再把用户追问放回当前页面语境里处理。
这对研究和办公场景尤其有价值。以前要复制文本、整理表格、再让模型总结,现在很多步骤可以在同一个浏览器窗口里完成。
不过,AI浏览器真正难的不是能不能演示,而是面对复杂网页、登录状态和权限边界时,能不能稳定且可控地执行。
所以Tabbit的看点,是浏览器正在从信息展示窗口变成任务入口。它能不能留下来,要看日常任务里是否真的少了切换和返工。
如果这个方向成立,下一代浏览器竞争的重点,就会从页面渲染转向网页语境里的代理执行能力。
微信AI生态开始向开发者开放内测。它的重点不是再做一个聊天入口,而是让外部服务可以被微信AI调用。
当前阶段,用户还不能直接体验完整功能;是否接入,也由开发者自己决定,不会影响原有小程序服务。
得物被放在显眼位置,是因为它的商品鉴别、导购、下单和履约链路,天然适合被agent调用成一个连续任务。
美团、携程和同程这些生活服务平台也参与内测,说明微信想连接的不只是内容,而是交易和本地生活动作。
真正的问题会落在权限、履约和用户确认上。微信AI如果要替用户办事,就必须把每一步服务边界讲清楚。
阿里千问把agent落到一个非常具体的场景:高考志愿填报。这里的难点不是回答问题,而是处理一堆互相牵制的选择。
发布会把产品称为高考志愿填报专家Agent,面向全国考生免费提供咨询。它要覆盖分数、位次、专业、城市和风险偏好。
为了提前踩坑,团队让40万名AI考生模拟填报,并生成1300万份志愿报告,用来测试不同分数段和地区策略。
报告页面里,用户可以看到院校、专业和录取风险信息。相比普通聊天,这更像一个带结构化数据的决策工具。
产品还加入性格测试和偏好收集,因为志愿填报不只是分数匹配,也会受到兴趣、城市和家庭成本的影响。
不过,AI建议必须保留解释链路。考生真正需要的是知道为什么推荐,而不是只看到一个看似权威的列表。
所以这个案例值得关注:它把agent从演示视频推进到高风险真实决策,但也要求更强的数据更新和责任边界。
多智能体协作正在从热闹的分工演示,走向更难的一步:怎样让一群agent按可控流程把任务做完。
openJiuwen这次开源的SwarmFlow,重点是工作流编排。它把目标、角色、步骤和验收条件放进同一个流程结构。
过去,多agent容易看起来很聪明,却在复杂任务里重复、偏航或者互相等待。SwarmFlow想解决的是协作过程的稳定性。
界面截图显示,系统会把不同智能体、子任务和执行状态组织在一起,让用户能看到团队到底在做哪一步。
第一个演示视频里,多agent围绕一个具体任务推进,关键不是角色数量,而是每个节点都有清晰输入和输出。
第二个视频继续展示任务分析和协作拆解。它更像把一次成功经验变成可复用流程,而不是让agent自由聊天。
第三个视频则把场景换到业务任务,说明SwarmFlow希望服务的不只是研究demo,也包括企业里的复杂流程。
从终端日志可以看到,流程执行还需要清楚记录谁完成了什么、哪里失败、下一步由哪个agent接手。
因此,SwarmFlow的核心价值不是把agent数量堆多,而是让协作变成可检查、可复用、可恢复的工程流程。
具身智能现在遇到的问题,很像几年前的自动驾驶:数据不少,但很多数据没有被组织进统一的物理空间。
BEV的价值,是把多相机、多传感器和多任务输出,压到一个可以被规划系统直接理解的坐标系里。
跨维智能把这个思路迁移到机器人灵巧操作,目标是让数据不再只是图片堆积,而是带有空间关系的训练资产。
文章里的任务拼图显示,采集场景覆盖多种物体、平台和操作任务。这正是机器人数据规模化前必须解决的异构问题。
硬件和远程操作接口也被放进同一套框架。因为没有稳定的数据入口,后面的模型训练很难真正扩大规模。
演示视频展示了3D浏览器里的空间查看和交互。它让读者看到,机器人任务数据可以被当作可浏览、可标注的空间对象。
规模曲线给出的直觉很清楚:对齐后的数据越多,性能提升越稳;未对齐数据堆得再多,收益也更容易变慢。
当然,BEV不是万能答案。机器人还要面对硬件差异、接触动力学和安全执行,这些都比自动驾驶更杂。
但这篇文章说明了一个方向:具身智能要继续扩大规模,可能先要把真实世界整理成机器能稳定读取的空间数据库。
机器人方向还有一条竞赛消息:中科第五纪联合清华团队,在ICRA 2026抓取与操控竞赛中拿到全球冠军。
他们参加的是Picking in Clutter Track,也就是杂乱环境抓取赛道。这个任务贴近真实仓储和服务机器人场景。
这类比赛难在物体遮挡、形状变化和抓取顺序。机器人必须先看清环境,再规划动作,还要在执行中处理不确定性。
文章把这次夺冠和具身操作大脑联系起来,说明国内团队在视觉识别、运动规划和动态适配上继续推进。
不过,竞赛冠军只是一个强信号。真正走向产业,还要证明系统在成本、可靠性和新物体迁移上都能站住。
MINT这篇研究抓住了VLA的一个痛点:机器人不能只学会模仿轨迹,还要理解这条轨迹背后的任务意图。
论文题目也很直接,叫Mimic Intent, Not Just Trajectories。模型要学的是为什么这么做,而不只是手怎么移动。
方法图把意图空间、任务视频和机器人动作连在一起,目标是提升组合泛化和少样本迁移。
结果对比显示,MINT在CALVIN和LIBERO等基准上有提升,尤其关注长程任务和新任务迁移。
DRDD重新追问扩散模型里的噪声。噪声不只是要被去掉的扰动,也可能帮助不同图像域对齐。
论文全称是Decoupled Residual Denoising Diffusion Models,目标是统一处理图像到图像翻译任务。
方法图里,残差去噪和域协调被拆开建模,让模型同时学习要保留什么、又要改变什么。
实验覆盖低光、去雨、去雾和风格转换。指标曲线显示,噪声水平会影响SSIM和LPIPS。
Fable 5发布后,研究社区里还有另一种声音:一些AI研究者觉得,Claude在研究任务里会被安全策略拖住。
文章收集的社交媒体截图显示,批评集中在合法研究问题被拒答、被误判,或者输出质量突然下降。
Jake的帖子更具体:他认为模型会把某些AI研究任务当作危险请求处理,导致原本正常的技术分析无法继续。
这背后的冲突很典型。安全策略要防止滥用,但如果规则太粗,也可能误伤需要复现实验和分析模型行为的研究者。
Anthropic自己的材料也在强调更安全的AI系统。问题是,安全边界如何透明、可解释、可申诉,仍然没有简单答案。
所以这条新闻不只是模型翻车吐槽,它提醒我们:越强的模型进入科研流程,越需要精细化权限和清晰的研究者通道。
数学界也在回应AI浪潮。《人工智能与数学莱顿宣言》提醒人们,不受控制的自动化可能改变基础科学的运行方式。
宣言由16位数学专家发起,关注AI辅助证明、自动生成、同行评议和学术共同体责任。
签署者已经超过2000位。这个数字说明,数学界并不是简单排斥AI,而是希望先把使用边界和学术规范讲清楚。
文章的重点是,数学不只追求答案,还追求证明过程和理解本身。如果自动化替代了这些环节,学科意义会被改变。
接下来要看的,是期刊、会议和学校会不会把宣言变成具体规则,比如标注AI使用、限制自动生成证明或调整审稿标准。
MiniAppBench关心AI交互的下一步:模型不只是回答一段话,而是直接生成一个可点击的小程序。
文章引用Karpathy的判断:传统应用商店式分发正在变旧,未来可能是按需生成的临时应用。
MiniAppBench把评测对象变成可交互界面,考察模型能否生成能用、能点、能完成任务的小程序。
结果表和仓库截图说明,这不是概念展示,而是一套可以复现和比较的交互基准。