STORY 01 / 12
STORY 02 / 12
STORY 03 / 12
STORY 04 / 12
STORY 05 / 12
STORY 06 / 12
STORY 10 / 12
STORY 11 / 12
STORY 12 / 12
今天的头条来自 OpenAI。公司已经秘密提交 S-1 注册声明,为未来首次公开募股先打开了通道。
这还不是确定上市日期的官宣。OpenAI 的说法更谨慎:它只是让公司在需要时可以更早进入公开市场。
报道援引彭博消息称,OpenAI 正与高盛和摩根士丹利合作,最快的时间窗口可能落在今年秋季。
这条消息的背景,是 OpenAI 今年 3 月完成了史上最大一轮融资,承诺资本达到 1220 亿美元,投后估值达到 8520 亿美元。
同一天,Sam Altman 和首席科学家 Jakub Pachocki 还发布长文,强调 AI 应服务全人类,而不是只集中到少数公司或个人手里。
所以,这次 IPO 线索真正值得看的,不只是上市本身,而是 OpenAI 如何在资本需求、治理承诺和前沿 AI 安全之间重新平衡。
苹果这次 WWDC 的主角,是一个被重新包装的 Siri AI。它被放在库克交棒前的关键节点上,承担了苹果追赶 AI 节奏的压力。
新版 Siri AI 基于 Apple Intelligence,报道称背后使用苹果与谷歌合作的 Gemini 大模型,并会覆盖 iPhone、iPad、Mac、Apple Watch 和 Vision Pro。
它的第一个变化,是更自然的语音。用户可以调整语速、语气和口音,让 Siri 不再只是机械式命令入口。
更关键的是个人上下文。Siri 可以从信息、邮件和照片中找线索,例如找出朋友提过的餐厅,或调出旧邮件里的酒店确认号。
当开发者把应用接入 Spotlight,这种上下文能力还可以扩展到第三方应用,变成跨应用查找和执行任务的入口。
新版 Siri 也重新贴近现代 iPhone:它会常驻灵动岛,并用文字卡片回答来自网页、短信或当前屏幕的问题。
写作也是重点。Write with Siri 可以参考用户平时的沟通方式,帮人在邮件和信息中起草更贴近语境的内容。
苹果还准备了一个独立 Siri 应用,界面更接近 ChatGPT、Claude 和 Gemini,支持文字或语音对话,并保留历史记录。
从产品角度看,这不是一次模型榜单发布,而是苹果把设备、个人数据和应用动作重新缝成 AI 助手的一次尝试。
真正的考验会在上线后出现:Siri AI 能否稳定理解个人上下文,并把跨应用任务做完,而不是只多一个聊天窗口。
蚂蚁国际这条新闻,讲的是 AI 智能体购物真正落地时最麻烦的一层:怎么付款,怎么授权,怎么让商户相信订单是真的。
新推出的 AMP,也就是移动智能体协议,面向电子钱包、超级应用和数字银行,试图让商户一次接入,就能服务多个市场的智能体交易。
报道给出的背景是,智能体商业市场在 2025 年约 57 亿美元,到 2030 年可能增长到约 280 亿美元。
AMP 把五件事放进同一套协议:智能体身份、用户授权、支付、结算和信任。对商户来说,这比单纯接一个模型接口复杂得多。
其中 KYA 是智能体认证体系,用来判断订单来自可信智能体,而不是欺诈流量或偏离用户原意的自动操作。
AgentSafePay 则把资金兜底能力扩展到智能体交易里,让用户和商户在异常支付时仍有赔付与风险保护。
所以,这条新闻的行业意义在于:智能体商业的瓶颈不只是模型能力,还包括跨钱包、跨市场、跨终端的交易信任网络。
Anthropic 的这项研究,把生物学 Agent 的瓶颈从模型能力,转向了数据基础设施。
他们构建了 VirBench:120 个人工核对的病毒序列查询,覆盖 40 种病原体,任务来自真实病毒学工作流。
问题在于,同一个查询在不同运行里可能返回完全不同的数据集。西非埃博拉案例中,期望值是 266 条序列,模型三次只找回 106、15 和 5 条。
这种差异不是小误差。它可能把病毒共同祖先时间推到 1922 年,也可能漏掉关键地区样本,直接改变公共卫生判断。
为了解决这个问题,研究团队和 NCBI 合作推出 gget virus,把网页里的过滤规则变成可脚本化、可复现的命令行和 Python 工具。
结果很清楚:一旦给智能体接入 gget virus,所有智能体准确率都超过 90%,GPT-5.5 的峰值达到 99.7%。
这条新闻的结论很朴素:科学 Agent 要可靠,底层数据管道必须无聊、可复查、可重复。
PhysForge 这篇 ICML 2026 工作,解决的是 3D 生成里一个很实际的问题:模型不能只好看,还要能被操作。
传统 3D 生成常停留在外观和纹理层面。PhysForge 要补上的,是部件、材质、质量、关节和运动范围这些物理结构。
它的流程分成两步:先让 VLM 做物理规划,生成层级化蓝图;再由扩散模型生成几何、纹理和关节参数。
研究团队还构建了 PhysDB,包含 15 万个 3D 资产,并给资产标注功能部件、静态属性和可交互属性。
视频里可以看到,一个物体不是只被生成出来,而是被标出 open、close 这样的可操作状态。
同一套资产还能标出 pick up、put down、on、off 这类动作入口,让虚拟场景具备可执行的功能语义。
第二段视频把资产放进机器人仿真环境,机械臂可以按关节约束操作柜门和部件。
这意味着,PhysForge 的产物可以服务机器人仿真、游戏引擎,也可以给具身智能 Agent 提供可查询的环境对象。
当然,这条路线仍依赖标注覆盖、生成稳定性和物理参数质量。可交互,不等于每个生成对象都能立即可靠部署。
但方向很清楚:未来的 3D 资产不只是视觉素材,而会成为机器人和虚拟世界真正能理解、能操作的环境单元。
另一篇 Anthropic 博客把问题讲得更宽:为什么 Coding Agent 进展很快,生物学 Agent 却慢得多。
文章的比喻很形象:让 Agent 操作今天的生物数据基础设施,就像让汽车穿过汽车出现前建好的老城。
这些系统有特殊文件格式、分散数据库、隐含筛选规则和一次性脚本。人可以慢慢点,机器却很难稳定复现。
文章还借用 Karpathy 的 Web 开发吐槽:代码往往不是最难的,身份验证、支付、部署和浏览器点击才让 Agent 卡住。
放到生物学里,错误会更贵。错误基因组版本、RefSeq 和 GenBank 混用、分节病毒字段不一致,都可能让下游解释失效。
所以博客的重点不是再喊一个更强模型,而是建设可脚本化、可验证、可复查的执行层。
科学 Agent 真正能进实验室之前,很多数据库和工作流都要先为机器重修道路。
HRM-Text 是一个很适合短讲的研究故事:约 1B 参数,从零预训练,却在多个推理基准上打出了醒目的小模型成绩。
报道列出的数字包括 MATH 56.2、GSM8K 84.5、ARC-Challenge 81.9,训练成本约 1500 美元,16 块 H100 不到两天。
它的架构重点,是把高层模块和低层模块放进同一个网络,在预测 token 前进行固定次数的潜空间递归更新。
为了让这种递归稳定训练,团队引入 MagicNorm 和 warmup deep credit assignment,逐步增加梯度需要追溯的内部计算步数。
所以 HRM-Text 的价值,不是宣称小模型已经取代规模化路线,而是证明预训练效率仍有架构创新空间。
这篇空间智能综述的出发点很直接:智能体看到的永远只是眼前一角,但行动时必须理解更大的世界。
论文把认知地图定义为空间智能系统的内部表征蓝图,用来连接空间感知、空间推理和空间生成。
这张地图需要同时具备三种性质:把原始输入抽象成对象和关系,整合跨视角的全局布局,并在时间中持续维护。
从这个视角看,地图可以作为 embedding,被模型内部调用;也可以作为 prompt 或 API,被语言模型和工具链查询更新。
综述最后把应用分成开环空间认知和闭环空间交互。真正的难点,是让地图在行动中被不断检验、修正和使用。
VLM3 讲的是三维视觉里的一个反直觉结果:标准视觉语言模型,也可能学会过去由专家模型承担的 3D 任务。
它的主张很简洁:不改 VLM 架构,不渲染特殊 marker,只做焦距归一化和像素空间归一化,再用文字监督训练。
结果覆盖四类任务:单目深度估计、目标级三维理解、像素匹配和相机姿态估计。
报道给出的关键数字是,DepthLM 的准确率从 84 提升到 90;目标级三维理解还用更少参数超过 SpatialRGPT。
如果这个结论站得住,三维视觉的下一步可能不再是为每个任务写一套专家结构,而是把 3D 能力并入统一多模态训练。
PRISM 这篇文章关注一个长序列问题:Transformer 记忆能力强,但成本随序列增长;线性注意力快,却常常写入太浅。
线性注意力像一个有限背包。每来一个 token,模型必须决定写什么、擦什么;但传统 rank-1 写入一次只能改动很窄的方向。
TTT 能做更深的多步写入,却因为权重迭代更新引入串行依赖,训练吞吐量会大幅下降。
PRISM 的做法,是把 TTT 的步长、残差、方向模式显式重建出来,同时让这些量不依赖全局历史状态。
局部 anchor 用来消除 token 间串行,闭合式预计算用来消除 step 间串行,这样 parallel scan 的骨架可以保留下来。
实验里,PRISM 在四个序列推荐基准上接近或超过强基线,同时保持与 GDN 同级的吞吐量。
最醒目的对比,是 PRISM 匹配 TTT 质量的同时,吞吐量比 TTT-MLP 快 174 倍。
在语言建模表格中,PRISM 的 Wiki PPL、LMB PPL 和平均准确率也处于领先位置,说明方法不只服务推荐。
技术上,它把额外参数控制在不到基础模型的 10%,并且在 L 等于 1 时自然退化为 GDN。
这条新闻的意义,是线性复杂度模型可能不必在长上下文效率和深层记忆写入之间二选一。
Noam Brown 提出的评测问题很重要:当模型会用更多推理时间和工具时,一个最终分数可能已经不够用了。
传统榜单把数学、编程、科学和网络安全压成几项分数,但它往往没有说明模型花了多少 token、多少钱和多长时间。
Brown 的观点是,模型表现越来越取决于测试时计算量。更强模型可能不仅起点高,也更能把额外推理预算转成能力。
他举到的复杂任务里,性能平台期可能远超现实预算。部分安全评测中,模型使用超过 1 亿 token 后仍在继续改善。
因此,只跑到最高分再比较,未必公平;只比较同一最终榜单,也可能低估新模型在低成本或高预算区间的优势。
Brown 建议发布性能、成本和延迟曲线。例如 ARC-AGI 已经开始把分数和运行成本放在同一张图里。
这会影响模型发布,也会影响安全政策。未来评估一个模型,可能必须同时报告它能做到什么,以及它需要多少推理资源才做到。
OneReason 讨论的是推荐系统里的一个新问题:当 LLM 已经进入 reasoning 阶段,推荐系统还能不能只靠统计共现继续扩展。
文章认为,冷启用户、长尾物料、跨域迁移和多目标策略,正在让纯粹放大统计模型的路线遇到硬墙。
推荐里的推理,更接近溯因:用户行为是结果,潜在兴趣才是原因,模型要从噪声行为里反推出为什么此刻该推荐这个物料。
OneReason 的训练从 578B 数据的三阶段预训练开始,先让推荐语义和通识语义建立更深的对齐。
接着,团队设计推荐专属 CoT,把归纳、溯因和演绎写进推理格式,而不是直接照搬通用 LLM 的思考模板。
在线实验里,报道称 OneReason 在快手本地生活广告带来 10.33% 曝光提升、8.23% 广告收入提升,ROI 大于 5。
更关键的是 benchmark:OneReason 让 thinking 模式在推荐基础模型上稳定超过 non-thinking,Pass@4 平均领先 13.45%。
同时,MMLU-pro、GPQA-Diamond 等通识评估基本保留 Qwen3-8B 原始水平,说明推荐训练没有明显损伤基座能力。
部署层面,OneReason 指向的是 Agentic RecSys:系统不只打分,还能规划、解释、调用工具并进行多轮推荐。
这条新闻真正重要的地方,是推荐逻辑有机会从黑盒权重,变成可读、可干预、可迭代的认知过程。