STORY 01 / 11
STORY 04 / 11
STORY 05 / 11
文章称,Mind Lab 首次开源 Macaron-V1-Preview,目标直指 Agent 后训练。
这款模型标称 749B 参数,基于 GLM5.1,激活参数约 40B。
文章强调,模型开发使用不到 300 张 GPU,算力成本不到同尺寸模型公司的 1%。
第一个演示展示模型处理任务型输入,而不是只输出普通聊天回答。
路线规划演示中,模型调用工具给出公共交通方案和约束信息。
另一段演示把动态交通、库存和用户偏好写进检查清单。
文章还把 A2UI 和生成式交互界面作为模型能力重点。
第四段视频展示任务输出界面,说明模型会把答案组织成可操作页面。
第五段演示继续展示生活任务中的页面生成和任务分解。
小游戏和菜谱界面显示,模型输出已经进入可交互应用形态。
后续演示覆盖更多任务类型,用来说明模型不是只适配单一场景。
第九段素材展示多步骤交互,强化 Agent 持续执行的定位。
这条新闻的关键,是把大模型发布和真实任务后训练放在同一个框架里。
文章称,高德发布 ABot-Earth0.5,定位是 3D 原生城市世界模型。
它的核心差异,是直接用 3D 数据训练,而不是从 2D 图像蒸馏三维结构。
用户输入卫星图或文字后,文章称模型能在消费级单卡上快速生成 3D 城市。
技术上,ABot-Earth0.5 先把大型 3DGS 场景压缩到隐空间,再生成新场景。
为了做公里级连续构建,模型还引入滑窗推理,把分块场景在重叠区域融合。
输出内容可导入 Unity、Unreal Engine 等引擎,说明它瞄准的是可交付 3D 资产。
真正值得跟进的,是它能否在真实城市尺度上保持几何、纹理和地理一致性。
文章称,腾讯发布 WorkBuddy 企业版,想抢占 AI 办公统一入口。
文章指出,企业现在不缺 AI 小工具,缺的是把团队任务真正跑起来的入口。
腾讯云负责人刘毅提到,用户最常问的是如何把同事也拉进 AI 协作流程。
这次腾讯云发布或升级了覆盖 20 多个垂直场景的 AI 工具。
个人侧包括 QClaw、WorkBuddy、元宝、ima 和腾讯文档,企业侧则强化 WorkBuddy 企业版。
这条新闻的核心,是企业 Agent 正在从个人助手走向团队任务调度。
后续要看的,是跨系统权限、任务成功率和员工采用率能否支撑真实落地。
文章称,一个新词正在扩散:Tokenpocalypse,也就是 token 末日。
起因是 GitHub Copilot 转向基于 token 的计费,不同模型成本乘数差异很大。
文章提到,部分模型的单 token 价格可能是其他模型的 60 倍。
企业的困境是,过去要求员工多用 AI,现在又担心一个人烧完整月预算。
这意味着 AI 生产力不只看速度,还要看配额、权限、限额和每次任务的收益。
文章的核心判断是,AI 正从免费试用式扩张,进入更强商业约束阶段。
文章称,阿里 RTP 团队推出 RTPurboV2,继续压缩原生 Transformer 的注意力成本。
背景是 Agent 带来越来越长的序列,Full Attention 的 O(N²) 成本再次成为瓶颈。
V1 已经把 85% 注意力头转成滑动窗口注意力,实现 5 倍 KV 和 Attention 压缩。
V2 进一步处理剩下的 Full Attention,通过 Headwise 压缩、低秩投影和聚类减少计算。
文章的关键判断是,Full Attention 模型本身已经形成稀疏结构,压缩是在释放这种结构。
如果这种路线稳定,长上下文 Agent 可以继续使用原生 Transformer,同时降低推理成本。
文章介绍了一个很生活化的 AI 项目,用视觉和硬件系统对付蚊子。
项目作者 Steven Cheng 是计算机视觉和机器人方向工程师。
视频里能看到摄像头、代码界面和运动装置,说明它不是纯软件玩具。
这个系统要做三件事,识别蚊子、实时追踪位置,再把控制信号传给硬件。
文章也特别强调安全性,演示是在科研设备和封闭环境里进行。
它真正有意思的地方,是把目标检测、机器人控制和现实小问题接到了一起。
后续仍要看误识别率、成本和安全规范,尤其不能把演示直接当成消费品。
文章介绍 MANGO,用强化学习优化多智能体流网络。
问题在于,多智能体链路容易把单个节点幻觉或错误继续向后传播。
MANGO 把任务分解、路径选择和节点更新放进同一个优化框架。
原文视频展示多智能体流程界面,说明框架面向可执行工作流。
这篇论文的意义,是让 Agent Swarm 不只靠人工规则,而能学习协作结构。
文章介绍 δ-mem,用一个 8×8 矩阵给冻结 Transformer 加长期记忆。
它针对的是长对话和长期 Agent 中,历史信息难以持续复用的问题。
文章称,这个模块参数只占骨干模型的 0.12%,但记忆任务最高提升 1.31 倍。
与扩上下文不同,δ-mem 更像给模型加一个在线更新的关联记忆状态。
关键问题是,这种轻量记忆能否经受真实长期对话和个性化任务考验。
文章介绍 NVIDIA 的 PiD,把文生图最后的解码步骤改成生成过程。
传统流程先在潜空间生成,再由解码器还原像素,细节常常依赖后续超分。
PiD 让 decoder 主动生成细节,并在解码时完成 4 倍或 8 倍上采样。
文章称,它能把 512 latent 直接解码成 2048 像素输出,并在 GB200 上约 210ms 完成 2K 解码。
这篇论文的意义,是提醒我们高精图像模型的瓶颈可能藏在最后一步。
文章介绍 PepFGLD,一个面向全原子多肽设计的 ICML 2026 模型。
难点在于,多肽序列、三维结构和受体结合构象会相互影响。
PepFGLD 使用柔性感知序列结构 VAE 和时间相关能量引导扩散。
文章称,它既生成氨基酸序列,也生成精确到每个原子的三维结构。
真正要验证的,是这些候选多肽能否在实验中表现出亲和力、稳定性和可合成性。
文章介绍 Prompt Reinjection,解决文生图模型在深层逐渐忘掉提示词的问题。
问题不是模型一开始没理解,而是文本表示在去噪层数加深时丢失细粒度语义。
方法是在推理阶段,把浅层文本特征重新注入深层 Transformer 块。
它的吸引力在于无需重新训练,就能改善多对象、颜色、数量和空间关系遵循。
后续要看的是,这种推理期修正是否会增加延迟,或影响图像质感。