STORY 01 / 2

01. Syll 多模态全交互智能体框架

Syll 桌面工作台界面，展示多面板交互环境。

Syll 通知样式截图，呈现个人助手式交互入口。

Photoshop 图像编辑演示，智能体通过 GUI 去除图像背景。

Godot 网格任务演示，智能体根据界面状态执行移动。

Blender 场景编辑演示，智能体逐步构建三维桌面场景。

Syll Capture 演示，记录用户操作并整理为可复用技能。

Syll 本地工作台总览，呼应模块化桌面助手定位。

Blender 多步骤桌面任务演示，体现复杂软件中的智能体执行能力。

STORY 02 / 2

02. Pion 谱保持优化器

Pion 论文标题图，突出谱保持优化器和正交等价变换。

AdamW/Muon 类加法更新公式：W 下一步等于当前权重减去学习率乘更新量。

Pion 更新公式，展示输入侧和输出侧的正交群更新。

极端深层 LLM 训练曲线，Pion 的 loss 轨迹更平滑。

zero-shot 指标表：Pion 平均 47.69，Muon 平均 46.34，AdamW 平均 44.74。

RLVR 数学推理表：Pion 在两个模型上取得最高平均分。

Jiqizhixin reports Syll, an open-source multimodal interactive agent framework for personal desktop automation.

机器之心这篇报道的重点，是清华智能视觉实验室和极佳开源了 Syll：一个面向个人电脑自动化的多模态全交互智能体框架。它想解决的不是单点工具调用，而是让智能体真正进入桌面工作流。

The article frames four pain points: fragmented interfaces, hard teaching, opaque execution, and privacy or customization limits.

文章先指出，当前个人 AI 智能体常见的痛点有四个：界面割裂、教学门槛高、执行过程不透明，以及隐私和定制困难。很多系统能调 API、会跑命令，但遇到闭源桌面软件，就很难覆盖真实工作。

Syll puts GUI, CLI, MCP, and APIs into one execution loop, choosing the right action surface for each task.

Syll 的第一层能力，是把 GUI、CLI、MCP 和 API 放进同一个执行回路。能结构化调用的任务就走接口；需要观察屏幕、点击按钮、处理弹窗的任务，就走 GUI；批量和工程任务则可以切到命令行。

GUI is treated as a first-class action space, not a fallback when APIs are unavailable.

这个判断很关键：Syll 不是把 GUI 当成 API 失效后的补丁，而是把它视为电脑操作的一等动作空间。像 Photoshop 的图层、画布和局部视觉判断，本来就不是一个简单接口可以完整表达的。

In Godot-like workflows, the agent must read interface state and feedback before acting.

第二个例子是 Godot。文章强调，真实软件任务往往混合界面状态、运行反馈和错误信息。智能体需要理解当前棋盘或游戏状态，再决定下一步，而不是盲目复现坐标。

Blender shows why desktop agents need vision, spatial understanding, clicks, and tool integration together.

第三个例子是 Blender。建模和场景编辑的状态分散在视图、对象层级、属性面板和空间关系里。Syll 的设计目标，是让智能体能看见、点到、跑得动，也能在合适的时候接上工具。

“Teaching as skill” lets users demonstrate a workflow once, then turn it into a reusable skill.

Syll 的第二个核心，是“示教即技能”。用户不用先写脚本、规则或插件配置，只需要按自己的习惯把任务做一遍；系统记录关键视觉锚点、键鼠动作、窗口状态和上下文，再沉淀成可复用技能。

The learned artifact is not a rigid recording, but a reusable and revisable workflow skill.

这里学到的不是一段死板录屏，也不是一个固定按钮坐标，而是“用户如何完成这个任务”。下一次执行时，技能可以继续被调用、检查和修正，这降低了普通用户教会智能体的门槛。

Syll records an auditable trace: observations, tool calls, waits, retries, and action-channel switches.

第三个核心，是可审计。Syll 会留下执行轨迹：它看见了什么、调用了什么工具、在哪一步等待、哪里重试、为什么切换动作通道。用户仍然保有关键决策的最终把控权。

Finally, Syll stores memory, skills, rules, and preferences locally, making it a desktop assistant and a developer framework.

最后是本地模块化架构。文章说，Syll 的记忆、技能、规则和偏好，都以本地可编辑文件组织。开发者可以把它当桌面助手，也可以把它当研究和开发框架，独立扩展特定场景的技能插件。

The key claim is a full desktop-agent system: multiple action spaces, teachable skills, auditability, and local extensibility.

所以，这条新闻的关键信息不是“Syll 又做了一个 agent”，而是它把个人电脑自动化拆成了一个完整系统：多动作空间、低门槛示教、可审计执行和本地可扩展架构。

Pion is an optimizer study focused on stabilizing weight spectra, not just lowering loss faster.

第二条是一个优化器研究：Pion。文章说，它的核心不是让 loss 更快下降，而是把权重更新限制在等谱流形上，让大模型训练时的谱结构更稳定。

AdamW and Muon use additive updates; Pion reframes updates as rotations in feature space.

文章的动机是，AdamW 和 Muon 本质上还是加法更新：沿梯度方向改参数，但不主动约束权重矩阵几何结构。Pion 则把更新改成特征空间里的旋转，而不是直接拉伸参数。

Orthogonal transformations preserve singular values, so weights rotate without unconstrained scale growth.

具体做法是通过左右两侧的正交变换保持奇异值不变。这样训练中权重不是无约束放大，而是在保持谱结构的前提下调整表示空间。

In a deep-network stress test, reported loss variation is AdamW 0.0931, Muon 0.0927, and Pion 0.0892.

实验里，Pion 在预训练稳定性上表现更平坦。文章给出的极端深层设置中，loss 波动标准差分别是 AdamW 0.0931、Muon 0.0927、Pion 0.0892。

On zero-shot metrics, Pion averages 47.69, above Muon 46.34 and AdamW 44.74, while Muon has the lowest val loss.

zero-shot 表上，Pion 的平均分是 47.69，高于 Muon 的 46.34 和 AdamW 的 44.74；但 Val Loss 最低的是 Muon，说明文章重点更偏向稳定性和泛化指标，而不是单一 loss。

In RLVR math reasoning, Pion reports the best averages: 36.12 on Qwen3-1.7B and 38.32 on the DeepSeek distilled model.

在 RLVR 数学推理里，Pion 也拿到最高平均分：Qwen3-1.7B 是 36.12，DeepSeek 蒸馏模型是 38.32。文章的结论是，优化器下一阶段可能不只是更快下降，而是更可控、更结构化、更长期稳定。

机器之心 · 2026.05.30 · 2 stories · 4:43

机器之心 AI News Digest

机器之心 2026.05.30 digest with 2 source-grounded stories, bilingual captions, synchronized narration, and source media panels.

Stories

0:00 - 3:06

01. 01. Syll 多模态全交互智能体框架 Source
Syll 是清华智能视觉实验室与极佳开源的多模态全交互智能体框架，重点是把个人电脑自动化做成一个完整系统：统一 GUI、CLI、MCP/API，支持示教即技能、全程审计追踪和本地模块化扩展。
3:07 - 4:43

02. 02. Pion 谱保持优化器 Source
Pion 是一类谱保持优化器，文章把它的价值概括为：通过等谱流形和正交等价变换，让权重主要在特征空间旋转，而不是在训练中无约束放大参数尺度，从而改善大模型训练稳定性。