返回博客
GUI AgentWorld ModelRLEnvironment Interaction

从生成式走向执行式:GUI Agent

Fan Sicheng2025-09-246 minZH | EN

在各个模型惊艳全球的当下,我们似乎陷入了一种集体无意识的误区:认为 AI 的终极形态就是生成更完美的文本、更逼真的图像或更流畅的视频。无论是 Transformer 的架构优化,还是 DiT的胜利,本质上都在解决同一个问题——拟合数据的概率分布,并生成符合该分布的Content Output。

然而,当我们把目光转向 GUI Agent时,我们必须意识到,这并非现有技术路线的简单延伸,而是一次正交方向的突围

业界目前尝试的 MCP等标准化接口协议,虽然在试图弥合模型与工具的鸿沟,但它们只是冰山一角。GUI Agent 的核心价值在于它打破了“内容产出”的闭环,进入了“环境交互”的层面。GenAI 的目标是“降低信息熵”,GUI Agent 的目标则是“控制状态熵”。

1. 并没有“输出”,只有Side Effects

绝大多数现有的 AI 模型,其输出是无状态的(Stateless)。你生成一张图片,这张图片除了占用存储空间外,对物理世界或数字系统的状态没有任何影响。如果你不满意,可以重新生成,成本极低。

但 GUI Agent 的本质完全不同。它的核心不在于“输出”了什么 token,而在于它执行的 Action 对环境产生了什么Side Effects

GenAIP(xt+1x0:t)P(x_{t+1} | x_{0:t}) —— 预测下一个最可能的符号。
Agentπ(atst)st+1\pi(a_t | s_t) \rightarrow s_{t+1} —— 选择一个动作,导致环境状态发生不可逆的坍缩。

当一个 GUI Agent 点击“提交订单”按钮,或者在数据库管理后台删除了以行记录时,Environment的状态被永久改变了。这种与环境的强耦合意味着 Agent 必须具备 GenAI 所不需要的两种核心能力:
1.因果推理(Causal Reasoning):理解 ActionStateAction \rightarrow State 的状态转移方程,而不仅仅是文本的语义关联。
2.状态价值评估(Value Estimation):在稀疏奖励的环境中,判断当前状态 sts_t 距离目标状态 gg 还有多远。

在这个维度上,GUI Agent 是具身智能(Embodied AI)在数字世界的投影。屏幕就是它的物理世界,DOM 树和像素就是它的感知输入,鼠标键盘事件就是它的机械臂。

2. GUI:人类最后的“非标准化”接口,却是 AI 的“通用训练场”

为什么我们需要 GUI Agent?既然 MCP或 API 能提供更结构化的数据交互,为什么还要费力去识别像素和 UI 控件?

API 是为了确定性设计的,而世界是充满了Long-tail和非结构化噪声的。

目前的 Web 和 OS 生态中,只有极少数头部应用提供了完善的 API 或遵循了 MCP 协议。99% 的软件功能、SaaS 后台、遗留系统,只通过 GUI 这一种方式向外界暴露能力。GUI 是人类为了适应自身视觉带宽而设计的“妥协接口”,但它也意外地成为了数字世界中唯一全量信息的载体

因此,GUI Agent 的技术深度在于:它试图用通用的视觉-语言模型,去暴力解构人类为自己设计的异构交互界面。

这是一个从 OOD(Out-of-Distribution)泛化角度看极难的问题。API 是标准化的,而 GUI 是千变万化的。训练一个能调用 API 的 Agent 只是在做填空题;而训练一个能操作任意 GUI 的 Agent,是在迫使 AI 学会General Manipulation Policies。这与机器人学习如何抓取任意形状的物体,在数学本质上是同构的。

3. 从 Next Token Prediction 到 Next State Prediction

如果 GUI Agent 仅仅依靠目前的 LLM(以 Next Token Prediction 为目标训练),它注定会失败。

目前的 LLM 是“开环”的幻觉大师。在文本生成中,幻觉(Hallucination)是创意的来源;但在 GUI 操作中,幻觉是灾难的开始。模型可能会“幻想”屏幕上有一个不存在的“确认”按钮并尝试点击,导致任务卡死。

未来的 GUI Agent 技术演进,必然会经历从 SFTRL 的深度转型。我们需要训练模型不是去预测“下一个词是什么”,而是预测“如果我执行这个动作,屏幕会变成什么样”(World Modeling)

这要求我们将 Training Pipeline 彻底重构:
1、数据层面:从静态的Image-Text Pairs,转向Interaction Trajectories, e.g., s0,a0,r0,s1...s_0, a_0, r_0, s_1...
2、算法层面:引入Critic Model来评估当前 UI 状态的优劣,甚至需要引入树搜索(如 MCTS)来在执行高风险操作(如转账、删除)前进行多步推演。

4. 结论:执行的重量

“内容输出”是轻盈的,你可以生成一千首诗,然后挑选一首。
“行为执行”是相对沉重的,你只有一次机会点击那个按钮,执行这个action导致环境改变。

GUI Agent 的兴起,标志着 AI 正在走出“缸中之脑”的纯思维实验,开始接管鼠标,介入生产关系。这与目前大多数内容产出的方向有着本质的不同——前者在构建数字世界的景观,而后者正在成为数字世界的工兵。

分享文章
👨‍💻

Fan Sicheng

GUI Agent & RL Researcher | WebAgentLab

查看简介 →