返回博客
GUI Agent数据WebChain强化学习开源

GUI Agent 的现实拐点:从模型崇拜到数据与系统的时代

Fan Sicheng2025-12-146 minZH | EN

过去两年,GUI Agent(无论是 Web、Desktop 还是 Mobile)在学术界和工业界经历了一轮令人咋舌的快速升温。从 GPT-4V、Qwen-VL 到 SeeAct、CogAgent 再到最近的 UI-TARS,模型的能力看似突飞猛进,各种惊艳的 Demo 频频刷屏。

然而,当我们剥离掉滤镜,从可复现性、可扩展性和真实世界适用性的角度冷静回看时,会发现一个尴尬的现实:模型虽然越来越强,但 Agent 在真实复杂环境下的可用性并没有同比例提升。这背后隐藏着一个结构性问题,它正在成为整个领域的“天花板”——数据

一、从“能看见”到“能做对”:被低估的鸿沟

GUI Agent 目前的技术路线已经非常清晰:通过视觉感知(Vision)获取界面信息,结合语言模型(Language)与 DOM/AX Tree 理解结构,最后输出点击或输入等原子动作(Action)。这种 Vision-Language-Action(VLA)的范式几乎成为了共识。

但我们必须面对一个不太乐观的事实:VLM 能完美描述 UI,并不代表它能稳定、可复现地操作 UI。

真实世界的网页环境远比训练数据的理想环境恶劣。高密度的广告与弹窗、A/B 测试带来的动态变化、以及视觉位置与 DOM 层级的不一致性,直接导致了严重的空间幻觉(spatial hallucination)。模型往往“以为”自己点对了,但在像素级坐标或真实行为反馈上却是错的。

更致命的是数据来源的割裂。目前的学术界长期在两极摇摆:一端是 MiniWoB++、WebArena 这类合成环境或沙盒网站,它们可控但缺乏多样性;另一端是 Mind2Web 这类半真实离线数据,虽然来自真实网站,却往往是静态的快照。而真正具备规模效应的大厂私有数据,又是外界无法触碰的黑盒。

我们至今缺乏一个公开数据集,能够同时满足“真实网站”、“人类完整轨迹”和“足够规模”这三个条件。这不是偶然,因为真实网页交互数据的采集,本身就是一个极高成本的系统工程问题。

二、为什么“真实人类轨迹”无法被合成数据替代?

近年来,许多工作尝试利用 Agent 自动采集轨迹或通过反向任务合成来扩展数据。但这在 Web 场景中遇到了一堵“硬墙”:反爬虫机制、复杂的登录验证、支付流程以及个性化权限。而这些难以合成的场景,恰恰对应了电商下单、机票预订等最具价值的用户任务。如果训练数据永远绕开这些“硬骨头”,Agent 就永远学不会真正有用的能力。

此外,由于对“人类轨迹”的误解,很多人将其等同于简单的行为克隆(Behavior Cloning)。事实上,在 GUI Agent 的训练中,人类数据提供的远不止是操作步骤,而是三种关键的隐式先验

  • 注意力先验:在纷繁复杂的页面中,人类知道哪些区域值得关注,哪些不仅是噪音;

  • 结构先验:人类天然懂得将一个宏大目标拆解为符合逻辑的子步骤;

  • 纠错模式:当页面响应不如预期时,人类展现出的回退、重试与调整策略,是纯 Reward 驱动的强化学习很难从零探索出来的。
  • 三、WebChain:不仅是数据集,更是一种基础设施

    正是在这样的背景下,我们决定构建并完全开源 WebChain。这并不是为了追求 SOTA 而产生的副产品,而是一次拥有明确价值取向的工程决策。

    WebChain 的核心不再是单纯堆砌数量,而是追求Triple Alignment(三重对齐)。我们确保了每一条数据在视觉(像素级截图)、结构(HTML + Accessibility Tree)和行为(精确坐标与 Selector)上的严格对应。这意味着模型不仅仅是“看到了页面”,更是理解了为什么屏幕上的这一簇像素对应着这个具体的执行逻辑。

    我们坚持采用了成本最高、效率最低的“全人类标注 + 真实网站”方案。虽然这看起来不够“性感”,但它带来了不可替代的红利:我们覆盖了大量登录态的高价值任务,并保证了每一步 Action 的真实可执行性。

    当数据量级达到 3 万条真实轨迹、30 万级原子交互时,我们第一次在 GUI Agent 领域观察到了类似语言模型的 Scaling Law 现象——数据规模的量变开始引发长链任务成功率的质变。这标志着 GUI Agent 正从“Prompt Engineering 的技巧集合”迈向“可系统优化的学习问题”。

    四、为什么一定要开源?

    我们非常清楚,私有数据更容易刷榜,闭源 Pipeline 更容易保持学术优势。但如果 GUI Agent 这个方向继续建立在不可复现、不可对比的数据之上,只会重演 NLP 早期的混乱:结论无法验证,方法无法横向比较,社区无法形成真正的共识。

    我们选择开源 WebChain,是希望让所有研究者能够在同一个现实复杂度基准上讨论问题。无论是系统设计、数据工程还是算法优化,都需要被拆解、复用和对比,这样才能真正推动 GUI Agent 从脆弱的 Demo 走向可靠的系统。

    通往真正通用 Agent 的道路,不应被封锁在闭源数据的孤岛之中。要解决真实世界的无限复杂度,唯一的解法是让大规模真实数据成为社区的公共基础设施——打破高墙,共享现实,这才是开源社区存在的最大意义。

    分享文章
    👨‍💻

    Fan Sicheng

    GUI Agent & RL Researcher | WebAgentLab

    查看简介 →