WebChainGUI AgentDatasetCVPR

（CVPR 2026 一作）WebChain：为什么 GUI Agent 其实还没有真正学会“用浏览器”

Fan Sicheng2026-02-188 minZH | EN

CVPR 2026 一作

过去两年，Agent 领域发展得非常快。各种“电脑操作 agent”不断出现，看起来已经能够完成很多复杂任务：写代码、调用工具、自动化 workflow、甚至控制操作系统。

但如果把这些系统放到浏览器环境里，你会发现一个很明显的现象：大多数 agent 并不是通过 GUI 在操作网页。

它们通常做的是另一件事情：直接调用 API，或者解析网页文本，再用程序逻辑去处理。换句话说，它们并没有真正像人一样“使用浏览器”。

这两种能力之间的差距其实非常大。

当人类在浏览网页时，我们看到的是一个视觉界面：按钮、菜单、输入框、弹窗、各种布局结构。我们通过鼠标点击、滚动页面、输入文本完成任务。而很多现有 agent 的工作方式更像是直接读取网页的底层结构，比如 DOM 或 API，然后用程序逻辑去推理下一步动作。

从工程角度看，这种方式当然更简单。但如果目标是构建一个真正能够操作互联网界面的 GUI Agent，那问题就完全不同了。

浏览器界面是高度视觉化的，元素会动态变化，页面结构经常不规范，很多信息甚至只存在于视觉层。所以 GUI Agent 本质上是一个视觉理解、行为决策和结构对齐的问题。而目前这个方向最缺的其实不是模型，而是数据。

浏览器操作数据为什么这么少

如果回顾一下当前 AI 领域的数据来源，会发现一个非常明显的对比。文本数据几乎是无限的，网页、论坛、书籍、代码仓库每天都在产生新的内容。图像数据也同样丰富，社交媒体、图片网站、视频平台规模都非常庞大。

但浏览器操作轨迹却完全不同。

真实的人类网页操作，其实很少被系统性记录下来。当一个人在浏览器里完成任务时，会经历一系列行为：点击、输入、滚动、跳转页面。这些行为发生在 GUI 界面上，同时又对应着 DOM 结构里的具体元素。如果想把这个过程完整记录下来，需要同时捕获网页截图、DOM 结构、用户动作和页面状态变化。

这件事情在技术上并不困难，但现实中几乎没有人长期记录这些数据。原因很简单：这种数据既不容易获取，也没有现成的大规模来源。相比之下，文本和图像数据本身就已经存在于互联网中，而浏览器操作轨迹必须主动采集。

因此在开源社区里，GUI Agent 数据集的规模一直很小。很多 benchmark 的轨迹数量只有几千条，甚至更少。这对于训练大型模型来说远远不够。如果把这个规模和 NLP 或 CV 领域的数据相比，差距非常明显。

这也是 WebChain 项目最初的出发点：如果希望 GUI Agent 继续发展，必须先解决数据规模的问题。

WebChain 想解决什么问题

WebChain 的核心目标是构建一个真实网页环境中的人类操作数据集。

在数据采集过程中，我们重点关注两个方面。一个是真实性，数据来自真实的网站，而不是人为构造的模拟环境，任务覆盖多种网站类型，包括电商、工具网站、信息网站等。另一个是跨模态对齐，浏览器操作涉及多个模态的信息：视觉界面、DOM 结构、以及动作序列。每一次交互都需要在这些信息之间建立精确对应关系。

在 WebChain 中，每个操作步骤都同时包含网页截图、DOM 元素信息、人类执行的动作，以及动作对应的具体元素。这样可以保证模型在训练时既能看到界面，也能理解结构，同时学习人类行为模式。

整个数据集最终包含了三万多条完整任务轨迹，总计超过三十万步交互操作。在目前公开的 GUI Agent 数据集中，这个规模已经属于比较大的。更重要的是，这些轨迹都来自真实网页任务，而不是自动脚本生成的流程。

关于 GUI Agent 训练的一些想法

很多人会把它看成是一个简单的 imitation learning 问题，给模型一段轨迹，让它学习下一步动作。

但浏览器任务其实包含两个完全不同层面的能力。一个是界面理解能力：模型需要在截图和 DOM 之间建立对应关系，知道某个按钮在哪里，文本属于哪个元素，以及哪些元素是可交互的，这个问题本质上更接近视觉 grounding。另一个是任务策略能力：浏览器任务往往包含多个步骤，比如搜索、筛选、进入详情页、填写表单、提交请求。模型需要理解整个任务目标，并规划动作序列。

如果把这两个能力混在一起训练，模型很容易在早期阶段陷入混乱。因为它既没有学会识别界面元素，也没有建立任务策略。

因此在训练过程中，我们更倾向于采用一种分阶段的方式。在早期阶段，训练重点放在 UI grounding，模型需要学会把视觉界面和 DOM 结构对应起来，并定位可操作元素。当这种能力比较稳定之后，再让模型学习完整的任务轨迹。这种训练方式的效果比直接 imitation learning 更稳定。

另外一个有意思的观察是，模型规模并不是最关键因素。很多 GUI Agent 的失败案例，其实并不是因为模型不够大，而是因为训练数据过于单一。只要任务类型稍微变化，模型就很容易失效。

这也是为什么数据多样性非常重要。网页世界本身是高度异构的，不同网站的 UI 风格差异很大。如果训练数据只覆盖少数网站，模型很难泛化到新的页面。因此数据规模和网站覆盖范围往往很重要。

GUI Agent 的一个可能发展方向

如果把 GUI Agent 看成一个长期研究方向，未来的发展可能会逐渐分成两类系统。

一类是 API-based agent，它们直接调用工具或服务接口，效率高，也更稳定。另一类是 GUI Agent，它们通过视觉界面操作软件或网站，更接近人类行为。

这两种系统并不是竞争关系，而是适用于不同场景。很多现实系统并没有标准 API，有些任务只能通过 GUI 完成，因此 GUI Agent 是一个非常重要的研究方向。

但在目前阶段，这个领域还处在非常早期的阶段。相比模型结构创新，更大的瓶颈其实是数据基础设施。WebChain 只是一个尝试，希望能为这个方向提供一个更大的数据起点。

如果未来有更多研究者开始记录和共享真实的网页操作轨迹，也许 GUI Agent 的能力会真正出现一次跃迁。

文章信息

文章标题：（CVPR 2026 一作）WebChain：为什么 GUI Agent 其实还没有真正学会“用浏览器”

博客链接：https://fansicheng.online/blog/webchain-cvpr-first-author

论文标题：WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

论文链接：https://arxiv.org/abs/2603.05295

会议信息：CVPR2026

分享文章

👨‍💻

Fan Sicheng

GUI Agent & RL Researcher | WebAgentLab

查看简介 →