(CVPR 2026 一作)WebChain:为什么 GUI Agent 其实还没有真正学会“用浏览器”
CVPR 2026 一作
过去两年,Agent 领域发展得非常快。各种“电脑操作 agent”不断出现,看起来已经能够完成很多复杂任务:写代码、调用工具、自动化 workflow、甚至控制操作系统。
但如果把这些系统放到浏览器环境里,你会发现一个很明显的现象:大多数 agent 并不是通过 GUI 在操作网页。
它们通常做的是另一件事情:直接调用 API,或者解析网页文本,再用程序逻辑去处理。换句话说,它们并没有真正像人一样“使用浏览器”。
这两种能力之间的差距其实非常大。
当人类在浏览网页时,我们看到的是一个视觉界面:按钮、菜单、输入框、弹窗、各种布局结构。我们通过鼠标点击、滚动页面、输入文本完成任务。而很多现有 agent 的工作方式更像是直接读取网页的底层结构,比如 DOM 或 API,然后用程序逻辑去推理下一步动作。
从工程角度看,这种方式当然更简单。但如果目标是构建一个真正能够操作互联网界面的 GUI Agent,那问题就完全不同了。
浏览器界面是高度视觉化的,元素会动态变化,页面结构经常不规范,很多信息甚至只存在于视觉层。所以 GUI Agent 本质上是一个视觉理解、行为决策和结构对齐的问题。而目前这个方向最缺的其实不是模型,而是数据。
浏览器操作数据为什么这么少
如果回顾一下当前 AI 领域的数据来源,会发现一个非常明显的对比。文本数据几乎是无限的,网页、论坛、书籍、代码仓库每天都在产生新的内容。图像数据也同样丰富,社交媒体、图片网站、视频平台规模都非常庞大。
但浏览器操作轨迹却完全不同。
真实的人类网页操作,其实很少被系统性记录下来。当一个人在浏览器里完成任务时,会经历一系列行为:点击、输入、滚动、跳转页面。这些行为发生在 GUI 界面上,同时又对应着 DOM 结构里的具体元素。如果想把这个过程完整记录下来,需要同时捕获网页截图、DOM 结构、用户动作和页面状态变化。
这件事情在技术上并不困难,但现实中几乎没有人长期记录这些数据。原因很简单:这种数据既不容易获取,也没有现成的大规模来源。相比之下,文本和图像数据本身就已经存在于互联网中,而浏览器操作轨迹必须主动采集。
因此在开源社区里,GUI Agent 数据集的规模一直很小。很多 benchmark 的轨迹数量只有几千条,甚至更少。这对于训练大型模型来说远远不够。如果把这个规模和 NLP 或 CV 领域的数据相比,差距非常明显。
这也是 WebChain 项目最初的出发点:如果希望 GUI Agent 继续发展,必须先解决数据规模的问题。
WebChain 想解决什么问题
WebChain 的核心目标是构建一个真实网页环境中的人类操作数据集。
在数据采集过程中,我们重点关注两个方面。一个是真实性,数据来自真实的网站,而不是人为构造的模拟环境,任务覆盖多种网站类型,包括电商、工具网站、信息网站等。另一个是跨模态对齐,浏览器操作涉及多个模态的信息:视觉界面、DOM 结构、以及动作序列。每一次交互都需要在这些信息之间建立精确对应关系。
在 WebChain 中,每个操作步骤都同时包含网页截图、DOM 元素信息、人类执行的动作,以及动作对应的具体元素。这样可以保证模型在训练时既能看到界面,也能理解结构,同时学习人类行为模式。
整个数据集最终包含了三万多条完整任务轨迹,总计超过三十万步交互操作。在目前公开的 GUI Agent 数据集中,这个规模已经属于比较大的。更重要的是,这些轨迹都来自真实网页任务,而不是自动脚本生成的流程。
关于 GUI Agent 训练的一些想法
很多人会把它看成是一个简单的 imitation learning 问题,给模型一段轨迹,让它学习下一步动作。
但浏览器任务其实包含两个完全不同层面的能力。一个是界面理解能力:模型需要在截图和 DOM 之间建立对应关系,知道某个按钮在哪里,文本属于哪个元素,以及哪些元素是可交互的,这个问题本质上更接近视觉 grounding。另一个是任务策略能力:浏览器任务往往包含多个步骤,比如搜索、筛选、进入详情页、填写表单、提交请求。模型需要理解整个任务目标,并规划动作序列。
如果把这两个能力混在一起训练,模型很容易在早期阶段陷入混乱。因为它既没有学会识别界面元素,也没有建立任务策略。
因此在训练过程中,我们更倾向于采用一种分阶段的方式。在早期阶段,训练重点放在 UI grounding,模型需要学会把视觉界面和 DOM 结构对应起来,并定位可操作元素。当这种能力比较稳定之后,再让模型学习完整的任务轨迹。这种训练方式的效果比直接 imitation learning 更稳定。
另外一个有意思的观察是,模型规模并不是最关键因素。很多 GUI Agent 的失败案例,其实并不是因为模型不够大,而是因为训练数据过于单一。只要任务类型稍微变化,模型就很容易失效。
这也是为什么数据多样性非常重要。网页世界本身是高度异构的,不同网站的 UI 风格差异很大。如果训练数据只覆盖少数网站,模型很难泛化到新的页面。因此数据规模和网站覆盖范围往往很重要。
GUI Agent 的一个可能发展方向
如果把 GUI Agent 看成一个长期研究方向,未来的发展可能会逐渐分成两类系统。
一类是 API-based agent,它们直接调用工具或服务接口,效率高,也更稳定。另一类是 GUI Agent,它们通过视觉界面操作软件或网站,更接近人类行为。
这两种系统并不是竞争关系,而是适用于不同场景。很多现实系统并没有标准 API,有些任务只能通过 GUI 完成,因此 GUI Agent 是一个非常重要的研究方向。
但在目前阶段,这个领域还处在非常早期的阶段。相比模型结构创新,更大的瓶颈其实是数据基础设施。WebChain 只是一个尝试,希望能为这个方向提供一个更大的数据起点。
如果未来有更多研究者开始记录和共享真实的网页操作轨迹,也许 GUI Agent 的能力会真正出现一次跃迁。
文章信息
文章标题:(CVPR 2026 一作)WebChain:为什么 GUI Agent 其实还没有真正学会“用浏览器”
博客链接:https://fansicheng.online/blog/webchain-cvpr-first-author
论文标题:WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces
论文链接:https://arxiv.org/abs/2603.05295
会议信息:CVPR2026