WebFactoryGUI AgentReinforcement LearningRLICLR

（ICLR 2026 一作）WebFactory：让语言模型学会操作网页的一种自动化训练方式

WebFactory 想解决的核心问题是：语言模型已经理解网页，但为什么仍然很难在真实 GUI 环境中稳定完成任务。

January 5, 20268 minFan Sicheng

（ICLR 2026 一作）WebFactory：让语言模型学会操作网页的一种自动化训练方式

最近我有一篇一作论文被 ICLR 2026 接收，叫 WebFactory。这项工作其实是围绕一个很具体的问题展开的：语言模型已经非常擅长理解互联网内容，但为什么在浏览器环境中，它们仍然很难稳定地完成任务？

如今天的大模型可以回答复杂问题，可以写代码，可以解释网页结构，也可以规划任务步骤。但一旦真正把模型放进浏览器，让它通过点击、输入、滚动这些动作完成任务，表现往往会迅速下降。模型可能知道一个网站应该怎么用，也能解释页面里每个组件的作用，但在连续的 GUI 操作中，它很容易迷失方向。

这个问题其实反映了一件更深层的事情。语言模型的能力，本质上是建立在文本空间里的。它们通过压缩海量互联网文本，形成一种语义层面的世界知识。模型知道“搜索框”“购物车”“提交按钮”这些概念，也知道完成某个任务的大致流程。但 GUI 操作发生在另一层空间：视觉界面、元素位置、具体动作，以及不断变化的环境状态。语言模型需要把语义知识转化为行动策略，而这个过程并没有那么自然。

WebFactory 的出发是，与其不断依赖人工构建的网页任务数据，不如反过来思考：能不能构建一个自动化系统，让模型自己生成环境、任务和训练数据，并在这个过程中不断提升能力。

从结构上看，WebFactory 更像是一个 自动化训练 pipeline。整个系统由几个环节组成，它们形成一个持续循环的过程。

首先是环境生成。真实互联网中的网站非常复杂，而且经常变化。如果直接在真实网页上训练 GUI Agent，不仅难以控制实验条件，还会遇到很多工程问题。WebFactory 的做法是程序化地生成一批网站环境。这些网站并不是简单的 toy page，而是按照真实网页结构合成的一系列交互系统，包含列表页、详情页、搜索、表单、导航等常见 UI 组件。换句话说，它们是“可控但真实感很强”的网页环境。

有了环境之后，系统会根据页面结构自动生成任务。例如在一个电商类网站中，可以生成类似“找到某个商品并查看信息”的任务；在论坛环境中，则可能是“找到某个帖子并回复”。这些任务并不是预先写好的，而是通过语言模型结合网站结构自动生成的。

接下来 GUI Agent 会在这些任务上执行操作。模型通过浏览器接口与页面交互，逐步点击元素、填写输入框、跳转页面，尝试完成任务。整个过程中的状态、动作以及页面变化都会被记录下来，形成一条完整的交互轨迹。

这些轨迹随后被用来训练策略模型。系统会根据任务是否完成以及行为质量，对轨迹进行奖励分解，并通过强化学习更新模型。模型能力提升之后，系统又会继续生成新的任务和轨迹，整个循环不断重复。

如果把这个过程画成一个图，其实非常像一个小型的“数据工厂”。环境生成、任务生成、轨迹收集、策略训练，这些模块不断循环运行，从而持续产生新的训练数据。

也正因为这个原因，这个项目被叫做 WebFactory。

这个 pipeline 解决的核心问题，其实是 GUI Agent 研究中一个长期存在的瓶颈：数据规模太小。

在 NLP 和视觉领域，数据几乎是天然存在的。互联网本身就提供了海量文本和图像。但 GUI 交互数据完全不同。真实的人类浏览器操作轨迹很少被记录下来，而现有开源数据集规模通常只有几千条甚至更少。对于训练一个稳定的 GUI Agent 来说，这样的数据量远远不够。

WebFactory 的思路就是：既然真实数据难以获取，就让系统自己生成训练环境和任务，从而不断产生新的交互数据。

不过在这个工作里，还有一个更核心的概念：compression。

如果从信息论角度看，语言模型本身就是一种压缩。模型通过训练，把互联网中的海量文本信息压缩进参数空间里。很多关于网页、工具、软件使用方式的知识，其实已经存在于模型的内部表示中。

但这些知识仍然是描述性的。它们存在于语言空间，而不是行动空间。

当一个 GUI Agent 在浏览器里点击一个按钮时，它实际上在做另一层压缩。高层语义，比如“提交订单”“打开详情页”，被转化为具体动作：某个 DOM 元素的位置、一次鼠标点击、一次输入操作。

WebFactory 的训练过程，本质上是在推动这种压缩发生。语言模型中原本隐含的互联网知识，通过交互训练逐渐转化为可以执行的 GUI 行为策略。

从这个角度看，WebFactory 并不只是训练一个 GUI Agent，而是在研究一种更基础的过程：语言模型的知识如何被转化为行动能力。

在实验中我们观察到一个有趣的现象。不同基础模型在 GUI 任务中的学习效率差异非常明显，而且这种差异并不完全由模型规模决定。有些模型在文本推理任务上表现很好，但在 GUI 环境中很难学会稳定行为；而另一些模型则更容易把语义知识转化为操作策略。

这可能意味着语言模型本身存在一种“可行动性”的差异。某些模型内部的表示更容易被转化为行动，而另一些则更偏向于静态推理。

WebFactory 提供了一种系统化观察这种现象的方式。当 GUI Agent 在同一自动化 pipeline 中训练时，我们可以更清楚地看到不同模型在学习 GUI 行为时的效率，以及它们在新环境中的泛化能力。

从更长远的角度看，这个工作并不是在解决 GUI Agent 的所有问题。它更像是在搭建一种新的研究基础设施。如果环境生成、任务生成和数据收集都可以自动化，那么 GUI Agent 的训练就不再依赖固定数据集，而可以持续扩展。

语言模型已经压缩了互联网的知识，而 WebFactory 尝试做的，是把这些知识进一步压缩成能够改变环境状态的动作。

从“理解网页”到“操作网页”，中间还有很长的距离。

Back to all posts