(ICLR 2026 一作)WebFactory:让语言模型学会操作网页的一种自动化训练方式
ICLR 2026 一作
最近我有一篇一作论文被 ICLR 2026 接收,叫 WebFactory。这项工作其实是围绕一个很具体的问题展开的:语言模型已经非常擅长理解互联网内容,但为什么在浏览器环境中,它们仍然很难稳定地完成任务?
如今天的大模型可以回答复杂问题,可以写代码,可以解释网页结构,也可以规划任务步骤。但一旦真正把模型放进浏览器,让它通过点击、输入、滚动这些动作完成任务,表现往往会迅速下降。模型可能知道一个网站应该怎么用,也能解释页面里每个组件的作用,但在连续的 GUI 操作中,它很容易迷失方向。
这个问题其实反映了一件更深层的事情。语言模型的能力,本质上是建立在文本空间里的。它们通过压缩海量互联网文本,形成一种语义层面的世界知识。模型知道“搜索框”“购物车”“提交按钮”这些概念,也知道完成某个任务的大致流程。但 GUI 操作发生在另一层空间:视觉界面、元素位置、具体动作,以及不断变化的环境状态。语言模型需要把语义知识转化为行动策略,而这个过程并没有那么自然。
WebFactory 的出发是,与其不断依赖人工构建的网页任务数据,不如反过来思考:能不能构建一个自动化系统,让模型自己生成环境、任务和训练数据,并在这个过程中不断提升能力。
从结构上看,WebFactory 更像是一个 自动化训练 pipeline。整个系统由几个环节组成,它们形成一个持续循环的过程。
首先是环境生成。真实互联网中的网站非常复杂,而且经常变化。如果直接在真实网页上训练 GUI Agent,不仅难以控制实验条件,还会遇到很多工程问题。WebFactory 的做法是程序化地生成一批网站环境。这些网站并不是简单的 toy page,而是按照真实网页结构合成的一系列交互系统,包含列表页、详情页、搜索、表单、导航等常见 UI 组件。换句话说,它们是“可控但真实感很强”的网页环境。
有了环境之后,系统会根据页面结构自动生成任务。例如在一个电商类网站中,可以生成类似“找到某个商品并查看信息”的任务;在论坛环境中,则可能是“找到某个帖子并回复”。这些任务并不是预先写好的,而是通过语言模型结合网站结构自动生成的。
接下来 GUI Agent 会在这些任务上执行操作。模型通过浏览器接口与页面交互,逐步点击元素、填写输入框、跳转页面,尝试完成任务。整个过程中的状态、动作以及页面变化都会被记录下来,形成一条完整的交互轨迹。
这些轨迹随后被用来训练策略模型。系统会根据任务是否完成以及行为质量,对轨迹进行奖励分解,并通过强化学习更新模型。模型能力提升之后,系统又会继续生成新的任务和轨迹,整个循环不断重复。
如果把这个过程画成一个图,其实非常像一个小型的“数据工厂”。环境生成、任务生成、轨迹收集、策略训练,这些模块不断循环运行,从而持续产生新的训练数据。
也正因为这个原因,这个项目被叫做 WebFactory。
这个 pipeline 解决的核心问题,其实是 GUI Agent 研究中一个长期存在的瓶颈:数据规模太小。
在 NLP 和视觉领域,数据几乎是天然存在的。互联网本身就提供了海量文本和图像。但 GUI 交互数据完全不同。真实的人类浏览器操作轨迹很少被记录下来,而现有开源数据集规模通常只有几千条甚至更少。对于训练一个稳定的 GUI Agent 来说,这样的数据量远远不够。
WebFactory 的思路就是:既然真实数据难以获取,就让系统自己生成训练环境和任务,从而不断产生新的交互数据。
不过在这个工作里,还有一个更核心的概念:compression。
如果从信息论角度看,语言模型本身就是一种压缩。模型通过训练,把互联网中的海量文本信息压缩进参数空间里。很多关于网页、工具、软件使用方式的知识,其实已经存在于模型的内部表示中。
但这些知识仍然是描述性的。它们存在于语言空间,而不是行动空间。
当一个 GUI Agent 在浏览器里点击一个按钮时,它实际上在做另一层压缩。高层语义,比如“提交订单”“打开详情页”,被转化为具体动作:某个 DOM 元素的位置、一次鼠标点击、一次输入操作。
WebFactory 的训练过程,本质上是在推动这种压缩发生。语言模型中原本隐含的互联网知识,通过交互训练逐渐转化为可以执行的 GUI 行为策略。
从这个角度看,WebFactory 并不只是训练一个 GUI Agent,而是在研究一种更基础的过程:语言模型的知识如何被转化为行动能力。
在实验中我们观察到一个有趣的现象。不同基础模型在 GUI 任务中的学习效率差异非常明显,而且这种差异并不完全由模型规模决定。有些模型在文本推理任务上表现很好,但在 GUI 环境中很难学会稳定行为;而另一些模型则更容易把语义知识转化为操作策略。
这可能意味着语言模型本身存在一种“可行动性”的差异。某些模型内部的表示更容易被转化为行动,而另一些则更偏向于静态推理。
WebFactory 提供了一种系统化观察这种现象的方式。当 GUI Agent 在同一自动化 pipeline 中训练时,我们可以更清楚地看到不同模型在学习 GUI 行为时的效率,以及它们在新环境中的泛化能力。
从更长远的角度看,这个工作并不是在解决 GUI Agent 的所有问题。它更像是在搭建一种新的研究基础设施。如果环境生成、任务生成和数据收集都可以自动化,那么 GUI Agent 的训练就不再依赖固定数据集,而可以持续扩展。
语言模型已经压缩了互联网的知识,而 WebFactory 尝试做的,是把这些知识进一步压缩成能够改变环境状态的动作。
从“理解网页”到“操作网页”,中间还有很长的距离。
文章信息
文章标题:(ICLR 2026 一作)WebFactory:让语言模型学会操作网页的一种自动化训练方式
博客链接:https://fansicheng.online/blog/webfactory-iclr-first-author
论文标题:WebFactory: Automated Compression of Foundational Language Intelligence into Grounded Web Agents
论文链接:https://arxiv.org/abs/2603.05044
会议信息:ICLR2026