AI AgentReinforcement Learning行业观察

语义通胀下的冷思考：2025不一定是Agent元年，而是“Agent”一词的滥用之年

Fan Sicheng2025-10-116 minZH | EN

打开 2025 年的任意一份科技媒体头条或创投报告，“Agent 元年”的字眼随处可见。似乎一夜之间，所有的 SaaS 软件、所有的 Chatbot 都摇身一变，贴上了 "Agentic AI" 的标签。

记得在 2023 年作为新手，在研究 Multi-Agent Reinforcement Learning时，"Agent" 这个词还仅仅存在于学术圈的特定语境中：它指代一个在环境（Environment）中通过动作（Action）获取奖励（Reward）并更新Policy的实体。

而今天，这个词已经被稀释到了几乎没有信息量的地步。正如近期的一些论文所警示的：“Agent”一词的泛化正在导致其效用的丧失。

2025 年可能并不是 Agent 技术的元年，而是“Agent”这个概念被彻底商品化、营销化甚至滥用的元年。

一、从 MDP 到 API：定义的降维打击

在经典的强化学习定义中，一个 Agent 的核心在于它能够处理马尔可夫决策过程。它必须感知状态 $S_t$ ，做出决策 $A_t$ ，获得反馈 $R_t$ ，并转移到 $S_{t+1}$ 。这个闭环的关键在于环境的不确定性和决策的自主性*。

然而，目前市面上 90% 被称为 "Agent" 的产品，本质上是什么？
是 Prompt Engineering + Tool Use。
是 LLM 驱动的 While 循环。
甚至是 换了皮的自动化工作流（Workflow Automation）。

如果一个程序只是按照预设的 DAG（有向无环图）顺序调用 API，中间仅仅是用 LLM 做了一下参数提取，那它不应该被称为 Agent，它只是一个更昂贵的脚本。这种将“自动化（Automation）”强行拔高为“自主性（Autonomy）”的行为，是当前语义通胀的根源。

二、自主性的光谱：Copilot 不是 Agent

为了厘清现状，我们需要建立一个严格的 Agency Spectrum。StackExchange 和 Reddit 社区的讨论非常有价值，我们可以将其提炼为三个层级：

Level 1: 增强型工具 (The "Copilot" Trap)

这是目前绝大多数产品的现状。系统需要人类发起指令，甚至需要人类由始至终的监督。它没有“世界模型”，不维护长期状态。它只负责执行，不负责“负责”。这叫 Tool，不叫 Agent。

Level 2: 链式自动化 (The "Chain" Illusion)

这是 LangChain 等框架早期的形态。虽然看似有多步操作，但其路径往往是硬编码的或高度线性的。它无法应对环境的动态变化——例如，网页结构变了，或者 API 返回了一个未预期的错误码，整个链条就会崩溃。这叫 Script，不叫 Agent。

Level 3: 真正的自主智能体

这才是我们追求的Holy Grail。它具备：
1.动态感知-推理-执行闭环：不是盲目执行，而是时刻根据环境反馈调整策略（ReAct/Reflexion）。
2.长期记忆与状态管理：它的决策基于跨会话的历史和对世界状态的持续追踪。
3.目标导向的泛化能力：给它一个模糊的目标（如“帮我策划一次旅行”），它能将其分解为具体的动作序列，并处理执行过程中的意外。

三、为什么会发生“Agent Washing“？

Gartner 的报告指出，40% 以上所谓的 Agentic AI 项目将在 2027 年前失败。为什么行业明知技术尚未成熟，却依然疯狂炒作这个概念？

这背后是资本焦虑与模型瓶颈的双重共振：
1、Scaling Law 的边际效应递减：单纯的大模型参数竞赛已经让投资人疲惫，他们急需一个新的故事来解释 AI 如何落地变现。Agent 代表的“生产力替代”是目前最完美的故事模版。
2、SaaS 的存量博弈：传统的软件厂商如果不说自己是 Agent，就显得落伍。于是，所有的 RPA（机器人流程自动化）厂商都连夜改名为 Agent 厂商。

这种“洗绿”行为不仅误导了市场，更伤害了真正的 Agent 研究。它让公众对 Agent 的期待值过高，当用户发现所谓的“智能体”连一个简单的退款流程都处理不好时，技术的信誉度将面临崩盘。

四、回归技术原点：我们需要什么样的 Agent？

如果我们剥离掉营销术语，2025 年真正的技术挑战实际上依然聚焦在 GUI Agent 研究中常遇到的那几个硬骨头：

1. 鲁棒的“环境交互协议”

目前的 Agent 太脆弱了。真正的 Agent 需要像生物一样，具备在噪音环境下生存的能力。在 GUI 场景下，意味着当 UI 发生微小变动时，Agent 依然能通过视觉语义理解完成任务，而不是依赖于写死的 DOM Selector。

2. 也是最重要的：System 2 Thinking

目前的 LLM 主要是在做 System 1（直觉、快思考）。但 Agent 需要规划、需要反思、需要回溯。这不仅是 Prompt 的问题，更是模型架构的问题。我们需要模型具备Test-time Compute 的能力，即在输出动作之前，能够在内部进行多步推演（MCTS 风格的搜索），评估潜在风险。

3. 安全边界与权限模型

正如之前讨论 GUI Agent 时提到的，一个没有权限边界的 Agent 是危险的。我们需要的不是一个能做所有事的 Agent，而是一个“知道自己不能做什么”的 Agent。

五、在噪音中寻找信号

现在的繁荣很大程度上是语义上的繁荣。真正的 Agent 革命，不会发生在媒体的头条里，而会发生在如何解决 Long-horizon Planning、Environment Grounding 以及 Self-correction 这些具体的工程与算法难题上。

分享文章

👨‍💻

Fan Sicheng

GUI Agent & RL Researcher | WebAgentLab

查看简介 →