返回博客
AI AgentReinforcement Learning行业观察

语义通胀下的冷思考:2025不一定是Agent元年,而是“Agent”一词的滥用之年

Fan Sicheng2025-10-116 minZH | EN

打开 2025 年的任意一份科技媒体头条或创投报告,“Agent 元年”的字眼随处可见。似乎一夜之间,所有的 SaaS 软件、所有的 Chatbot 都摇身一变,贴上了 "Agentic AI" 的标签。

记得在 2023 年作为新手,在研究 Multi-Agent Reinforcement Learning时,"Agent" 这个词还仅仅存在于学术圈的特定语境中:它指代一个在环境(Environment)中通过动作(Action)获取奖励(Reward)并更新Policy的实体。

而今天,这个词已经被稀释到了几乎没有信息量的地步。正如近期的一些论文所警示的:“Agent”一词的泛化正在导致其效用的丧失。

2025 年可能并不是 Agent 技术的元年,而是“Agent”这个概念被彻底商品化、营销化甚至滥用的元年。

一、从 MDP 到 API:定义的降维打击

在经典的强化学习定义中,一个 Agent 的核心在于它能够处理马尔可夫决策过程。它必须感知状态 StS_t,做出决策 AtA_t,获得反馈 RtR_t,并转移到 St+1S_{t+1}。这个闭环的关键在于环境的不确定性决策的自主性*

然而,目前市面上 90% 被称为 "Agent" 的产品,本质上是什么?
Prompt Engineering + Tool Use
LLM 驱动的 While 循环
甚至是 换了皮的自动化工作流(Workflow Automation)

如果一个程序只是按照预设的 DAG(有向无环图)顺序调用 API,中间仅仅是用 LLM 做了一下参数提取,那它不应该被称为 Agent,它只是一个更昂贵的脚本。这种将“自动化(Automation)”强行拔高为“自主性(Autonomy)”的行为,是当前语义通胀的根源。

二、自主性的光谱:Copilot 不是 Agent

为了厘清现状,我们需要建立一个严格的 Agency Spectrum。StackExchange 和 Reddit 社区的讨论非常有价值,我们可以将其提炼为三个层级:

Level 1: 增强型工具 (The "Copilot" Trap)


这是目前绝大多数产品的现状。系统需要人类发起指令,甚至需要人类由始至终的监督。它没有“世界模型”,不维护长期状态。它只负责执行,不负责“负责”。这叫 Tool,不叫 Agent。

Level 2: 链式自动化 (The "Chain" Illusion)


这是 LangChain 等框架早期的形态。虽然看似有多步操作,但其路径往往是硬编码的或高度线性的。它无法应对环境的动态变化——例如,网页结构变了,或者 API 返回了一个未预期的错误码,整个链条就会崩溃。这叫 Script,不叫 Agent。

Level 3: 真正的自主智能体


这才是我们追求的Holy Grail。它具备:
1.动态感知-推理-执行闭环:不是盲目执行,而是时刻根据环境反馈调整策略(ReAct/Reflexion)。
2.长期记忆与状态管理:它的决策基于跨会话的历史和对世界状态的持续追踪。
3.目标导向的泛化能力:给它一个模糊的目标(如“帮我策划一次旅行”),它能将其分解为具体的动作序列,并处理执行过程中的意外。

三、为什么会发生“Agent Washing“?

Gartner 的报告指出,40% 以上所谓的 Agentic AI 项目将在 2027 年前失败。为什么行业明知技术尚未成熟,却依然疯狂炒作这个概念?

这背后是资本焦虑与模型瓶颈的双重共振:
1、Scaling Law 的边际效应递减:单纯的大模型参数竞赛已经让投资人疲惫,他们急需一个新的故事来解释 AI 如何落地变现。Agent 代表的“生产力替代”是目前最完美的故事模版。
2、SaaS 的存量博弈:传统的软件厂商如果不说自己是 Agent,就显得落伍。于是,所有的 RPA(机器人流程自动化)厂商都连夜改名为 Agent 厂商。

这种“洗绿”行为不仅误导了市场,更伤害了真正的 Agent 研究。它让公众对 Agent 的期待值过高,当用户发现所谓的“智能体”连一个简单的退款流程都处理不好时,技术的信誉度将面临崩盘。

四、回归技术原点:我们需要什么样的 Agent?

如果我们剥离掉营销术语,2025 年真正的技术挑战实际上依然聚焦在 GUI Agent 研究中常遇到的那几个硬骨头:

1. 鲁棒的“环境交互协议”


目前的 Agent 太脆弱了。真正的 Agent 需要像生物一样,具备在噪音环境下生存的能力。在 GUI 场景下,意味着当 UI 发生微小变动时,Agent 依然能通过视觉语义理解完成任务,而不是依赖于写死的 DOM Selector。

2. 也是最重要的:System 2 Thinking


目前的 LLM 主要是在做 System 1(直觉、快思考)。但 Agent 需要规划、需要反思、需要回溯。这不仅是 Prompt 的问题,更是模型架构的问题。我们需要模型具备Test-time Compute 的能力,即在输出动作之前,能够在内部进行多步推演(MCTS 风格的搜索),评估潜在风险。

3. 安全边界与权限模型


正如之前讨论 GUI Agent 时提到的,一个没有权限边界的 Agent 是危险的。我们需要的不是一个能做所有事的 Agent,而是一个“知道自己不能做什么”的 Agent。

五、在噪音中寻找信号

现在的繁荣很大程度上是语义上的繁荣。真正的 Agent 革命,不会发生在媒体的头条里,而会发生在如何解决 Long-horizon PlanningEnvironment Grounding 以及 Self-correction 这些具体的工程与算法难题上。

分享文章
👨‍💻

Fan Sicheng

GUI Agent & RL Researcher | WebAgentLab

查看简介 →