把大模型「放进电脑里」,会出现一种很奇特的反差:
它能写代码、能推理、能把论文总结得头头是道;但一旦让它去操作 Excel、Word 这种真实桌面软件,却像第一次用电脑的人 -- 点错菜单、来回切换,甚至在同一页里循环点击。
很多人第一反应会觉得是 Agent 没看清按钮,或者没理解任务,不知道界面上各个选项是什么意思。但在真实软件里,更大的问题往往不是「看不见」,而是「不知道点下去会发生什么」。
在同一个界面上,不同的操作会把系统带到完全不同的状态,一旦点错,往往很难简单撤销。操作会产生延迟,流程被打断,有时甚至会直接破坏文档。因此,关键不只是识别界面或读懂指令,而是能提前判断每个动作可能带来的结果。
人学习使用软件时,看起来像是在界面里「到处试一试」。
比如你要给一个 Excel 工作簿加密。面对界面时,你会下意识地判断:点这个入口会不会弹出密码窗口?点那个标签只是切换视图,还是在真正推进任务?哪个操作更像是在朝目标靠近?
你并不是随便点击,而是在挑一个更可能有效的下一步。
这种在行动前先预想结果、再用一次操作去验证的过程,在认知科学中通常被称为反事实推理。
很多时候,人并不是等系统反馈才知道对错,而是先对可能发生的结果有一个大致预期,再去确认。
相比之下,不少 GUI Agent 更像「看一步、做一步」:它能读懂当前截图里的内容,却缺少对「这个动作通常会带来什么变化」的判断,因此只能在真实环境中反复尝试,试错成本也更高。
CUWM:在真正点击之前,先在「脑海里点一遍」
微软研究团队提出的 Computer-Using World Model(CUWM),想解决的正是这个问题。它做的事情可以简单理解为:在真的操作软件之前,先让智能体「想象一下会发生什么」。
更具体地说,给定当前界面的截图,以及一个候选操作(例如点击某个按钮),CUWM 会预测执行这个操作后的界面图像。
图 1 展示了以当前软件界面的截图和对应操作作为输入,CUWM 预测执行该操作后出现的下一步界面图像。当智能体面对多个可选动作时,它不需要立刻在真实软件里一个个去试,而是先把这些动作交给世界模型模拟 —— 于是会得到几种「想象出来的下一步界面」。
图 1:CUWM 预测的不同动作导致的软件界面图片。从同一当前界面(current state)出发,执行不同操作,如点击 Encrypt with Password、打开 Images 或放大视图,会得到不同的下一个状态(例如弹出密码窗口、展开工具面板或改变显示比例)。
接下来,智能体只需比较:哪一种结果更接近任务目标?选出最合理的一步,再在真实系统中执行。
论文把这个过程称为world-model-guided test-time action search。重要的是,智能体本身的策略是冻结的,没有重新训练;性能提升来自于更好的「预演」和更充分的测试时计算,而不是把 Agent 本身变得更复杂。
换句话说,CUWM 不是在教智能体更会操作,而是在给它一种「先想后做」的能力。
图 2:CUWM 概述:给定当前 UI 截图与动作(如点击 Excel 的列「H」),CUWM 先生成一段聚焦局部变化的过渡描述(Stage 1),再在保持不变区域稳定的前提下对截图进行条件编辑,生成预测的下一状态(Stage 2)。
关键设计:模型关注的不是像素,而是「变化」
桌面软件 UI 的特点是:大部分区域长期不变,变化通常发生在局部 —— 选区高亮、面板展开、弹窗出现、光标移动…… 如果端到端预测整张下一帧截图,模型既要背负巨大的不变背景,又要捕捉极小但关键的变化,低效且容易「注意力错位」。
CUWM 的关键设计是把「下一步预测」拆成两段:
这一分解的重点不在「画得多逼真」,而在让模型学到:动作改变的是系统状态,而智能体真正需要的是「点了之后世界怎么变」。
图 2 展示了 CUWM 的两阶段流程:先生成「变化描述」,再把变化实现成下一帧 UI。这种「what changes /how it appears」的分解,让模型把注意力放在动作后果上,而不是低效地重绘整张界面。
训练数据怎么来:从真实交互里抽三元组,再自动写「变化描述」
CUWM 不依赖昂贵的在线强化学习环境,而是从真实软件的交互轨迹中构造训练样本:把一次操作前后的界面截图配对,再附上对应的动作表示,形成标准的 ((s_t, a_t, s_{t+1})) 训练三元组。
关键在于 Stage 1 的监督信号 ——「变化描述」怎么得到?论文做法是用 GPT-5 作为自动标注器:对每个三元组生成一段简洁的 UI 变化描述,明确「哪些变了、哪些不变」,用来监督微调 Stage 1。
为了让描述更短、更结构化、更少幻觉,作者还在 SFT 之后用 GRPO 做轻量 RL 细化:奖励由 LLM-as-a-Judge 的结构一致性评分与长度惩罚组合,从而有效覆盖关键 UI 结构。
结果:智能体开始「规划行动」
在实验中,智能体需要完成「给 Excel 工作簿添加密码保护」的任务。它不会立刻在真实环境里点来点去,而是先提出多个候选动作,并逐个调用 CUWM 进行模拟,得到每个动作可能带来的「下一步界面」。
随后,智能体把这些模拟结果与任务目标进行对照,最终选择点击「Protect Workbook」—— 因为这一候选动作对应的预测界面最符合「进入保护 / 加密流程」的预期方向。
那么,智能体是如何在点击前完成一次「内部试错」的?图 3 给出了直观示例。
图 3:先模拟后执行:world model 做「模拟器」,Agent 做「决策者」。 智能体先提出多个候选动作,CUWM 分别预测每个动作会导致怎样的下一步 UI;智能体再根据这些预测结果与任务目标的匹配程度,选择更可能推进任务的那一步(示例中为「Protect Workbook」),从而减少真实环境中的反复试错与无效点击。
这正是 CUWM 的价值所在:把高成本的环境试错转移到模型内部。智能体先在「想象出来的下一屏」里完成比较与选择,再把最有希望的一步落到真实软件执行。从「高成本试错」变成「低成本模拟」,显著降低无效操作与循环点击,让 GUI Agent 从反应式点击走向规划式决策。
更进一步,论文指出,性能提升的关键更多来自对界面结构变化的正确预测(例如面板是否展开、关键入口是否出现),而不只是生成图像的视觉逼真度。这也侧面说明,GUI Agent 的核心能力并非纯视觉识别,而是面向交互的规划与决策。
更深层的意义:Agent 决策能力意味着什么
如果把大模型的发展看成一条连续的能力变化,其实不只是「更聪明了」,而是能力的类型在改变。
过去,大模型主要解决的是理解与表达的问题:它能读懂一段话、回答问题、写文章、解释概念。这些能力本质上都发生在「信息空间」里 —— 输入是文本,输出也是文本。模型只需要给出一个合理的回答,不需要承担真实后果。
但当 AI 进入软件环境,问题发生了变化,这里不再是「回答是否合理」,而是「动作是否有效」。一次点击、一次输入、一次拖拽,都会改变系统状态,并影响之后还能不能继续完成任务。也就是说,AI 不再只是解释世界,而是在改变世界(哪怕只是数字世界)。
这时,Agent 的核心能力就变成了决策能力:它必须在多个可能动作中做选择,并对选择的后果负责。关键不再是「这句话对不对」,而是「这一步走完之后,任务更接近还是更远」。
人类在操作软件时,之所以效率很高,是因为在行动前会形成一种内部判断:这个操作大概会带来什么结果。如果结果不符合目标,往往在点击前就会放弃,而不是等系统报错。这其实是一种对「动作 → 状态变化」的理解。
而很多当前的 GUI Agent 缺少的正是这一层。它能识别界面、能理解指令,却仍然主要依赖真实交互去排除错误路径。也就是在环境里不断试错,直到碰到正确步骤。换句话说,它更像是在反应,而不是在决策。
CUWM 的意义,不只是提高成功率,而是让 Agent 开始具备一种新的能力:在执行之前先评估后果。
当智能体可以先模拟不同动作带来的不同未来,再选择更合适的一步时,它做的就不再只是「操作界面」,而是进行路径规划。试错仍然存在,但优先发生在内部,而不是直接作用于真实系统。
因此,这里的转变可以这样理解:大模型让 AI 学会了「如何回答」,而决策能力让 AI 开始学会「如何行动」。当 AI 能根据预期后果来选择动作时,它才真正从一个对话工具,变成一个能够在数字环境中推进任务的行动体。
作者介绍
CUWM 的作者是微软实习生以及微软 UFO 团队的成员,包括Yiming Guan、Rui Yu、John Zhang、Lu Wang、Chaoyun Zhang、Liqun Li、Bo Qiao、Si Qin、He Huang、Fangkai Yang、Pu Zhao等。