图书简介:
前言 III
第 1 部分:基础理论与背景
第 1 章 大语言模型驱动下
的人机交互革命 2
1.1 人机交互演进简史 3
1.1.1 从 CLI 到 GUI:易用性与效率的折中 3
1.1.2 GUI 的优势与局限 4
1.2 大语言模型的发展与影响 5
1.2.1 大语言模型的关键特征 5
1.2.2 大语言模型驱动智能体的诞生 7
1.3 大语言模型驱动的 GUI 智能体的兴起 8
1.3.1 GUI 智能体的定义和意义 8
1.3.2 关键技术和形成动因 9
1.3.3 研究现状和初步应用概览 11
1.4 与 API-Only 智能体的比较与互补 12
1.4.1 API-Only 智能体:成熟度与早期优势 12
1.4.2 GUI 智能体:多模态下的交互变革 13
1.4.3 关键差异与适用场景 13
1.4.4 融合趋势:混合式智能体的未来 14
1.5 本章小结 15
第 2 章 GUI 自动化的发展之路 16
2.1 早期 GUI 自动化 17
2.1.1 传统 GUI 自动化方法概览 17
2.1.2 典型工具与软件 19
2.2 GUI 自动化的智能之路 .20
2.2.1 机器学习在 GUI 自动化中的作用 20
2.2.2 计算机视觉在 GUI 自动化中的作用 21
2.2.3 自然语言处理在 GUI 自动化中的作用 22
2.2.4 强化学习在 GUI 自动化中的独特优势 22
2.3 本章小结 23
第 3 章 大语言模型与通用智能体 24
3.1 大语言模型基础 25
3.1.1 预训练 25
3.1.2 微调 25
3.1.3 后训练 26
3.1.4 视觉与文本的融合 26
3.2 通用智能体 27
3.2.1 推理分析 28
3.2.2 记忆存储 30
3.2.3 工具调用 32
3.3 本章小结 34
第 2 部分:核心技术与方法
第 4 章 GUI 智能体的体系结构与核心设计 36
4.1 基础架构与工作流程 37
4.1.1 总体架构概览 37
4.1.2 工作流程总览 38
4.2 环境感知与平台适配 39
4.2.1 平台特性与适配挑战 39
4.2.2 环境状态捕获 41
4.3 提示工程 44
4.4 推理策略 47
4.4.1 规划 47
4.4.2 动作推断 48
4.4.3 补充输出 48
4.5 动作执行 49
4.5.1 GUI 操作 49
4.5.2 原生 API 调用 50
4.5.3 AI 工具辅助 50
4.6 记忆管理 51
4.6.1 短期记忆:支撑运行时上下文连贯 52
4.6.2 长期记忆:沉淀经验与跨任务泛化 52
4.7 本章小结 54
第 5 章 GUI 智能体的高级增强与自我演进 56
5.1 基于计算机视觉的 GUI 控件识别 57
5.1.1 OCR、目标检测与控件识别 .57
5.1.2 多模态在复杂 GUI 解析中的实践:以 OmniParser 为例 58
5.2 多智能体协作 60
5.2.1 专业化分工 60
5.2.2 智能体间协作 61
5.3 强化学习 62
5.3.1 GUI 智能体在交互式环境下的建模 62
5.3.2 基于强化学习的 GUI 智能体训练 63
5.4 自我反思与自我进化 64
5.4.1 自我反思 64
5.4.2 自我进化 65
5.5 本章小结 67
第 3 部分:实践案例与应用
第 6 章 大语言模型驱动的GUI 智能体框架与平台实践 69
6.1 网页端 GUI 智能体 70
6.1.1 常见流程与关键技术 70
6.1.2 典型的网页端 GUI 智能体示例 71
6.2 移动端 GUI 智能体 74
6.2.1 常见流程与关键技术 74
6.2.2 典型的移动端 GUI 智能体示例 75
6.3 桌面端 GUI 智能体 76
6.3.1 常见流程与关键技术 76
6.3.2 典型桌面端 GUI 智能体示例 77
6.4 跨平台 GUI 智能体 80
6.4.1 “一次开发,多端适配”的挑战 80
6.4.2 框架迁移与版本管理 80
6.4.3 典型跨平台 GUI 智能体示例 81
6.5 工业界案例 82
6.5.1 Anthropic Computer Use 82
6.5.2 OpenAI Computer-UsingAgent 和 Operator 83
6.6 本章小结 85
第 7 章 GUI 智能体数据集的采集与构建 87
7.1 数据的类型与来源 88
7.2 数据采集管线 89
7.3 现有数据集案例 89
7.3.1 网页端数据集 90
7.3.2 移动端数据集 91
7.3.3 桌面端数据集 91
7.3.4 跨平台数据集 92
7.4 本章小结 93
第 8 章 GUI 智能体的大行动模型训练 95
8.1 从理解到执行:大行动模型的崛起 96
8.2 不同平台的大行动模型应用 97
8.2.1 网页端 GUI 场景:从指令到控件操作 98
8.2.2 移动端与桌面端大行动模型的对比与关键技术差异 99
8.2.3 跨平台大行动模型的融合与挑战 101
8.3 模型训练与微调 103
8.3.1 数据收集与准备 103
8.3.2 大行动模型训练主流框架详解 104
8.4 大行动模型案例分析 108
8.4.1 设计思路与架构概览 108
8.4.2 模型训练方法 109
8.4.3 集成部署与在线效果评估 113
8.5 本章小结 116
第 9 章 GUI 智能体评测方法与展望 117
9.1 评测体系概览 .118
9.2 测试用例设计 .119
9.2.1 测试用例设计中的挑战 119
9.2.2 设计原则 120
9.2.3 用例类型 121
9.3 评估指标 122
9.3.1 成功率维度 122
9.3.2 效率维度 122
9.3.3 合规性与安全性维度 123
9.3.4 稳健性维度 123
9.3.5 用户满意度维度 124
9.4 度量标准 124
9.4.1 文本匹配 124
9.4.2 图像匹配 125
9.4.3 元素匹配 125
9.4.4 动作匹配 126
9.4.5 状态校验 126
9.5 常见评测平台与基准集 126
9.5.1 主流评测平台介绍 126
9.5.2 GUI 智能体评测基准示例 128
9.6 未来发展展望 .131
9.7 本章小结 132
第 10 章 详解 WindowsGUI 智能体UFO 133
10.1 项目背景与时代意义 134
10.1.1 Windows 平台的自动化挑战 134
10.1.2 UFO 项目的提出与定位 134
10.2 UFO 系统总体架构 134
10.2.1 架构设计理念 134
10.2.2 核心架构流程总览 134
10.2.3 虚拟化与安全隔离设计 135
10.2.4 多智能体协同模式 135
10.3 HostAgent:系统级编排与执行控制 136
10.3.1 模块定位与功能概述 136
10.3.2 体系结构与主要流程 136
10.3.3 工程实现细节 137
10.3.4 有限状态机与可靠性保障 138
10.3.5 内存管理与状态同步机制 139
10.4 AppAgent:应用专属智能体 139
10.4.1 模块定位与功能概述 139
10.4.2 架构原理与工作机制 139
10.4.3 本地有限状态机 141
10.4.4 内存管理与状态协同 142
10.5 关键技术模块详解 142
10.5.1 混合控件检测机制 142
10.5.2 统一 GUI-API 动作编排引擎 143
10.5.3 知识基座与持续增强机制 145
10.5.4 推测性多步动作执行优化 146
10.6 典型使用流程与案例分析 147
10.6.1 典型流程与案例解析 147
10.6.2 实践建议与常见问题 149
10.7 本章小结 150
第 11 章 GUI 智能体的商业化落地与应用 151
11.1 GUI 智能体应用现状概览 152
11.2 GUI 智能体产品分析 152
11.2.1 基于网页浏览器的GUI 智能体 152
11.2.2 跨平台 GUI 智能体 154
11.2.3 中国本土化 GUI 智能体产品 156
11.3 按应用场景分类的实际落地案例 157
11.3.1 企业办公自动化 157
11.3.2 电子商务与客户服务 158
11.3.3 软件开发与测试 159
11.4 实施经验与挑战分析 160
11.4.1 成功实施的关键因素 160
11.4.2 常见挑战与解决方案 161
11.5 新兴技术与未来趋势 161
11.5.1 多智能体协作技术 161
11.5.2 无代码 GUI 自动化平台 162
11.5.3 行业特定解决方案 162
11.6 实施教训与最佳实践 162
11.6.1 从失败案例中汲取的经验 162
11.6.2 最佳实践建议 163
11.7 结论与建议 .163
11.7.1 总体评估 163
11.7.2 企业应用建议 163
11.8 本章小结 164
第 4 部分:未来展望与挑战
第 12 章 面向未来的挑战与研究方向 166
12.1 隐私保护:桌面端智能体的核心壁垒 167
12.1.1 背景与挑战 167
12.1.2 研究与工程应对策略 167
12.2 延迟、性能与交互流畅性 167
12.2.1 背景与挑战 167
12.2.2 研究与工程应对策略 168
12.3 安全性与可靠性:守住自动化底线 168
12.3.1 背景与挑战 168
12.3.2 研究与工程应对策略 168
12.4 人机协作与交互智能 169
12.4.1 背景与挑战 169
12.4.2 研究与工程应对策略 169
12.5 个性化与用户定制 170
12.5.1 背景与挑战 170
12.5.2 研究与工程应对策略 170
12.6 伦理与合规治理 171
12.6.1 背景与挑战 171
12.6.2 研究与工程应对策略 171
12.7 大规模泛化与可持续进化 171
12.7.1 背景与挑战 171
12.7.2 研究与工程应对策略 171
12.8 本章小结 172
第 13 章 本书总结 173
13.1 内容回顾与关键技术总结 174
13.2 实际应用与案例启示 174
13.3 面临的挑战与应对策略 174
13.4 未来研究方向与发展趋势 174
13.5 结语 175
参考文献 176
展开
人类与计算机之间的交互方式自计算机诞生以来便在不断演进。从早期以命令行界面(Command Line Interface,CLI)为主的晦涩交互,到图形用户界面(Graphical User Interface,GUI)的广泛普及,计算机逐步迈入了一个更加直观与用户友好的时代。GUI的出现彻底改变了普通用户对计算机的使用方式——从记忆复杂的指令和参数,到简单的单击、拖曳、键盘操作、手势操控,极大地降低了使用门槛,使计算机从专业领域逐渐走入大众的日常生活。
与此同时,随着计算机广泛融入人类工作与生活的方方面面,许多重复性、烦琐或复杂的任务逐渐浮现出来。虽然通过GUI执行这些任务相对简单,但频繁的手动操作不仅耗费了大量人力和时间,还容易因人为错误降低工作效率。为了解决这一问题,人们不断寻求如何通过自动化手段完成计算机上的操作,以提高效率和准确性。
传统 GUI 大幅提高了计算机的易用性,却在自动化和高效性方面暴露出明显的局限性。GUI 复杂多变的布局、跨平台的差异性和用户界面的动态更新特性,使传统自动化工具难以实现广泛和灵活的自动操作。早期自动化方案通常基于固定脚本或规则,往往只能针对特定任务或界面,难以应对变化的应用环境,应用范围和扩展能力有限。
近年来,大语言模型(Large Language Model,LLM)技术的飞速发展,特别是多模态大模型的兴起,为 GUI 智能体(GUI Agent)的开发带来了革命性的转机。ChatGPT 等模型所展现的强大的自然语言理解与生成能力,以及视觉语言模型(Vision Language Model,VLM)在视觉理解领域的突破,使智能体能够像人类一样同时具有语言和视觉能力,从而实现更为灵活、动态的 GUI 交互与自动化操作。
在这样的背景下,以大模型为“核心大脑”的 GUI 智能体应运而生。这类智能体能够基于用户的自然语言指令,自动识别屏幕上的界面元素,并实时决策执行相应的操作,无须预定义脚本。这种智能体不仅突破了传统自动化方案的局限性,更开创了一种全新的、通过自然语言实现的交互范式。这种范式超越了原有的GUI 交互方式,有望彻底改变人机协作的模式和效率。
为什么撰写本书
尽管大语言模型驱动的 GUI 智能体的研究与实践仍处于早期阶段,但相关领域的研究工作近年来呈现爆发式增长。大量的学术研究、技术论文、开源项目和工业应用案例不断涌现,技术路径与发展方向也愈发多样和复杂。工业界的产品部署也开始萌芽,已有不少企业开始尝试将 GUI 智能体技术应用于实际的业务场景中。然而,面对海量的研究成果和零散的技术资料,领域内目前尚缺乏系统性的梳理与总结。在这一关键的时间节点,我们希望通过本书对现有的研究成果进行系统和全面的归纳总结,同时明确 GUI 智能体未来可能的发展方向,推动学术界和工业界的深入合作与发展。作者团队在 GUI 智能体领域积累了丰富的研究与实践经验,开发并落地了广受关注的 GUI 智能体项目 UFO,并在相关领域发表了多篇具有影响力的学术论文。这些实际的经验和研究成果构成了本书的核心基础。此外,作者团队于 2024 年 11 月发布了英文综述文章“Large Language Model-Brained GUI Agents: A Survey”,并持续更新多个版本。目前,该综述文章已有 98 页正文内容,参考文献超过 600 篇。2025 年3 月,为了更好地满足国内读者学习大语言模型驱动的 GUI 智能体技术的需求,作者团队启动了本书中文版的撰写工作。与英文综述文章强调前沿学术探索和技术发展的特点不同,本书更加注重面向初学者和应用实践者,着重讲解基础理论、项目实践方法、
实际案例分析及配套示例代码。为此,作者团队在图书结构和内容设计方面进行了大量的调整与优化,力求以清晰的技术路线图和丰富的实践案例为读者提供深入浅出、系统全面的学习资料。
本书适合计算机科学和人工智能领域的科研人员、工程师,人机交互技术开发人员,以及热衷于技术创新的资深技术爱好者阅读。同时,本书特别适合希望了解或研究 GUI 自动化和智能交互技术的高校师生参考。我们希望通过本书的系统讲解,使读者能够迅速掌握大语言模型驱动 GUI 智能体的核心概念与关键技术,促进这一新兴技术的广泛应用与深入研究。
本书主要内容
本书的结构安排如下。
第 1 部分:基础理论与背景(第 1~3 章)。本部分回顾了从传统脚本式GUI自动化向大语言模型智能自动化发展的历史背景与技术动机,并详细介绍智能体的基础理论与发展脉络。
第 2 部分:核心技术与方法(第 4~5 章)。本部分深入讲解构建大语言模型驱动的 GUI 智能体所必需的关键技术与核心组件,包括基础的技术要素及先进的增强技术方法。
第 3 部分:实践案例与应用(第 6~11 章)。本部分全面分析当前主流的 GUI智能体技术框架、数据采集方法、大行动模型训练,以及大模型性能评估的指标与基准测试,并展示实际应用的具体案例。
第 4 部分:未来展望与挑战(第 12~13 章)。本部分探讨 GUI 智能体技术发展过程中面临的主要挑战和局限性,并展望未来的研究趋势与突破点,启发读者进一步探索和创新。
在本书的撰写过程中,我们广泛查阅了相关领域的经典论文、前沿成果与开源代码,并进行了系统性的整理与深入的分析讲解。我们真诚希望本书能够成为一本理论扎实、实践性强的技术手册,帮助读者更好地理解、掌握并有效应用这一前沿技术。我们期待本书能够助力大语言模型驱动的 GUI 智能体技术的持续创新与广泛普及,并成为读者探索和实践“大语言模型 × GUI 智能体”这一全新人机交互范式的重要参考与指南。为确保内容的准确性与清晰性,我们进行了反复推敲和多次修改。然而,鉴于 GUI 智能体技术的快速发展及作者自身知识和经验的局限性,书中难免存在疏漏或不足之处,敬请广大读者不吝指正,提出宝贵的意见与建议。
致谢
本书的完成离不开众多专家、同事及相关机构的支持与帮助。在此,谨向所有在撰写过程中给予指导、协助和鼓励的个人和组织致以诚挚的谢意。首先,衷心感谢张冬梅博士为本书撰写序言,并在选题、研究方法和规范等方面提出了宝贵意见。其次,感谢曹婷教授、董力博士、高翠芸教授、林庆维研究员、王向荣教授和谢涛教授对本书的鼎力推荐。再次,感谢微软数据、知识与智能团队的同事们在数据分析与实验验证等环节所付出的辛勤努力,尤其是黄河、乔波、王露、杨方凯、赵普等,他们在关键阶段提供了重要支持,使本书得以顺利完成。
同时,感谢电子工业出版社博文视点、宋亚东编辑及其团队在出版过程中给予的耐心
指导与专业支持。
最后,感谢在研究与写作过程中给予帮助的所有朋友和家人。由于篇幅所限,未能一一列举,但我们将永远铭记在心。
本书作者
2025 年 7 月 31 日
展开