图书简介:
第1章 OpenAI一鸣惊人带来的启示 1
1.1 OpenAI的成长并非一帆风顺 2
1.2 OpenAI的成功因素 5
1.3 OpenAI特殊的股权设计带来的启示 7
1.4 思考 11
第2章 自然语言处理的发展历程 13
2.1 自然语言处理的发展史 14
2.1.1 背景介绍 14
2.1.2 自然语言处理发展的7个阶段 15
2.2 从BERT模型到ChatGPT 30
2.3 BERT模型到底解决了哪些问题 31
2.4 BERT模型诞生之后行业持续摸索 38
2.5 ChatGPT的诞生 41
2.5.1 InstructGPT模型的构建流程 42
2.5.2 ChatGPT和InstructGPT的差异 44
2.5.3 ChatGPT和BERT模型在公开数据集上的测试 45
2.5.4 高质量的数据标注 46
2.6 思考 48
第3章 读懂ChatGPT的核心技术 50
3.1 基于Transformer的预训练语言模型 50
3.2 提示学习与指令微调 55
3.3 基于人工反馈的强化学习 59
3.4 思维链方法 62
3.5 集成学习 64
3.6 思考 67
第4章 看清GPT的进化史和创新点 68
4.1 GPT技术的发展历程 68
4.1.1 GPT-1技术的发展历程 68
4.1.2 GPT-2技术的发展历程 72
4.1.3 GPT-3技术的发展历程 73
4.2 GPT的创新点总结 75
4.3 思考 77
第5章 大模型+多模态产生的“化学反应” 78
5.1 多模态模型的发展历史 78
5.2 单模态学习、多模态学习和跨模态学习的区别 82
5.3 多模态大模型发展的重大里程碑 85
5.4 大模型+多模态的3种实现方法 94
5.5 多模态大模型的效果评估 99
5.6 思考 102
第6章 多模态大模型的核心技术 103
6.1 文本多模态技术 104
6.1.1 基于模板的图像描述方法 105
6.1.2 基于检索的图像描述方法 105
6.1.3 基于深度学习的图像描述方法 105
6.2 图像多模态技术 106
6.2.1 基于对抗网络的文本生成图像方法 107
6.2.2 基于VAE的文本生成图像方法 109
6.2.3 基于扩散模型的文本生成图像方法 110
6.3 语音多模态技术 111
6.3.1 基于非深度学习的文本生成语音技术 111
6.3.2 基于深度学习的文本生成语音技术 113
6.4 视频多模态技术 116
6.4.1 非扩散模型的文本生成视频技术 117
6.4.2 基于扩散模型的文本生成视频技术 118
6.5 跨模态多重组合技术 119
6.6 多模态大模型高效的训练方法 120
6.7 GPT-4多模态大模型核心技术介绍 121
6.8 多模态技术的发展趋势 122
第7章 国内外多模态大模型对比 124
7.1 国内多模态大模型介绍 125
7.1.1 LLaMA-Adapter V2 125
7.1.2 VisualGLM-6B 128
7.1.3 mPLUG-Owl 129
7.2 国外多模态大模型介绍 131
7.2.1 Visual ChatGPT 131
7.2.2 InstructBLIP 132
7.2.3 MiniGPT-4 134
7.3 多模态大模型评测数据集 135
7.3.1 国内评测数据集 136
7.3.2 国外评测数据集 136
7.4 多模态大模型的评测标准 137
7.4.1 国内评测标准 137
7.4.2 国外评测标准 138
7.5 多模态大模型对比 139
7.5.1 感知能力评测 139
7.5.2 认知能力评测 141
7.6 思考 145
第8章 中小公司的大模型构建之路 146
8.1 微调技术介绍 147
8.1.1 LoRA技术 148
8.1.2 AdaLoRA技术 149
8.1.3 QLoRA技术 149
8.1.4 微调加DeepSpeed的ZeRO-3 150
8.2 模型压缩技术介绍 151
8.2.1 剪枝 151
8.2.2 知识蒸馏 153
8.2.3 量化压缩 154
8.3 微调实战 155
8.3.1 部分参数微调实战 156
8.3.2 全参数微调实战 157
8.4 模型压缩实战 159
8.4.1 8位量化压缩实战 159
8.4.2 4位量化压缩实战 160
8.5 思考 162
第9章 从0到1部署多模态大模型 163
9.1 部署环境准备 163
9.2 部署流程 165
9.3 使用Flask框架进行API开发 167
9.4 使用Gradio框架进行Web页面开发 171
9.5 其他部署方法介绍 176
9.6 部署过程中常见的问题总结 179
第10章 多模态大模型的主要应用场景 183
10.1 多模态大模型的应用图谱 183
10.1.1 多模态大模型的30个基础应用 183
10.1.2 多模态大模型在六大领域中的应用 189
10.2 多模态大模型在金融领域中的应用 193
10.2.1 语音质检 194
10.2.2 智能顾问 196
10.3 多模态大模型在出行与物流领域中的应用 201
10.4 多模态大模型在电商领域中的应用 203
10.4.1 智能客服 203
10.4.2 智能试穿 205
10.5 多模态大模型在工业设计与生产领域中的应用 207
10.6 多模态大模型在医疗健康领域中的应用 210
10.7 多模态大模型在教育培训领域的应用 215
10.8 思考 216
第11章 用多模态大模型打造AI助理实战 218
11.1 应用背景 218
11.2 方法论介绍 219
11.2.1 思维链解决复杂的推理问题 219
11.2.2 思维树进一步提升推理能力 220
11.2.3 采用插值法解决长文本输入问题 220
11.3 工具和算法框架介绍 222
11.3.1 使用的工具 222
11.3.2 使用的算法框架 222
11.4 优化逻辑介绍 224
11.4.1 如何提高多轮对话能力 225
11.4.2 如何提高角色扮演能力 225
11.4.3 如何提高长文本阅读能力 226
11.5 多模态大模型的部署 227
11.6 多模态大模型的性能评估 228
11.6.1 综合性能评估 228
11.6.2 长文本阅读示例 229
11.6.3 多轮对话示例 230
11.6.4 角色扮演示例 233
11.6.5 LangChain框架赋能Ziya在限定域内的问答示例 234
11.7 思考 235
第12章 多模态大模型在情绪识别领域的应用 236
12.1 应用背景和待解决的问题 236
12.2 方法论介绍 238
12.3 工具和算法框架介绍 243
12.3.1 算法的输入和输出 243
12.3.2 算法框架的整体构建流程 244
12.3.3 文本预训练任务 245
12.3.4 图像预训练任务 247
12.3.5 多模态预训练任务 248
12.3.6 算法的求解 249
12.3.7 算法的应用 250
12.4 优化逻辑介绍 251
12.5 部署流程 253
12.6 效果评测 254
12.6.1 评测数据集 254
12.6.2 评测指标 257
12.6.3 评测结果 257
12.7 思考 259
第13章 大模型在软件研发领域的实战案例与前沿探索 261
13.1 LLM在软件研发过程中的单点提效 262
13.1.1 基于GitHub Copilot的代码片段智能生成 262
13.1.2 基于Copilot X实现增强的代码片段智能生成 266
13.1.3 基于GitHub Copilot X实现对选中代码的理解与解读 268
13.1.4 基于GitHub Copilot X的Pull Requests提效 269
13.1.5 基于LLM实现的“代码刷” 270
13.1.6 使用Copilot Voice实现语音驱动的代码开发 272
13.1.7 使用Copilot CLI实现命令行的自动生成 274
13.1.8 使用TestPilot实现单元测试用例的自动生成 275
13.1.9 更多的应用 277
13.2 代码LLM为软件研发带来的机遇与挑战 277
13.2.1 对于软件研发来说,什么变了 278
13.2.2 对于软件研发来说,什么没有变 278
13.3 在LLM时代,对软件研发的更多思考 283
13.3.1 思考1:替代的是“码农”,共生的是工程师 283
13.3.2 思考2:有利于控制研发团队规模,保持小团队的
效率优势 284
13.3.3 思考3:不可避免的“暗知识” 284
13.3.4 思考4:Prompt即代码,代码不再是代码 285
13.3.5 思考5:Prompt to Executable软件研发范式的可能性 286
13.4 思考 286
展开
ChatGPT和GPT-4这两个知名大模型的发布,让大模型迅速成为爆点,重新点燃了人们对通用人工智能的热情。很多国家和地区都开始致力于大模型的研发、应用和推广。我们认为,以大数据和人工智能为核心技术驱动的新的科技革命即将到来,数字赋能一切的新的数字经济范式也即将到来。面对数字经济的时代大背景,无论从业者来自哪个行业(互联网行业、通信行业、金融行业、传统制造行业或服务行业等)、从事哪种职业(研发人员、工程师、设计师、编辑等),都会受到数字经济的影响。
大模型研发更像一场遍布全球的科技“军备竞赛”,模型的效果如果“差之毫厘”,面临的结局可能就是“谬以千里”。从技术发展的角度来看,我们认为,单模态大模型只是过渡型技术,多模态大模型将成为通用人工智能赋能各行各业的重要技术底座。当前国内详细介绍多模态大模型的发展历史、技术要点和应用方面的书籍少之又少,很多从业者即使想深入学习,也难以找到体系化的教材。所以,我们撰写了本书。
大模型的核心特征是“大数据、大算力和大参数量”,这几个“大”字无疑极大地提高了人工智能大模型的研发、训练、部署和应用门槛。中小公司有点玩不起人工智能大模型了,这是中小公司面临的难题。基于此,本书详细介绍了中小公司的大模型构建之路,阐述了如何通过微调、量化压缩等技术构建垂直领域的轻量级大模型。
另外,为了更好地让来自不同领域的读者熟悉多模态大模型的价值,我们还详细阐述了多模态大模型在六大领域(分别是金融领域、出行与物流领域、电商领域、工业设计与生产领域、医疗健康领域和教育培训领域)的应用,帮助读者更好地理解多模态大模型的应用场景和可能产生的商业价值。
我们希望读者能够通过对本书的学习,更好、更快地拿起多模态大模型这个“强大武器”,高效地促进所在产业的数智化转型和变革。同时,我们也希望通过本书的创作可以与研究和应用多模态大模型的专业人士深入、广泛地交流和合作。
4位坚信“人工智能改变世界”的伙伴(彭勇、彭旋、郑志军和茹炳晟)共同完成了本书的撰写。彭勇是大数据应用和大模型专家,彭旋和郑志军是大模型算法专家,茹炳晟是腾讯的技术专家。我们还要感谢在本书创作过程中给予我们支持的领导、家人、同事和朋友,同时感谢电子工业出版社博文视点公司的石悦老师。他们的信任、鼓励和支持,是我们持续创作和不断前进的动力。
彭 勇
2023年9月
展开