华信教育资源网
大模型原理与技术
丛   书   名: 人工智能通识教育精品教材
作   译   者:魏明强 出 版 日 期:2024-10-01
出   版   社:电子工业出版社 维   护   人:杜军 
书   代   号:G0488930 I S B N:9787121488931

图书简介:

大模型作为人工智能技术的重要发展方向,逐渐成为未来科技发展的重要方向之一。基于此,本书重点介绍与大模型相关的基础知识、原理与技术。本书分为14章,内容包括深度学习基础、自然语言处理、大模型网络结构、大模型训练与优化、大模型微调及相关应用案例等。全书强调内容的科学性与系统性,从大模型历史发展脉络、理论基础、构建方法到应用场景,循序渐进地全面讲解大模型技术。本书聚焦于大模型在不同领域的扩展应用,提供了应用案例的全方位学习路径,旨在培养和提升学生的实践和创造能力。每章都提供了相应的习题,供学生练习和巩固知识。同时,本书通过介绍开源框架"计图”、华为芯片、航空航天装备制造等知识,可以让学生了解更多国产技术。 本书提供了电子课件及习题参考答案等配套资源,可登录华信教育资源网(www.hxedu.com.cn)下载。本书适合作为科研院所和本科院校计算机、人工智能、机械制造与自动化等相关专业的教材,也可以作为高职高专院校的教学参考书。
定价 69.0
您的专属联系人更多
关注 评论(4) 分享
配套资源 图书内容 样章/电子教材 图书评价
  • 配 套 资 源

    本书资源

    会员上传本书资源

  • 图 书 内 容

    内容简介

    大模型作为人工智能技术的重要发展方向,逐渐成为未来科技发展的重要方向之一。基于此,本书重点介绍与大模型相关的基础知识、原理与技术。本书分为14章,内容包括深度学习基础、自然语言处理、大模型网络结构、大模型训练与优化、大模型微调及相关应用案例等。全书强调内容的科学性与系统性,从大模型历史发展脉络、理论基础、构建方法到应用场景,循序渐进地全面讲解大模型技术。本书聚焦于大模型在不同领域的扩展应用,提供了应用案例的全方位学习路径,旨在培养和提升学生的实践和创造能力。每章都提供了相应的习题,供学生练习和巩固知识。同时,本书通过介绍开源框架"计图”、华为芯片、航空航天装备制造等知识,可以让学生了解更多国产技术。 本书提供了电子课件及习题参考答案等配套资源,可登录华信教育资源网(www.hxedu.com.cn)下载。本书适合作为科研院所和本科院校计算机、人工智能、机械制造与自动化等相关专业的教材,也可以作为高职高专院校的教学参考书。

    图书详情

    ISBN:9787121488931
    开 本:16(185*260)
    页 数:351
    字 数:570

    本书目录

    目    录
    第1章  绪论	1
    1.1  大模型基本概念	2
    1.2  大模型发展历程	4
    1.2.1  从技术架构看发展历程	5
    1.2.2  从参数规模看发展历程	6
    1.2.3  从模态支持看发展历程	6
    1.2.4  从应用领域看发展历程	6
    1.3  大模型关键技术及训练流程	7
    1.3.1  大模型关键技术	7
    1.3.2  大模型训练流程	9
    1.4  本书内容安排	11
    1.5  思考	12
    习题1	13
    第2章  深度学习基础	14
    2.1  神经网络基础	14
    2.1.1  神经网络	14
    2.1.2  卷积神经网络	18
    2.2  损失函数和优化算法	24
    2.2.1  损失函数	24
    2.2.2  优化算法	26
    2.3  神经网络训练	29
    2.3.1  梯度和链式法则	29
    2.3.2  前向传播与反向传播	30
    2.3.3  训练神经网络示例	32
    2.4  深度学习框架	34
    2.4.1  主流深度学习框架	34
    2.4.2  框架选择和优缺点比较	36
    2.5  思考	37
    习题2	38
    第3章  自然语言处理	40
    3.1  自然语言处理概述	40
    3.1.1  基本任务	40
    3.1.2  发展历程	42
    3.1.3  应用领域	43
    3.2  词嵌入	44
    3.2.1  独热向量	44
    3.2.2  Word2vec	45
    3.2.3  代码示例	48
    3.3  循环神经网络	50
    3.3.1  循环神经网络介绍	50
    3.3.2  循环神经网络训练	51
    3.3.3  循环神经网络梯度问题	52
    3.3.4  双向循环神经网络	53
    3.4  长短期记忆网络	54
    3.4.1  长短期记忆网络介绍	55
    3.4.2  长短期记忆网络应用	57
    3.5  门控循环单元	61
    3.5.1  门控循环单元介绍	62
    3.5.2  门控循环单元应用	63
    3.6  思考	67
    习题3	68
    第4章  大模型网络结构	69
    4.1  Transformer	69
    4.1.1  注意力机制	71
    4.1.2  编码器-解码器结构	80
    4.1.3  大模型中的编码器-解码器结构	84
    4.2  编码器结构—BERT家族	87
    4.2.1  BERT结构	87
    4.2.2  预训练策略	89
    4.2.3  BERT的变体	92
    4.3  解码器结构—GPT家族	95
    4.3.1  GPT结构	96
    4.3.2  自回归预训练	98
    4.3.3  后续改进	100
    4.4  思考	104
    习题4	105
    第5章  大模型训练与优化	106
    5.1  训练数据准备	106
    5.1.1  数据获取	106
    5.1.2  数据预处理	109
    5.1.3  数据增强	111
    5.1.4  数据配比与课程设置	114
    5.1.5  开源数据集	115
    5.2  并行化和分布式训练	118
    5.2.1  大模型训练的挑战	118
    5.2.2  并行策略	118
    5.2.3  节点间数据通信	120
    5.2.4  分布式训练框架	123
    5.3  模型压缩	126
    5.3.1  量化	127
    5.3.2  剪枝	132
    5.3.3  知识蒸馏	136
    5.4  华为芯片助力大模型训练与部署	138
    5.4.1  Ascend AI芯片	139
    5.4.2  Atlas系列硬件	139
    5.4.3  异构计算架构CANN	139
    5.4.4  深度学习框架MindSpore	140
    5.4.5  应用使能与行业应用	140
    5.5  思考	140
    习题5	142
    第6章  大模型微调	144
    6.1  大模型微调概述	144
    6.2  参数高效微调	146
    6.2.1  增量式微调	146
    6.2.2  指定式微调	150
    6.2.3  重参数化微调	151
    6.2.4  混合微调	156
    6.2.5  小结	157
    6.3  指令微调	158
    6.3.1  指令数据集构建	159
    6.3.2  指令微调阶段	160
    6.4  基于人类反馈的强化学习微调	161
    6.4.1  奖励建模	162
    6.4.2  强化学习微调	163
    6.4.3  案例讲解	164
    6.5  思考	166
    习题6	166
    第7章  大模型提示工程	168
    7.1  提示工程简介	168
    7.2  零样本提示	169
    7.3  少样本提示	176
    7.4  链式思考提示	177
    7.4.1  思维链提示工程概述	177
    7.4.2  零样本思维链	180
    7.4.3  思维链拓展	180
    7.5  思维树提示	181
    7.6  检索增强生成	185
    7.7  自动提示工程	185
    7.8  思考	187
    习题7	188
    第8章  高效大模型策略	190
    8.1  大模型效率概述	190
    8.1.1  大模型效率面临的问题	190
    8.1.2  大模型效率及其评估指标	190
    8.2  预算效率策略:缩放定律	192
    8.3  数据效率策略	193
    8.3.1  数据过滤	193
    8.3.2  主动学习/重要性采样	194
    8.3.3  课程学习	194
    8.4  架构效率策略	195
    8.4.1  高效注意力	195
    8.4.2  高效位置编码	196
    8.4.3  稀疏模型	197
    8.4.4  无注意力模型	197
    8.5  训练效率策略	197
    8.5.1  稳定训练策略	198
    8.5.2  混合精度训练	198
    8.5.3  并行训练技术	199
    8.5.4  内存优化	200
    8.6  推理效率策略	200
    8.6.1  剪枝	201
    8.6.2  知识蒸馏	201
    8.6.3  量化	202
    8.6.4  低秩分解	202
    8.7  微调效率策略	203
    8.7.1  参数高效微调	203
    8.7.2  数据高效调整	204
    8.8  思考	204
    习题8	205
    第9章  单模态通用大模型	206
    9.1  LLaMA:一种自然语言处理大模型	206
    9.1.1  模型结构	206
    9.1.2  预训练	209
    9.1.3  微调	209
    9.1.4  使用方法	211
    9.2  SAM:一种图像分割大模型	211
    9.2.1  概述	212
    9.2.2  提示下的图像分割任务	212
    9.2.3  SAM模型架构	212
    9.2.4  SA-1B:大规模掩码数据集	216
    9.2.5  SAM在各视觉任务中的应用	217
    9.2.6  SAM的使用方法	218
    9.3  AudioLM:让AI为你谱曲写歌	219
    9.3.1  概述	219
    9.3.2  AudioLM的组件构成	219
    9.3.3  AudioLM的训练方式	220
    9.3.4  AudioLM的安装与使用	225
    9.3.5  AudioLM的推理应用	225
    9.4  Zero-1-to-3:二生三维	226
    9.4.1  概述	226
    9.4.2  Zero-1-to-3模型结构	227
    9.4.3  Zero-1-to-3的使用	229
    9.5  思考	231
    习题9	231
    第10章  多模态通用大模型	232
    10.1  多模态数据集介绍	232
    10.1.1  GQA数据集	232
    10.1.2  HowTo100M数据集	233
    10.1.3  Conceptual-12M数据集	234
    10.1.4  YT-Temporal-180M数据集	234
    10.1.5  WebVid-2M数据集	234
    10.1.6  ModelNet数据集	234
    10.1.7  ShapeNet数据集	235
    10.1.8  ScanObjectNN数据集	235
    10.1.9  KITTI数据集	236
    10.1.10  nuScenes数据集	236
    10.1.11  Waymo数据集	237
    10.2  CLIP:探索图文结合的奥秘	238
    10.2.1  概述	238
    10.2.2  模型架构	239
    10.2.3  训练过程	242
    10.2.4  CLIP相关应用	244
    10.2.5  CLIP的不足	247
    10.3  GPT-4V:大模型视觉能力的新篇章	248
    10.3.1  输入模式	248
    10.3.2  工作方式	249
    10.3.3  视觉语言能力	251
    10.4  ImageBind:多感官统一	255
    10.4.1  概述	255
    10.4.2  多模态特征编码与对齐	256
    10.4.3  数据集的灵活应用	257
    10.4.4  相关应用	257
    10.4.5  使用方法	258
    10.5  3D-LLM:将三维世界注入大模型	260
    10.5.1  三维语言数据生成	260
    10.5.2  3D-LLM训练方式	261
    10.5.3  3D-LLM安装与实现细节	263
    10.5.4  3D-LLM应用图谱	264
    10.6  Sora:文生视频	265
    10.6.1  Sora为视频生成带来的改变	266
    10.6.2  Sora的局限性与争议	268
    10.7  思考	268
    习题10	269
    第11章  大模型评测	271
    11.1  大模型评测概述	271
    11.2  知识和能力评测	272
    11.2.1  问答能力	272
    11.2.2  知识补全能力	272
    11.2.3  推理能力	272
    11.2.4  工具学习能力	274
    11.3  对齐评测	274
    11.3.1  伦理道德	275
    11.3.2  偏见	275
    11.3.3  有害内容	276
    11.3.4  真实性	276
    11.4  安全评测	277
    11.4.1  鲁棒性评测	277
    11.4.2  风险评测	278
    11.5  行业大模型评测	278
    11.5.1  医学	278
    11.5.2  教育学	279
    11.5.3  计算机科学	279
    11.5.4  金融学	280
    11.6  思考	280
    习题11	281
    第12章  大模型主要应用场景	283
    12.1  大模型产业图谱	283
    12.2  大模型军事智能应用	284
    12.3  大模型教育教学应用	286
    12.4  大模型医疗健康应用	288
    12.5  大模型工业应用	289
    12.6  大模型气象预报应用	292
    12.7  大模型测绘应用	294
    12.8  思考	295
    习题12	296
    第13章  基于大模型的智能软件研发	297
    13.1  基于大模型的智能软件研发框架	297
    13.2  智能软件研发中的大模型技术	298
    13.2.1  常用大模型	298
    13.2.2  预训练范式	299
    13.3  智能软件研发中的下游任务	300
    13.3.1  程序语言相关任务	301
    13.3.2  自然语言相关任务	308
    13.3.3  程序语言与自然语言交互任务	311
    13.4  常用数据集	317
    13.4.1  预训练数据集	317
    13.4.2  下游任务数据集	318
    13.5  思考	320
    习题13	321
    第14章  基于大模型的航空航天装备制造	323
    14.1  大模型在大飞机制造中的应用	323
    14.1.1  大飞机制造概述	323
    14.1.2  设计和优化中的应用	324
    14.2  大模型在航空发动机中的应用	327
    14.2.1  航空发动机概述	327
    14.2.2  具体应用场景	328
    14.3  大模型在航空机载设备与系统中的应用	330
    14.3.1  航空机载设备与系统概述	330
    14.3.2  具体应用场景	330
    14.4  大模型在无人机智能集群中的应用	332
    14.4.1  无人机智能集群概述	332
    14.4.2  具体应用场景	334
    14.4.3  典型应用案例	334
    14.5  思考	337
    习题14	338
    参考文献	339
    
    展开

    前     言

    前    言
        以ChatGPT、Sora等为代表的大模型技术展现出了强大的通用智能,成为人工智能发展的一个重要里程碑。大模型引领的智能革命,在金融、医疗、教育、军事、航空航天等领域中的应用正在不断加深,有可能引发与工业革命、电气革命和信息革命相媲美的深刻变革,从根本上改变人类的生产和生活方式。
    现阶段,大模型技术就像是开启智能时代的“蒸汽机”,在全球范围内引发了对通用人工智能的广泛关注和研究热潮,开创了人工智能技术发展的新纪元,并为满足人类基本需求提供了前所未有的机遇,预示着一个崭新时代的到来。然而,机遇与挑战并存,大模型技术在为各行各业带来革命性机遇的同时伴随着众多复杂技术挑战,包括高效稳定的算力、数据的安全与隐私、算法的可解释性等。这些挑战不仅考验了技术的极限,也为未来的创新和发展指明了方向。
    本书从大模型历史发展脉络、理论基础、构建方法及应用场景4个方面循序渐进地全面梳理探讨了国内外大模型技术的研究成果,精心划分为有内在逻辑与关联的14章内容,并力求做到内容新颖、通俗易懂,整体不失系统性。具体结构如下:第1章介绍大模型基本概念,梳理大模型的发展历程及相关研究范式等,帮助读者建立对大模型的整体理解;第2~4章介绍大模型构建所需的基础理论知识,包括深度学习基础、自然语言处理及大模型网络结构,为读者更好地理解和应用大模型技术提供理论支持;第5~8章介绍大模型的构建技术,包括大模型训练与优化、大模型微调、大模型提示工程及高效大模型策略,为读者能够更有效地构建出性能卓越的大模型提供技术支持;第9~11章介绍常用的大模型,包括单模态通用大模型、多模态通用大模型及大模型评测,让读者全面了解常用的大模型,为他们在实际应用中做决策提供有力支持;第12~14章聚焦于大模型在不同领域的应用,包括大模型主要应用场景、基于大模型的智能软件研发及基于大模型的航空航天装备制造,引领读者进入大模型多元化的应用领域,展示大模型的强大能力。
    本书通过14章的有机组合,构建了一个系统且全面的大模型学习框架。本书紧跟时代潮流,融合了最新的学术研究和技术发展动态,为读者提供了一个从理论基础到技术实施,再到应用案例的全方位学习路径,锻炼读者从理论到实际解决问题的能力,并培养读者的创造能力。本书以清晰的逻辑结构和深入浅出的内容阐述,助力读者深刻理解大模型技术的核心原理和应用价值,提高他们在这一领域的实践能力。期望本书成为大模型领域学习者、实践者和研究者的有益参考资料,激发他们在这一前沿领域的探索热情和创新潜力。
    本书由魏明强、陈松灿、宫丽娜编写,李鹏、朱哲、郑成宇、魏泽勇、佘雨桐、顾立鹏、刘云、范溢华、王洁、李新、亓玉、温志坤、彭晓勤、陈赵威、李赫翀、全五洲、马梦姣也提供了大量帮助。本书编写工作得到南京航空航天大学计算机科学与技术学院/人工智能学院的大力支持。本书获得了国家自然科学基金项目(T2322012、62032011、62172218)的资助。在此一并表示感谢!
    此外,在编写过程中,编者广泛查阅了相关资料,汲取了许多学者和专家的研究成果和观点,在此对他们表示最衷心的感谢!由于编者水平有限,本书会存在一些不妥或需要改进的地方,欢迎广大读者及同行专家批评指正,我们会在未来的工作中持续改进和完善。
    
    展开

    作者简介

    魏明强,国家优青、教授、博士生导师。博士毕业于香港中文大学并获最佳博士毕业论文奖(2014)。近年来,围绕大飞机3D扫描与测量、几何深度学习和三维视觉等研究方向,主持国防基础科研、国家重点研发计划子课题、国自然优青/面上/青年以及联合主持国自然重点项目等10余项;发表学术论文150余篇,如IEEE TPAMI、CVPR等CCF A类期刊和会议,相关技术用在多个国家重点型号工程。
  • 样 章 试 读
  • 图 书 评 价 我要评论
华信教育资源网