图书简介:
目 录
第1篇 openEuler异构融合操作系统起源
第1章 计算机体系结构发展史 3
1.1 CPU时代 4
1.1.1 CPU时代的定义 4
1.1.2 CPU时代出现的原因 4
1.1.3 CPU时代的概念和关键技术 5
1.1.4 CPU时代的优缺点分析 6
1.2 CPU+DSA时代 7
1.2.1 CPU+DSA时代的定义 7
1.2.2 CPU+DSA时代出现的原因 9
1.2.3 CPU+DSA时代的关键技术 10
1.2.4 CPU+DSA时代的优缺点分析 11
1.3 异构融合时代 12
1.3.1 异构融合时代的定义 12
1.3.2 异构融合时代出现的原因 13
1.3.3 异构融合时代的关键技术 14
1.3.4 异构融合时代的优缺点分析 15
1.4 本章小结 17
第2章 异构融合操作系统的价值与挑战 18
2.1 操作系统层异构融合的价值 18
2.2 操作系统层异构融合面临的挑战 21
2.2.1 体系结构与操作系统 21
2.2.2 异构融合下操作系统面临的挑战 23
2.3 本章小结 24
第3章 openEuler异构融合操作系统 25
3.1 架构定义 25
3.2 技术全景 26
3.3 本章小结 28
第2篇 openEuler异构融合操作系统核心技术
第4章 池化基础底座 31
4.1 设备池化 31
4.1.1 设备池化的背景和意义 31
4.1.2 设备池化技术发展的驱动力 32
4.1.3 设备池化技术现状和趋势 32
4.1.4 通过新型高速互联总线实现设备池化 36
4.1.5 openEuler当前实现 39
4.2 内存池化 40
4.2.1 内存池化的背景和意义 40
4.2.2 基于内存池化的内存扩展 41
4.2.3 基于内存池化的内存共享 42
4.2.4 实现内存池的两种技术路线 43
4.2.5 内存池化的软件实现 49
4.2.6 内存池化面临的挑战与未来发展方向 56
4.2.7 openEuler当前实现 57
4.3 异构融合通信 57
4.3.1 异构融合系统IPC 58
4.3.2 异构对等通信 69
4.3.3 openEuler当前实现 75
4.4 异构融合虚拟化 75
4.4.1 为什么需要虚拟化 75
4.4.2 单任务对设备资源使用不充分的原因 76
4.4.3 业界现有的多任务部署方式 78
4.4.4 异构融合虚拟化下的多任务部署方式 79
4.4.5 异构融合虚拟化业务收益案例 82
4.4.6 其他潜在相关技术 87
4.4.7 openEuler当前实现 88
4.5 本章小结 89
第5章 异构核心子系统 90
5.1 异构融合调度 90
5.1.1 背景 90
5.1.2 总体架构 94
5.1.3 异构单机调度 96
5.1.4 算力统一抽象 113
5.1.5 openEuler当前实现 115
5.2 异构融合内存 116
5.2.1 内存管理的四大机制 117
5.2.2 加速器的分类 119
5.2.3 GMEM的设计理念 122
5.2.4 GMEM技术方案详解 123
5.2.5 GMEM的具体应用 133
5.2.6 openEuler当前实现 144
5.3 异构融合存储 144
5.3.1 存储软件架构面临的挑战 145
5.3.2 异构内存缓存框架 147
5.3.3 异构融合文件系统 152
5.3.4 openEuler当前实现 154
5.4 异构在网计算 155
5.4.1 技术背景 155
5.4.2 可编程网络硬件 158
5.4.3 在网计算的基本模式 161
5.4.4 在网计算的关键应用 164
5.4.5 openEuler当前实现 170
5.5 本章小结 170
第6章 池化核心服务 171
6.1 异构可靠性服务 171
6.1.1 异构可靠性服务的变化 171
6.1.2 可靠性服务的构筑思路和整体架构 172
6.1.3 节点内基础RAS能力 173
6.1.4 Rack内节点间高级RAS能力 183
6.1.5 openEuler当前实现 188
6.2 异构安全服务 188
6.2.1 异构融合带来的安全威胁与挑战 188
6.2.2 系统安全服务 189
6.2.3 访问控制 192
6.2.4 数据安全服务 195
6.2.5 openEuler当前实现 200
6.3 智能化服务 201
6.3.1 智能化运维服务 201
6.3.2 智能化调优服务 223
6.4 NEW POSIX接口 244
6.4.1 传统的设备与资源管理方式 244
6.4.2 NEW POSIX设计 247
6.4.3 openEuler当前实现 249
6.4.4 总结与展望 250
6.5 本章小结 251
第3篇 openEuler异构融合操作系统应用实践
第7章 openEuler异构融合操作系统行业实践案例 255
7.1 华为某产品大模型推理场景实践 255
7.1.1 核心诉求 255
7.1.2 解决方案 256
7.1.3 实施效果 258
7.2 一虚多模拟某网上购物商城商品推荐/OCR等业务 259
7.2.1 核心诉求 259
7.2.2 解决方案 260
7.2.3 实施效果 261
7.3 某科技零售公司推荐场景的推理加速 261
7.3.1 核心诉求 261
7.3.2 解决方案 262
7.3.3 实施效果 263
7.4 智能化运维服务案例:某科技零售公司模型训练性能抖动问题的
快速定位 263
7.4.1 核心诉求 263
7.4.2 解决方案 263
7.4.3 实施效果 264
7.5 智能化运维服务案例:某生活指南公司模型训练场景下性能下降
问题的快速定位 265
7.5.1 核心诉求 265
7.5.2 解决方案 265
7.5.3 实施效果 265
7.6 中国信息通信研究院大模型应用实践 267
7.6.1 核心诉求 267
7.6.2 详细实践 269
7.7 本章小结 276
展开
前 言
操作系统是计算机硬件与应用程序之间的桥梁,是计算机的“灵魂”,其重要性在于支撑信息技术基础设施、保障国家安全和稳定、促进科学研究和创新,以及支持经济社会发展。在当前国际环境下,拥有自主可控的操作系统尤为重要。国务院发布的《“十四五”数字经济发展规划》、工业和信息化部发布的《“十四五”软件和信息技术服务业发展规划》等国家重大发展战略一直把“自主操作系统”作为优先发展方向。
openEuler是由开放原子开源基金会(OpenAtom Foundation)孵化及运营的开源操作系统技术平台,致力于打造中国原生开源、可自主演进的数字基础设施操作系统根社区。openEuler的前身是华为公司发展近10年的服务器操作系统EulerOS,2019年华为公司将其开源并更名为openEuler。2021年11月华为公司与社区全体伙伴携手共同将openEuler正式捐赠给开放原子开源基金会,当前有多个国产OSV(Operating System Vendor,操作系统供应商)基于openEuler发布商用版本(如麒麟软件、统信软件、麒麟信安、凝思、Suse、超聚变等)。openEuler的定位是面向数字基础设施的开源操作系统,支持CPU(Central Processing Unit,中央处理器)(包括ARM、x86、RISC-V等多种指令集)、GPU(Graphics Processing Unit,图形处理器)、NPU(Neural Processing Unit,神经网络处理器)等多样性算力,并支持服务器、云计算、边缘计算、嵌入式等应用场景,支持OT(Operational Technology,运营技术)领域应用及OT与ICT(Information and Communications Technology,信息与通信技术)的融合。
随着摩尔定律的失效及AI大模型等应用对大规模算力的需求不断增加,数据中心的硬件由单纯的CPU算力向多样性的异构设备发展,系统架构由以CPU为中心的架构逐渐向异构融合的对等架构演进。在此技术演进趋势下,openEuler顺应技术发展特点,开始思考下一代操作系统的架构和核心技术。
本书分为3篇。第1篇是openEuler异构融合操作系统的起源,包括第1章~第3章。第1章介绍了计算机体系结构的发展史,展现了异构融合时代已经到来的技术趋势;第2章阐述了异构融合时代操作系统层进行异构融合的独特价值与挑战;第3章介绍了openEuler异构融合操作系统的架构定义和技术全景。第2篇是openEuler异构融合操作系统的核心技术,也是本书的重点部分,包括第4章~第6章,分别介绍了openEuler异构融合池化基础底座、异构核心子系统和池化核心服务中的关键技术。第3篇是openEuler异构融合操作系统应用实践,包括第7章,总结了openEuler异构融合操作系统初步应用过程中的行业实践案例。
编写本书的目的包括:①就“异构融合时代的操作系统如何设计和实现”问题进行探讨,抛砖引玉,希望得到操作系统行业同行和科研人员的宝贵建议;②把当前的应用实践提供给国内各行业的合作伙伴,作为经验参考,使openEuler异构融合操作系统能够覆盖到更多的行业,为openEuler的生态繁荣添砖加瓦。
另外,通过本书我们期待更多的人一起共建openEuler社区,实现我们的愿景——打造数智时代操作系统,融合多样算力,赋能千行万业,铸就基础设施的“魂”。
在本书的编写过程中,我们得到了许多人的帮助和支持。在此,向所有支持我们的人表示最真挚的感谢。
首先,我们要感谢万汉阳、谭焜、秦彬娟、熊伟、蔡灏旻、吴斌、周敬滨、刘晓莉、蔡和、栾建海、郭寒军、张攀、廖清伟、江毅文、高贵锦、陆志浩、谢英太、谢志鹏、严安、黎亮、卢景晓、李力军、王智用等同事,在本书的编写过程中,他们给予了无私的支持和鼓励,他们的指导和建议对我们起到了至关重要的作用,让我们能够更好地完成本书的编写。
其次,我们要感谢(排名不分先后)伍伯东、林飞龙、郝明哲、胡世元、陈东辉、高超、黄斌、杨永光、叶镖翔、杨演超、朱维希、魏玮、房闯闯、侯明永、刘明睿、刘育擘、何秀军、王远、牛博远、卢华歆、邓广兴、朱健伟、杨永光、陈辉、黄堆荣等人,他们在百忙之中抽出时间编写和校对本书的技术细节。同时,感谢电子工业出版社李淑丽编辑,她在这本书的编写过程中付出了很大的努力,为这本书的质量和深度做出了贡献。
另外,我们要感谢(排名不分先后)中国信息通信研究院、华为技术有限公司等行业伙伴提供的案例,他们的实践经验和成功案例为这本书的编写提供了重要的参考和支持,让我们能够更好地展现openEuler异构融合操作系统在各个行业的应用情况,感谢他们对行业的贡献。
最后,我们要感谢所有读者,希望这本书能够对大家有所帮助。
由于编著者水平有限,书中难免有不足之处,欢迎各位同行和读者批评指正。
编著者
2024年11月
展开