图书简介:
目 录
第一部分 大数据平台安装
第1章 平台操作系统的使用 3
1.1 Linux操作系统概述 3
1.1.1 Linux操作系统的起源 3
1.1.2 Linux操作系统的特点 4
1.1.3 Linux操作系统的应用场景 5
1.1.4 Linux版本 6
1.2 Linux常用命令 7
1.2.1 文件与目录操作 7
1.2.2 用户操作 9
1.2.3 文本操作 10
1.2.4 系统操作 11
1.3 Linux操作系统用户信息 14
1.3.1 用户和组 14
1.3.2 文件类型和权限 15
1.4 本章小结 17
第2章 Hadoop平台安装 18
2.1 Hadoop概述 18
2.1.1 Hadoop的起源 18
2.1.2 Hadoop的生态圈 19
2.1.3 Hadoop的版本 21
2.1.4 Hadoop的优点 22
2.1.5 Hadoop的应用场景 22
2.1.6 Hadoop的运行模式 23
2.2 Hadoop的核心组件 23
2.2.1 HDFS 23
2.2.2 MapReduce 26
2.2.3 YARN 28
2.3 平台操作系统环境设置 29
2.3.1 配置Linux操作系统基础
环境 30
2.3.2 安装Java环境 32
2.4 安装Hadoop软件 35
2.4.1 获取Hadoop安装包 35
2.4.2 安装Hadoop软件 35
2.4.3 修改目录所有者和所有者组 36
2.5 安装单机版Hadoop系统 36
2.5.1 配置Hadoop配置文件 37
2.5.2 测试Hadoop本地模式的
运行 37
2.6 本章小结 38
第3章 平台基础环境配置 39
3.1 集群网络连接 39
3.1.1 实验环境下的大数据Hadoop
平台集群网络 39
3.1.2 生产环境下的大数据Hadoop
平台集群网络 40
3.2 SSH无密码登录 41
3.2.1 SSH简介 41
3.2.2 SSH特点介绍 41
3.2.3 非对称加密机制 42
3.2.4 SSH安全机制 42
3.2.5 SSH基于口令的安全验证 43
3.2.6 基于密钥的安全验证 43
3.3 集群网络配置 44
3.3.1 实验环境下的集群网络配置 44
3.3.2 生产环境下的集群网络配置 44
3.4 SSH无密码验证配置 47
3.4.1 生成SSH密钥 47
3.4.2 交换SSH密钥 49
3.4.3 验证SSH无密码登录 50
3.5 本章小结 51
第二部分 大数据平台配置
第4章 Hadoop文件参数配置 55
4.1 Hadoop配置文件说明 55
4.1.1 Hadoop环境配置 55
4.1.2 Hadoop守护进程环境配置 56
4.1.3 Hadoop配置参数格式 57
4.1.4 获得Hadoop集群全部配置
信息 57
4.2 在master节点上安装Hadoop 58
4.3 配置hdfs-site.xml文件参数 58
4.4 配置core-site.xml文件参数 59
4.5 配置mapred-site.xml 60
4.6 配置yarn-site.xml 61
4.7 Hadoop其他相关配置 62
4.8 本章小结 63
第5章 Hadoop集群运行 64
5.1 Hadoop运行状态 64
5.2 配置Hadoop格式化 68
5.3 查看Java进程 69
5.4 查看HDFS的报告 70
5.5 使用浏览器查看节点状态 71
5.6 停止Hadoop 74
5.7 本章小结 74
第三部分 大数据平台组件的安装与配置
第6章 Hive组件的安装与配置 77
6.1 Hive相关知识 77
6.2 Hive组件架构 78
6.3 下载和解压安装文件 79
6.3.1 基础环境和安装准备 79
6.3.2 解压安装文件 79
6.4 设置Hive环境 80
6.4.1 卸载MariaDB数据库 80
6.4.2 安装MySQL数据库 80
6.4.3 配置Hive组件 85
6.5 初始化Hive元数据 87
6.6 启动Hive 89
6.7 本章小结 89
第7章 HBase组件的安装与配置 90
7.1 HBase相关知识 90
7.2 HBase功能应用 91
7.3 HBase组件设置 92
7.4 HBase安装与配置 94
7.5 HBase常用Shell命令 98
7.6 本章小结 101
第8章 ZooKeeper组件的安装与配置 102
8.1 ZooKeeper相关知识 102
8.1.1 ZooKeeper的重要概念 103
8.1.2 ZooKeeper的特点 104
8.2 ZooKeeper选项设置 104
8.3 ZooKeeper角色选举 105
8.4 下载和安装ZooKeeper 105
8.5 ZooKeeper的配置选项 106
8.5.1 master节点配置 106
8.5.2 slave节点配置 106
8.5.3 系统环境变量配置 106
8.6 启动ZooKeeper 107
8.7 本章小结 107
第9章 Sqoop组件的安装与配置 108
9.1 Sqoop相关知识 108
9.2 Sqoop的功能应用 109
9.2.1 Sqoop架构 109
9.2.2 Sqoop导入原理 109
9.2.3 Sqoop导出原理 110
9.3 下载和解压Sqoop 112
9.4 配置Sqoop环境 112
9.5 启动Sqoop 113
9.6 Sqoop模板命令 114
9.7 Sqoop组件应用 116
9.8 本章小结 117
第10章 Flume组件的安装与配置 118
10.1 Flume相关知识 118
10.2 Flume功能应用 119
10.2.1 Flume功能 119
10.2.2 Flume结构 119
10.3 Flume组件设置 119
10.4 下载和解压Flume 120
10.5 Flume组件部署 121
10.6 使用Flume发送和接收
信息 121
10.7 本章小结 122
第四部分 大数据平台实施
第11章 大数据平台实施方案的理解 125
11.1 系统实施方案概述 125
11.1.1 方案概述 125
11.1.2 项目实施思路 126
11.1.3 项目实施流程 126
11.2 确认客户需求 127
11.2.1 确认需求分析准备 127
11.2.2 进行确认需求调研 127
11.2.3 系统详细需求分析 129
11.3 编写大数据平台实施方案 129
11.3.1 大数据平台规划 129
11.3.2 大数据平台部署 131
11.3.3 项目实施计划 131
11.3.4 项目实施人员 132
11.4 执行实施方案过程 133
11.4.1 实施内容 133
11.4.2 实施流程 133
11.5 系统测试 133
11.6 项目验收 135
11.7 本章小结 135
第12章 客户培训方案的制定 136
12.1 培训方案概述 136
12.2 客户培训方案要点 137
12.2.1 培训目标 137
12.2.2 培训对象 138
12.2.3 培训形式 139
12.2.4 培训内容 139
12.2.5 培训计划 140
12.3 文档制作工具 140
12.3.1 制作甘特图 140
12.3.2 制作WBS图 143
12.4 大数据平台操作演示 145
12.4.1 演示内容选取 145
12.4.2 演示的步骤 146
12.4.3 演示的技巧 147
12.4.4 演示注意事项 148
12.5 本章小结 148
第五部分 大数据平台监控
第13章 大数据平台监控命令 151
13.1 大数据平台运行状态 151
13.1.1 大数据平台主机系统状态 152
13.1.2 大数据平台Hadoop状态 153
13.2 大数据平台资源状态 153
13.2.1 YARN资源状态 154
13.2.2 HDFS资源状态 154
13.2.3 HBase状态 155
13.2.4 Hive状态 155
13.3 大数据平台服务状态 156
13.3.1 ZooKeeper服务状态 156
13.3.2 Sqoop服务状态 157
13.3.3 Flume服务状态 157
13.4 通过命令监控大数据平台的
运行状态 157
13.4.1 通过命令查看大数据平台
状态 157
13.4.2 通过命令查看Hadoop
状态 165
13.5 通过命令监控大数据平台的
资源状态 166
13.5.1 通过命令查看YARN状态 166
13.5.2 通过命令查看HDFS状态 167
13.5.3 通过命令查看HBase状态 168
13.5.4 通过命令查看Hive状态 171
13.6 通过命令监控大数据平台的
服务状态 174
13.6.1 通过命令查看ZooKeeper
状态 174
13.6.2 通过命令查看Sqoop状态 178
13.6.3 通过命令查看Flume状态 180
13.7 本章小结 181
第14章 大数据平台监控界面和报表 182
14.1 大数据平台常用组件 182
14.2 通过界面监控大数据平台的
运行状态 183
14.2.1 通过界面查看大数据平台
状态 183
14.2.2 通过界面查看Hadoop
状态 183
14.3 通过界面监控大数据平台的
资源状态 185
14.3.1 通过界面监控YARN的
状态 185
14.3.2 通过界面监控HDFS状态 186
14.3.3 通过界面监控HBase的
状态 188
14.3.4 通过界面监控Hive的状态 189
14.4 本章小结 193
第15章 日志和告警信息监控 194
15.1 大数据平台日志信息 194
15.1.1 Hadoop日志简介 194
15.1.2 大数据平台主机日志信息 195
15.2 大数据平台告警信息 196
15.3 查看大数据平台日志信息 196
15.3.1 查看大数据平台主机日志 196
15.3.2 在Hadoop MapReduce Jobs
中查看日志信息 203
15.3.3 通过用户界面查看Hadoop
日志 205
15.3.4 通过命令查看Hadoop
日志 207
15.3.5 查看HBase日志 209
15.3.6 查看Hive日志 210
15.4 查看大数据平台告警信息 211
15.4.1 查看大数据平台主机告警
信息 211
15.4.2 查看Hadoop告警信息 213
15.4.3 查看HBase告警信息 215
15.4.4 查看Hive告警信息 218
15.5 本章小结 220
第六部分 大数据运维综合实战案例
第16章 大数据平台及组件的安装与
部署 223
16.1 项目背景 223
16.2 项目实施目标 223
16.3 Hadoop全分布部署 224
16.3.1 Hadoop全分布部署流程 224
16.3.2 Hadoop全分布部署要求 224
16.3.3 Hadoop部署操作步骤 225
16.3.4 Hadoop集群验证 226
16.4 Sqoop组件部署 228
16.4.1 Sqoop组件部署流程 228
16.4.2 Sqoop组件部署要求 228
16.4.3 Sqoop部署操作步骤 229
16.4.4 Sqoop数据传输验证 229
16.5 Hive组件部署 231
16.5.1 Hive组件部署流程 231
16.5.2 Hive组件部署要求 231
16.5.3 Hive部署操作步骤 232
16.5.4 Hive组件验证 232
16.6 本章小结 233
第17章 大数据平台的运行与应用 234
17.1 项目背景 234
17.2 项目实施目标 234
17.3 大数据平台业务处理流程 235
17.4 大数据平台业务处理系统
应用 236
17.4.1 生产环境数据导入大数据
平台 236
17.4.2 业务处理层数据清洗分析 237
17.4.3 运行业务处理相关清洗
任务 245
17.4.4 数据进入数据仓库 252
17.4.5 业务应用层大数据分析 254
17.4.6 数据仓库数据导出数据
访问层 255
17.4.7 数据访问层大数据可视化 257
17.5 本章小结 259
第18章 大数据运维基本问题案例集 260
18.1 大数据平台问题分析处理
流程 260
18.2 解决基础环境的基本问题
案例 261
18.2.1 权限配置问题 261
18.2.2 SELinux问题 262
18.2.3 Hadoop安全模式问题 262
18.2.4 主机名配置造成问题 263
18.3 解决组件配置的基本问题
案例 264
18.3.1 Hive组件异常问题 264
18.3.2 Sqoop组件异常问题 267
18.3.3 HBase组件异常问题 268
18.3.4 ZooKeeper组件异常问题 268
18.4 解决平台启动的基本问题
案例 269
18.4.1 HDFS服务启动问题 269
18.4.2 NameNode格式化异常
问题 270
18.4.3 DataNode进程启动问题 271
18.4.4 SecondaryNameNode启动
问题 273
18.5 解决平台运行的基本问题
案例 274
18.6 本章小结 275
附录 虚拟化软件的使用 276
A.1 虚拟机的概念、用途及常用
软件 276
A.1.1 虚拟机的概念 276
A.1.2 虚拟机的用途 278
A.1.3 常用虚拟机软件 279
A.2 H3C CAS云计算管理平台 280
A.2.1 H3C CAS云计算管理平台
简介 280
A.2.2 创建虚拟机 282
A.2.3 修改虚拟机硬件配置 284
A.2.4 基于CAS云平台使用
虚拟机 285
A.2.5 删除虚拟机 286
A.3 H3C教学与实践管理平台 287
A.3.1 H3C教学与实践管理平台
简介 287
A.3.2 预习 287
A.3.3 上课学习 289
A.3.4 巩固学习效果 292
A.3.5 完成学习 295
A.4 小结 296
展开
前 言
移动互联网、云计算、物联网等信息技术产业的发展日新月异,信息传输、存储、处理能力快速上升,每天的数据量都在以指数级递增。数据的生产模式带来了数据处理方式的革命,传统的数据采集、加工、处理方式已无法满足当下对数据时效性、海量性、精确性的需求。大数据和人工智能的广泛应用,导致数据来源广泛、数据结构多元异构、数据处理技术日益复杂,这些都给数据运维带来了挑战。数据运维不同于传统的IT运维,运维工程师不仅要掌握大数据平台维护管理的技巧,利用监控分析工具掌握大数据系统的运行状态,还要具备分析运维日志、通过运维数据挖掘客户价值的能力。
随着各行各业向数字化应用的转型,大数据运维人才不仅需求量大,而且相应的要求也高,高、中、低层次的运维人才都呈现供不应求的状况。同时,职业教育的发展对教材的内容提出了更高的要求,特别是在《国家职业教育改革实施方案》中提出要落实好立德树人的根本任务,深化专业、课程、教材改革,提升实习实训水平,努力实现职业技能和职业精神培养高度融合的要求,教材的内容既要符合教师对知识要点讲解的要求,又要能够适应学徒制、双师型等人才培养模式的要求,同时还要满足“1+X”认证的特点。在这样的背景下,特别是在国家“新基建”战略的推动下,新华三(H3C)大学结合一线专业教师,共同编撰了本系列教材。
本系列教材紧跟大数据行业的发展,根据国家对高职院校大数据技术与应用专业的教学要求,按照“以岗位能力为课程目标,以工作过程为课程模块,以实训项目为课程内容,以最新技术为课程视野,以职业能力为课程核心”的要求,对接职业资格标准,重新对课程进行分析定位,进而制定有效、合理的课程标准。通过学习本系列教材,读者可以熟悉Hadoop核心组件的功能配置及工作原理,熟悉常用系统性能诊断工具及集群监控管理工具,掌握大数据平台安装与配置及大数据平台优化策略与方法。
本系列教材均以培养大数据平台运维能力为中心,将职业认证资源课程化,构建一系列资格认证等级标准,分为初级、中级、高级3个难度级别。读者可以根据学习进度,选择对应难度级别并完成认证,实现技术技能的阶梯式成长。
教师可发电子邮件至邮箱pub.xqhz@h3c.com索取教学基本资源。
由于编者水平有限,书中疏漏和不妥之处在所难免,希望广大读者提出宝贵意见。
展开