图书简介:
第1章 绪论 1
1.1 大数据的发展 2
1.1.1 大数据的产生背景 2
1.1.2 大数据的发展历程 4
1.1.3 大数据的发展趋势 6
1.2 大数据的概念、特征及主要来源 8
1.2.1 大数据的概念 8
1.2.2 大数据的特征 9
1.2.3 大数据的主要来源 10
1.3 大数据的价值 11
1.3.1 商业价值 12
1.3.2 社会生活价值 13
1.4 大数据的分析过程 13
1.4.1 大数据采集 13
1.4.2 大数据存储 14
1.4.3 大数据分析 15
1.4.4 大数据可视化 15
习题 16
第2章 环境配置 17
2.1 Ubuntu操作系统的安装 17
2.1.1 系统安装 18
2.1.2 辅助软件的安装 29
2.2 Linux常用命令介绍 31
2.3 大数据实验平台概述 34
习题 38
第3章 大数据生态 39
3.1 认识Hadoop 40
3.1.1 HDFS 40
3.1.2 MapReduce 41
3.1.3 YARN 41
3.2 部署Hadoop 41
3.2.1 单节点伪分布模式安装 41
3.2.2 多节点分布模式安装 47
3.3 HDFS 53
3.3.1 HDFS体系结构 53
3.3.2 HDFS存储原理 55
3.3.3 HDFS实战 57
3.4 MapReduce 59
3.4.1 MapReduce逻辑结构 59
3.4.2 MapReduce实战 60
3.5 ZooKeeper 63
3.5.1 ZooKeeper集群 64
3.5.2 部署ZooKeeper 65
习题 66
第4章 大数据采集与预处理 67
4.1 数据 68
4.1.1 数据是什么 68
4.1.2 数据分类 69
4.1.3 度量和维度 70
4.2 数据采集 70
4.2.1 数据采集概述 71
4.2.2 数据采集工具 72
4.3 日志采集组件Flume 74
4.3.1 Flume结构 74
4.3.2 Flume部署 75
4.3.3 Flume实战 76
4.4 数据清洗 78
4.4.1 缺失值处理 78
4.4.2 异常值处理 79
4.4.3 数据清洗实战 79
4.5 数据变换 82
4.5.1 数据规范化 82
4.5.2 数据透视表 82
4.5.3 列联表 83
4.5.4 聚合表 83
4.5.5 特征编码 84
习题 84
实验 84
第5章 大数据存储 85
5.1 大数据存储概述 86
5.2 NoSQL数据库 86
5.2.1 NoSQL概述 86
5.2.2 BASE原则 88
5.2.3 NoSQL数据存储模式 88
5.3 列式数据库HBase 92
5.3.1 HBase系统架构 92
5.3.2 HBase数据模型 93
5.3.3 HBase应用场景 94
习题 95
第6章 内存计算引擎Spark 97
6.1 Spark 概述 98
6.1.1 Spark的起源和发展 98
6.1.2 Spark的特点和优势 99
6.1.3 Spark的应用场景和案例 100
6.2 Spark部署 101
6.2.1 Spark的安装和配置 101
6.2.2 Spark的集群部署 102
6.2.3 Spark的运行和管理 103
6.3 Spark结构 104
6.3.1 Spark的数据结构:RDD 104
6.3.2 Spark的计算模型:DAG 105
6.3.3 Spark的集群架构:主从结构 106
6.3.4 Spark的执行原理:任务分解和调度 107
6.4 Spark实战 108
6.4.1 Spark在数据处理中的应用 108
6.4.2 Spark在数据挖掘中的应用 109
6.4.3 Spark在信息系统中的应用 111
习题 112
第7章 大数据分析 113
7.1 大数据分析概述 114
7.1.1 大数据分析的概念 115
7.1.2 大数据分析的流程 116
7.1.3 数据分析师的基本技能和素养 116
7.2 业务理解 117
7.2.1 业务理解概述 117
7.2.2 数据业务化 118
7.3 数据认知分析 120
7.3.1 描述性分析 120
7.3.2 对比分析 121
7.3.3 细分分析 121
7.3.4 交叉分析 122
7.3.5 相关分析 122
7.4 分析指标设计 124
7.4.1 设计指标技巧 124
7.4.2 如何设计指标 126
7.5 数据建模 128
7.5.1 大数据建模技术 128
7.5.2 大数据分析技术 129
7.5.3 大数据模型的应用领域及大数据建模的准则 129
7.6 数据仓库Hive 131
7.6.1 Hive概述 131
7.6.2 Hive部署 137
7.6.3 Hive语法基础与数据定义、调优基础命令 141
7.6.4 Hive实战:学生考试成绩分析 153
习题 154
第8章 数据可视化 156
8.1 数据可视化概述 156
8.2 数据可视化方法 157
8.2.1 时空数据可视化 157
8.2.2 文本数据可视化 158
8.2.3 关系数据可视化 159
8.2.4 比例数据可视化 159
8.3 数据可视化工具FineBI 161
8.3.1 产品定位 161
8.3.2 与传统BI软件相比存在的优势 161
8.3.3 FineBI数据可视化的制作 162
习题 167
第9章 大数据应用 168
9.1 双11数据分析与预测 169
9.2 搜索数据分析与预测 173
第10章 大数据安全 177
10.1 大数据安全概述 178
10.2 大数据安全现状 178
10.2.1 国际发展现状 178
10.2.2 国内发展现状 179
10.3 大数据安全风险分析 179
10.3.1 生产阶段大数据安全分析 180
10.3.2 采集阶段大数据安全分析 181
10.3.3 传输阶段大数据安全分析 181
10.3.4 存储阶段大数据安全分析 182
10.3.5 分析和使用阶段大数据安全分析 182
10.3.6 销毁阶段大数据安全分析 183
10.4 大数据安全防护体系总体架构 183
10.4.1 大数据安全管理 184
10.4.2 大数据安全技术 184
10.4.3 大数据安全运营 188
习题 188
参考文献 189
展开
在互联网、物联网和智能终端等数字化浪潮的推动下,全球数据规模呈现指数级增长,人类社会已全面迈入“大数据时代”。这一变革正在重塑人们的生活方式、商业模式和社会治理体系,数据资源已成为推动经济发展、增强国家竞争力的核心战略资源。为此,世界各国都非常重视大数据技术研究和产业发展,将大数据发展上升为国家战略。随着大数据技术在各行各业的应用日益广泛,对相关人才的需求也愈发迫切。为适应新形势下高校人才培养的需求,满足社会各行业对大数据技术实践能力的要求,我们组织高校教师与企业专家共同编写了《大数据技术与应用》这本教材。本书以“理论够用、实践为重”为原则,系统介绍了大数据技术体系及其典型的应用场景,旨在为高校学生和相关从业人员提供一本理论与实践并重的实用教材。
本书作为校企合作教材,融合了高校教师的理论教学经验与企业工程师的企业实践经验,内容紧扣最新行业需求,强调对实践能力培养的支撑。全书以“理论结合实践”为主线,通过丰富的案例和实验,使读者能够系统掌握大数据处理的全流程技术栈。
全书共分10章。第1章绪论,介绍大数据的发展、大数据的概念及特征、大数据的价值、大数据的分析过程。第2章介绍大数据处理的环境配置,包括Ubuntu的安装与基础配置、Linux常用命令、大数据实验平台。第3章介绍大数据生态,包括Hadoop部署、HDFS、MapReduce、ZooKeeper。第4章介绍大数据采集与预处理,包括数据采集与预处理的相关概念和技术,以及日志采集组件Flume。第5章介绍大数据存储,包括NoSQL数据库的四种存储模式(键值数据库、列族数据库、文档数据库与图形数据库)及其典型应用、列式数据库HBase的系统架构与应用场景。第6章介绍内存计算引擎Spark,包括Spark的概念、部署、结构及实战。第7章介绍大数据分析,包括大数据分析的概念、业务理解、数据认知、分析指标设计、数据建模和数据仓库Hive。第8章介绍数据可视化,包括数据可视化概述、数据可视化方法、数据可视化工具FineBI。第9章介绍大数据应用,包括大数据在电商、搜索引擎等领域的典型应用。第10章介绍大数据安全,包括大数据安全概述、安全现状、安全风险分析及安全防护体系总体架构。
本书的出版得到了河北工程大学本科教材建设基金的资助。本书由河北工程大学管理工程与商学院信息管理系组织,联合中教奇观共同编写,张贵炜、尹慧君担任主编,杨植森、赵晓峰、高亚飞、刘双霞、李佳杰担任副主编。全书由张贵炜统稿。
本书可作为高等院校大数据管理与应用、数据科学与大数据技术、计算机科学与技术、人工智能等相关专业的教材,也可作为大数据从业者的参考用书。建议教师在教学过程中结合实验环节,通过动手实践加深学生对理论知识的理解。对于自学者,可按照章节顺序逐步学习,并利用配套资源进行练习和拓展。
为方便教师教学,本书配有课程教学大纲、教学PPT、习题解答及实验指导文档等资源,读者可扫描封底二维码,用密码免费获取。如有问题,可与编者(E-mail:zhangguiwei@hebeu.edu.cn)联系。
本书在编写过程中,合作单位中教奇观全程参与并提供了大量实践素材,对此表示衷心的感谢!在撰写过程中,笔者还参考了大量国内外现有教材和相关文献,从中汲取了丰富的知识和写作灵感,为本书的完善提供了重要帮助,在此对这些教材和文献的作者们表示诚挚的感谢!
大数据是一个新兴领域,也是一个飞速发展和快速迭代的领域,涉及多学科、多领域的知识。限于时间、精力和知识结构,书中难免存在各种缺点和错误,敬请读者批评指正。
编 者
2025年12月
展开