编辑推荐:
第1章 绪论 1
1.1 数据 1
1.1.1 数据的构成 2
1.1.2 数据的存储容量单位 4
1.2 大数据的相关概念 4
1.2.1 大数据的概念 4
1.2.2 大数据的基本特征 5
1.3 大数据的意义、价值与作用 6
1.3.1 大数据的意义 7
1.3.2 大数据的价值 8
1.3.3 大数据的作用 9
1.4 大数据时代的新变革 10
1.4.1 大数据带来的思维变革 10
1.4.2 大数据带来的社会变革 12
1.5 大数据处理的主要环节 14
1.6 大数据的安全与共享 16
1.6.1 大数据的开放与共享 16
1.6.2 大数据安全与个人隐私保护 17
1.6.3 我国大数据相关的安全政策法规 18
1.7 大数据的发展现状与发展趋势 20
1.7.1 大数据的发展现状 20
1.7.2 大数据的发展趋势 24
1.7.3 大数据时代面临的技术挑战 26
1.8 本章小结 27
1.9 习题 27
第2章 大数据相关技术 29
2.1 云计算与大数据 29
2.1.1 云计算的基本概念 29
2.1.2 云计算的基本要素与优势 31
2.1.3 云计算的体系架构 33
2.1.4 云计算的核心技术 36
2.1.5 云计算的发展现状与主流平台 38
2.1.6 云计算与大数据的关系 44
2.2 人工智能与大数据 44
2.2.1 人工智能的基本概念 45
2.2.2 人工智能的研究领域 47
2.2.3 人工智能的产业与应用 52
2.2.4 人工智能与大数据的关系 55
2.3 物联网与大数据 56
2.3.1 物联网的基本概念 57
2.3.2 物联网的核心技术 59
2.3.3 物联网的产业与应用 62
2.3.4 物联网、云计算、人工智能与大数据的关系 65
2.4 本章小结 66
2.5 习题 66
第3章 大数据采集与预处理 68
3.1 认识数据 68
3.1.1 数据的属性和类型 68
3.1.2 数据的量纲 69
3.2 大数据的来源和采集途径 70
3.2.1 大数据的来源 70
3.2.2 大数据的采集途径 70
3.3 常用的大数据采集工具 72
3.3.1 爬山虎采集器 72
3.3.2 八爪鱼采集器 74
3.3.3 基于Python的网页抓取框架Scrapy 75
3.3.4 日志采集工具Flume 76
3.3.5 分布式消息服务工具Kafka 78
3.4 数据预处理 79
3.4.1 数据清洗 79
3.4.2 数据集成 83
3.4.3 数据变换 84
3.4.4 数据归约 88
3.5 使用OpenRefine对数据进行预处理 88
3.6 本章小结 93
3.7 习题 93
第4章 大数据处理 95
4.1 大数据处理框架 95
4.1.1 主流大数据处理框架的简介 95
4.1.2 批处理框架Hadoop简介 98
4.1.3 流处理框架Storm简介 101
4.1.4 混合处理框架Spark简介 106
4.2 大数据存储与管理 108
4.2.1 经典数据存储与管理技术 108
4.2.2 分布式大数据存储与管理技术 110
4.2.3 分布式文件系统HDFS 112
4.2.4 分布式数据库系统HBase 116
4.2.5 分布式数据仓库系统Hive 118
4.3 大数据分布式计算 121
4.3.1 分布式批处理框架Hadoop 121
4.3.2 分布式流处理框架Storm 125
4.3.3 分布式混合处理框架Spark 127
4.4 本章小结 131
4.5 习题 131
第5章 大数据分析与挖掘 133
5.1 引言 133
5.2 描述性数据分析 134
5.2.1 数据的集中趋势度量 134
5.2.2 数据的离散趋势度量 135
5.2.3 数据的偏态特性度量 137
5.2.4 使用Excel对数据进行描述统计 138
5.3 回归分析 139
5.3.1 一元线性回归模型 139
5.3.2 其他类型的回归模型 142
5.4 关联分析的简介 144
5.4.1 “啤酒与尿布”的故事 144
5.4.2 常用的关联分析算法 145
5.5 分类算法的简介 148
5.5.1 近邻分类算法 149
5.5.2 决策树算法 150
5.6 聚类算法的简介 151
5.6.1 主要的聚类算法类型 152
5.6.2 k均值聚类算法 153
5.6.3 层次聚类算法 154
5.7 分布式数据挖掘算法 156
5.8 数据挖掘技术的典型应用 157
5.8.1 数据挖掘技术在生物信息学中的应用 157
5.8.2 数据挖掘技术在市场营销领域中的应用 158
5.8.3 数据挖掘技术在教育领域中的应用 159
5.8.4 数据挖掘技术在金融领域中的应用 159
5.9 本章小结 160
5.10 习题 160
第6章 大数据可视化 162
6.1 引言 162
6.1.1 什么是数据可视化 162
6.1.2 数据可视化的若干案例 163
6.1.3 数据可视化的作用 165
6.2 数据可视化的案例 165
6.2.1 数据集的简介 166
6.2.2 发展趋势图 166
6.2.3 人数分布图 167
6.3 图形元素和视觉通道 168
6.4 数据可视化的常用方法 172
6.4.1 趋势型数据可视化方法 172
6.4.2 对比型数据可视化方法 174
6.4.3 比例型数据可视化方法 176
6.4.4 分布型数据可视化方法 178
6.4.5 文本数据可视化方法 180
6.4.6 关系网络数据可视化方法 181
6.4.7 时空数据可视化方法 182
6.4.8 层次结构数据可视化方法 183
6.4.9 高维数据可视化方法 184
6.5 数据可视化的常用工具和软件的简介 185
6.5.1 FineBI数据可视化工具的简介 186
6.5.2 Tableau数据可视化工具的简介 190
6.5.3 Python的Matplotlib的简介 191
6.5.4 ECharts数据可视化编程库的简介 193
6.6 本章小结 194
6.7 习题 195
第7章 大数据安全、开放与共享 196
7.1 大数据安全与隐私保护 196
7.1.1 大数据安全与隐私保护的概念 196
7.1.2 大数据安全与隐私保护的挑战 198
7.1.3 大数据安全与隐私保护的策略 200
7.1.4 大数据信息安全技术的应用 201
7.2 大数据生命周期中的安全与隐私 204
7.2.1 大数据采集与传输中的安全与隐私 204
7.2.2 大数据存储中的安全与隐私 206
7.2.3 大数据分析与挖掘中的安全与隐私 207
7.3 大数据开放与共享 208
7.3.1 大数据开放与共享的概念 208
7.3.2 大数据开放与共享的类别关系 209
7.3.3 大数据开放与共享的挑战 212
7.3.4 数据孤岛问题 215
7.3.5 大数据开放与共享的措施 220
7.4 大数据安全的典型案例 222
7.4.1 大数据安全与隐私泄露的典型案例 222
7.4.2 大数据开放与共享的典型案例 224
7.4.3 大数据信息安全应用的典型案例 225
7.5 本章小结 227
7.6 习题 227
第8章 大数据的行业应用 229
8.1 互联网大数据的应用 229
8.1.1 互联网大数据的简介 229
8.1.2 零售业互联网大数据的应用 232
8.1.3 房地产业互联网大数据的应用 233
8.1.4 餐饮业互联网大数据的应用 234
8.2 金融大数据的应用 236
8.2.1 金融大数据的简介 236
8.2.2 银行业金融大数据的应用 239
8.2.3 证券业金融大数据的应用 241
8.2.4 保险业金融大数据的应用 242
8.3 医疗大数据的应用 244
8.3.1 医疗大数据的简介 244
8.3.2 临床大数据的应用 247
8.3.3 健康管理大数据的应用 249
8.3.4 基因检测大数据的应用 251
8.4 工业大数据的应用 252
8.4.1 工业大数据的简介 252
8.4.2 设备故障诊断与健康管理 255
8.4.3 生产质量分析 258
8.4.4 生产效率优化 259
8.5 智慧城市大数据的应用 261
8.5.1 智慧城市大数据的简介 261
8.5.2 智慧政务大数据 264
8.5.3 智慧环境大数据 265
8.5.4 智慧教育大数据 268
8.6 本章小结 268
8.7 习题 269
参考文献 271
展开
为什么写这本书
当前世界正处在向数字化全面转型的过程中,数据是数字经济时代的关键生产要素,是国家基础性战略资源,是推动经济社会高质量发展的重要引擎。随着信息技术和人类生产生活的交汇融合、互联网和物联网的快速普及,全球数据呈现爆发式增长、海量集聚的特点,对人民生活、经济发展、社会治理、国家管理都产生了重大影响。
大数据作为一种资源、技术、工具和方法,已经深刻影响了人们生活的各个方面,并对人类认知世界和与世界交流的方式提出了全新的挑战。正如维克托·迈尔·舍恩伯格在《大数据时代》一书中指出的:“大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型。”
随着大数据技术进入人类活动的各个领域,人们在利用大数据的同时也在源源不断地产生大数据,并在实践中逐渐对大数据中所蕴含的价值有了清晰的认识,迫切需要了解大数据的基本概念、基本原理和大数据在社会生活中的应用场景,提升运用大数据思维认识世界和解决问题的能力。
本书主要介绍大数据的基本特征、大数据的相关技术、大数据采集与预处理的方法、典型的大数据存储与计算平台及原理、大数据分析与挖掘技术、大数据可视化技术、大数据安全与隐私保护,以及大数据的主要应用领域和典型应用案例等新一代信息技术知识。其目的是让读者了解大数据的基本概念、理解大数据技术的基本原理、初步掌握大数据处理与分析的基本技术方法,为未来应用大数据思维和大数据分析方法解决工作中的实际问题打下良好的基础。
本书的特色
本书的主要特色是通俗易懂,由浅入深、循序渐进地介绍了大数据技术的原理和应用。本书没有枯燥地讲解原理和技术,而是灵活运用大量的实际案例,在介绍大数据基本原理和基础知识的过程中穿插大量的应用案例,便于读者将理论知识和基本原理融会贯通。
本书的编著理念体现在以下三点:一是增强知识的新鲜度,本书反映了大数据技术的发展现状与发展趋势,用知识的“新鲜度”激发读者浓厚的学习兴趣;二是增加视野的宽度,本书以更丰富的知识开阔读者的视野、启迪读者的思维;三是注重综合素质的培养,本书以新知识、新方法、典型应用场景的综合应用培养读者新的思维方式,通过理论与实际的结合,提高读者的大数据思维能力和应用能力。
本书特别注重培养读者新的思维方式。例如,第1章介绍了大数据为现代社会带来的变革,并用多个案例诠释了在大数据时代“要全体,不要抽样”“要相关,不要因果”“要效率,允许不精确”的新思维方式。本书通过对读者大数据思维方式的培养,让读者能用新的思维方式认识与分析问题,增强读者的创新意识,提高读者的创新能力。
本书的适用对象
本书的适用对象广泛,主要面向高等学校大数据相关专业的学生,同时也适用于对大数据技术感兴趣的广大读者。
本书的内容提要
全书共8章,围绕大数据的基本概念和大数据处理的主要环节展开。
第1章作为本书的绪论,主要介绍大数据的相关概念,大数据的意义、价值与作用,大数据时代的新变革,大数据处理的主要环节,大数据的安全与共享,大数据的发展现状与发展趋势等内容,让读者初步了解大数据的基本概念和处理过程。
第2章主要介绍大数据相关技术,针对大数据的支撑和应用技术,分别介绍3种重要的相关技术:云计算、人工智能和物联网,阐述了这3种新一代信息技术的基本概念、应用场景、发展现状,以及与大数据的关系等内容。
第3章主要介绍大数据采集与预处理的方法,主要包括大数据的来源和采集途径,常用的大数据采集工具,以及数据预处理的基本方法,包括数据清洗、数据集成、数据变换、数据归约等方法。
第 4 章主要介绍大数据处理平台,针对不同类型的大数据存储和计算需求,分别介绍3 种主流的大数据处理框架:批处理框架Hadoop、流处理框架Storm及混合处理框架Spark。在大数据存储与管理技术中,分别介绍分布式文件系统HDFS、分布式数据库系统HBase及分布式数据仓库系统Hive;在大数据分布式计算中,分别介绍分布式批处理框架、分布式流处理框架和分布式混合处理框架,并搭配计算流程实例。
第5章主要介绍大数据分析与挖掘的常用方法,主要包括数据的描述性分析方法、回归分析方法、数据挖掘的典型算法(关联分析算法、分类算法和聚类算法),以及数据挖掘技术的典型应用等。
第6章主要介绍大数据可视化的基础知识和案例、图形元素和视觉通道的基础知识、数据可视化的常用方法,以及数据可视化的常用工具和软件(FineBI、Matplotlib和ECharts等)。
第7章主要介绍大数据安全的相关知识,包括大数据安全与隐私保护、大数据生命周期中的安全与隐私、大数据开放与共享,并针对大数据的安全问题,从大数据安全与隐私泄露、大数据开放与共享及大数据信息安全应用3个方面给出了相应的典型案例。
第8章主要介绍大数据的行业应用案例,精选了大数据应用最为广泛的5个行业:互联网、金融、医疗、工业和智慧城市,从基本概念、不同行业大数据的特点及应用场景等方面,阐述不同行业中大数据的实际应用情况,并讲述多个应用案例。
配套资源
本书有配套视频课程“大数据导论”,读者可在“中国大学MOOC”和“智慧树”平台搜索并观看,本书还提供了课程标准、教学大纲、教学课件和习题解答,方便教师备课和授课,请有需要的教师登录华信教育资源网,注册后免费下载。
勘误和支持
由于作者的学识和经验有限,书中难免会出现不足和遗漏之处,欢迎读者指出,评论和建议请发往yan@fjnu.edu.cn。问题一经指出,我们将尽快核实改正,并对您表示感谢。
编著者
展开