编辑推荐:
大数据理论模块
第1章 大数据理论 2
1.1 大数据的概念 2
1.1.1 大数据的定义 2
1.1.2 大数据的本质 2
1.1.3 大数据的分类 3
1.1.4 大数据的特征 5
1.1.5 大数据的功能 6
1.1.6 大数据处理的基本流程 6
1.2 大数据的发展 7
1.2.1 大数据的发展现状 7
1.2.2 大数据的发展趋势 7
1.3 大数据的应用 8
1.3.1 企业内部大数据 8
1.3.2 在线社交网络大数据 8
1.3.3 健康医疗大数据 9
1.3.4 金融大数据 9
1.4 常用的数据挖掘工具 10
1.4.1 Tableau 10
1.4.2 Excel 10
1.4.3 SPSS Modeler 11
数据分析与挖掘模块
第2章 SPSS Modeler软件 14
2.1 SPSS Modeler 软件概述 14
2.1.1 SPSS Modeler界面 14
2.1.2 数据流的基本管理和执行 16
2.1.3 数据流的其他管理 18
2.1.4 SPSS Modeler应用案例 20
2.2 SPSS Modeler数据的读入 25
2.2.1 变量的类型 25
2.2.2 读数据 26
2.2.3 生成实验方案数据 32
2.2.4 数据合并 34
2.3 SPSS Modeler数据的基本分析 38
2.3.1 数据质量 38
2.3.2 基本描述分析 44
2.3.3 变量分布探索 47
2.3.4 二分类型变量相关性研究 49
2.3.5 两总体的平均值比较 56
2.3.6 变量的重要性分析 62
第3章 数据清洗 67
3.1 数据清洗概述 67
3.1.1 数据清洗的概念 67
3.1.2 数据清洗的对象 67
3.1.3 数据清洗的一般步骤 68
3.1.4 数据清洗的常用方式 69
3.1.5 数据清洗的基本方法 69
3.2 Excel数据清洗的基本操作 70
3.2.1 重复值的处理 70
3.2.2 缺失值及异常值的处理 74
3.3 Excel数据加工的基本操作 78
3.3.1 字段分列 78
3.3.2 字段合并 79
3.3.3 字段匹配 80
3.3.4 数据分组 81
3.4 Excel数据透视表 81
3.4.1 数据透视表应用 81
3.4.2 数据透视表的实用技巧 85
第4章 时间序列分析 89
4.1 时间序列 89
4.1.1 时间序列概述 89
4.1.2 时间序列的预测步骤 90
4.2 移动平均法 90
4.2.1 一次移动平均法 91
4.2.2 二次移动平均法 94
4.3 指数平滑法 96
4.3.1 一次指数平滑法 97
4.3.2 二次指数平滑法 98
4.3.3 三次指数平滑法 104
第5章 分类预测:决策树 110
5.1 决策树概述 110
5.1.1 什么是决策树 110
5.1.2 决策树的几何理解 111
5.1.3 决策树的核心问题 111
5.2 SPSS Modeler中的C5.0算法及应用 113
5.2.1 C5.0决策树的分割点 113
5.2.2 C5.0决策树的剪枝过程 114
5.2.3 C5.0决策树的推理规则集 115
5.2.4 C5.0决策树的应用 116
5.3 SPSS Modeler中的C&RT算法及应用 123
5.3.1 C&RT的生长过程 124
5.3.2 C&RT的剪枝过程 125
5.3.3 C&RT的应用 127
5.4 SPSS Modeler中的CHAID算法及应用 129
5.4.1 CHAID算法的最佳分组变量 130
5.4.2 CHAID算法的剪枝过程 130
5.4.3 Exhaustive CHAID算法 131
5.4.4 CHAID算法的应用 131
5.5 SPSS Modeler中的QUEST算法及应用 132
5.5.1 QUEST算法的最佳分割点 132
5.5.2 QUEST算法的应用 133
5.6 决策树算法的评估和注意事项 134
第6章 分类预测:人工神经网络 143
6.1 人工神经网络概述 143
6.1.1 人工神经网络的概念和种类 143
6.1.2 人工神经网络中的节点 145
6.1.3 建立人工神经网络的一般步骤 147
6.2 SPSS Modeler中的B-P反向传播网络 149
6.2.1 感知器模型 149
6.2.2 B-P反向传播网络 152
6.2.3 B-P反向传播算法 154
6.2.4 B-P反向传播网络的建立 156
6.3 SPSS Modeler中的径向基函数网络 159
6.3.1 径向基函数网络 159
6.3.2 径向基函数网络中的隐藏层节点和输出节点 160
6.3.3 径向基函数网络的学习过程 161
6.4 人工神经网络的应用 162
第7章 分类预测:Logistic回归分析 176
7.1 二项Logistic回归方程 176
7.1.1 二项Logistic回归方程概述 176
7.1.2 二项Logistic回归方程中系数的含义 178
7.2 二项Logistic回归分析的应用 180
7.3 多项Logistic回归分析的应用 184
第8章 关联分析 185
8.1 简单关联规则分析 185
8.1.1 简单关联规则的基本概念 186
8.1.2 简单关联规则的有效性和实用性 187
8.2 Apriori算法 190
8.2.1 寻找频繁项集 190
8.2.2 依据频繁项集产生简单关联规则 192
8.3 Apriori算法的应用 193
8.4 序列关联规则分析 200
8.4.1 序列关联规则的基本概念 200
8.4.2 序列关联规则的时间约束 201
8.5 Sequence算法 202
8.5.1 产生频繁序列集 202
8.5.2 依据频繁序列集生成序列关联规则 203
8.6 Sequence算法的应用 204
第9章 聚类分析 208
9.1 聚类分析概述 208
9.2 K-Means聚类算法及应用 209
9.2.1 K-Means聚类算法对“亲疏程度”的衡量 209
9.2.2 K-Means聚类过程 209
9.2.3 K-Means聚类算法的应用 211
9.3 两步聚类算法及应用 219
9.3.1 两步聚类算法对“亲疏程度”的衡量 219
9.3.2 两步聚类过程 220
9.3.3 两步聚类算法的应用 222
9.4 Kohonen网络聚类算法及应用 224
9.4.1 Kohonen网络聚类算法的原理 224
9.4.2 Kohonen网络聚类过程 225
9.4.3 Kohonen网络聚类算法的应用 227
9.5 基于聚类分析的离群值探索及应用 230
9.5.1 多维空间基于聚类的诊断方法 230
9.5.2 多维空间基于聚类的诊断方法的应用 232
数据可视化模块
第10章 数据可视化 238
10.1 数据可视化入门 238
10.1.1 i2 Analyst’s Notebook 8软件 238
10.1.2 基本概念 239
10.1.3 数据接口 243
10.2 基本功能 243
10.2.1 基本操作 243
10.2.2 搜索查找 245
10.3 功能演练 248
10.3.1 话单关系分析 248
10.3.2 人员物品动态关系 255
10.3.3 银行账户交易分析 259
10.3.4 话单ABC分析 266
10.3.5 盗窃案旅业分析 272
10.3.6 人员活动轨迹 275
展开
大数据备受各界重视,成为就业前景广阔的领域,大数据人才的短缺将严重制约大数据行业的发展。与此同时,保障社会稳定的相关政府部门,对大数据人才的需求也非常旺盛。在公安领域,相关技术紧跟社会发展的步伐不断更新迭代,因此,在大数据时代的公安工作中,不可避免地会使用大数据技术进行侦查和分析。编写本教材的目的是培养能在互联网侦查、公安情报、公安大数据等业务中从事大数据处理、分析、预测和运维工作的复合型、应用型、技术型人才。
本书为国家级一流本科专业(网络安全与执法)建设成果,编者常年从事公安情报、公安大数据建模的教学与科研工作。我们知道,掌握基础计算机知识,但不太了解数据挖掘的原理和方法,渴望通过数据挖掘技术解决公安工作中的问题的读者有很多。所以,本书在编写时着重考虑以下3个要点:
(1)以公安实战案例为线索,介绍数据清洗、数据挖掘、数据可视化的方法和流程;
(2)避免罗列较多的数学公式,侧重介绍数据挖掘的核心思想和基本原理;
(3)语言通俗易懂,操作过程翔实,图文并茂。
本书的特点是内容模块化、教学目标实用化、教学案例标准化、教学流程图表化,着重体现了以“应用型”为目标的教学特点,集设计性、通俗性、实战性于一体,重点在于提高读者的公安大数据应用能力,使读者轻松掌握所学的知识,达到事半功倍的效果。本书配有PPT、源代码、全部案例文件,读者可登录华信教育资源网(www.hxedu.com.cn)免费下载。
本书适合作为公安类本科院校和高职高专院校大数据相关课程的教材及参考书,也可供相关技术人员参考。
本书由邱明月、王新猛任主编,由陈俊雹、张玲玲、李婵婵任副主编,由赵明生任主审。本书共10章,其中,邱明月编写了第2~9章,设计了本书案例、组织架构,并进行全书统稿;王新猛编写了第1章;陈俊雹、张玲玲和李婵婵编写了第10章,并负责书中模型的测试。
由于编者水平有限,错误之处在所难免,恳请广大读者和专家批评指正。
编 者
展开