图书简介:
目录
第1部分 数据挖掘基础
第1章 Python数据挖掘基础 4
1.1 数据挖掘软件简介 5
1.1.1 基本数据挖掘软件 5
1.1.2 Python语言介绍 6
1.2 Anaconda计算包 9
1.2.1 Anaconda的使用 9
1.2.2 Jupyter分析平台 11
1.2.3 Spyder编程平台 15
1.3 Python编程基础 17
1.3.1 Python编程入门 17
1.3.2 Python数据类型 17
1.3.3 Python编程运算 21
1.4 Python程序设计 23
1.4.1 Python数据分析包 24
1.4.2 数值分析包numpy 26
1.4.3 基本绘图包matplotlib 27
数据及练习1 34
第2章 数据挖掘的基本方法 36
2.1 数据收集过程 37
2.1.1 常规数据收集 37
2.1.2 大数据的概念 42
2.1.3 数据管理 46
2.1.4 数据分析包pandas 48
2.2 数据的描述分析 56
2.2.1 基本统计量 56
2.2.2 基于数据框的绘图 61
2.3 数据的透视分析 65
2.3.1 一维频数分析 65
2.3.2 二维集聚分析 67
2.3.3 多维透视分析 72
数据及练习2 74
第3章 数据挖掘的统计基础 76
3.1 均匀分布及其应用 77
3.1.1 均匀分布的概念 77
3.1.2 均匀分布的应用 78
3.2 正态分布及其应用 81
3.2.1 正态分布简介 81
3.2.2 基本统计推断 85
数据及练习3 87
第2部分 数值数据的挖掘
第4章 线性相关与回归模型 90
4.1 两变量相关与回归分析 91
4.1.1 两变量线性相关分析 91
4.1.2 两变量线性回归模型 93
4.2 多变量相关与回归分析 95
4.2.1 多变量线性相关分析 95
4.2.2 多变量线性回归模型 97
数据及练习4 107
第5章 时间序列数据分析 110
5.1 时间序列简介 111
5.1.1 时间序列的概念 111
5.1.2 时间序列的模拟 111
5.1.3 股票数据的分析 113
5.2 时间序列模型的构建 114
5.2.1 ARIMA模型 114
5.2.2 ARMA模型的构建 119
5.2.3 ARMA模型的建立与检验 123
5.3 时间序列模型的应用 129
5.3.1 模型的预处理 130
5.3.2 模型的估计与检验 131
5.3.3 模型的预测分析 133
数据及练习5 133
第6章 多元数据的统计分析 135
6.1 综合评价方法 136
6.1.1 综合评价指标体系 136
6.1.2 综合评价分析方法 138
6.2 主成分分析方法 144
6.2.1 主成分分析方法的基本思想 144
6.2.2 主成分的基本分析 146
6.3 聚类分析方法 151
6.3.1 聚类分析方法的概念 151
6.3.2 系统聚类方法 153
数据及练习6 158
第3部分 文本数据的挖掘
第7章 简单文本处理方法 162
7.1 字符串处理 163
7.1.1 字符串的基本操作 163
7.1.2 字符串查询与替换 164
7.2 简单文本处理 165
7.2.1 文本挖掘的概念 165
7.2.2 文本数据的分词 167
7.3 网络数据的爬虫 170
7.3.1 网页的基础知识 170
7.3.2 Python爬虫步骤 171
7.3.3 爬虫方法的应用 173
数据及练习7 180
第8章 社会网络与知识图谱 182
8.1 社会网络的初步印象 183
8.1.1 社会网络分析概念 183
8.1.2 社会网络分析包 184
8.2 社会网络图的构建 185
8.2.1 社会网络数据形式 185
8.2.2 社会网络统计量 188
8.2.3 美化社会网络图 191
8.3 商业数据知识图谱应用 194
8.3.1 关联规则分析概念入门 194
8.3.2 关联规则分析基础应用 195
8.3.3 关联规则可视化分析 197
8.3.4 大样本关联规则实战 199
数据及练习8 203
第9章 文献计量与知识图谱 204
9.1 文献计量研究的框架 205
9.2 文献数据的收集与分析 206
9.2.1 文献数据的获取 206
9.2.2 文献数据的分析 209
9.3 科研数据的管理与评价 213
9.3.1 科研单位与项目分析 213
9.3.2 科研期刊与作者分析 215
9.3.3 图谱共现矩阵计算 217
9.3.4 共现矩阵的网络图 218
数据及练习9 221
附录 资源共享平台与云计算平台 222
附录A 资源共享平台 222
A1 本书的学习网站 222
A2 本书自定义函数 223
附录B 云计算平台简介 225
B1 课程学习平台 225
B2 习题解答平台 226
参考文献 228
展开
前言
人类从农耕时代进入工业时代用了上千年时间,从工业时代进入信息时代用了一百多年时间,而从信息时代进入数据时代仅仅用了不到10年时间。随着互联网、物联网、云计算的不断深入应用,产生了大量数据,这些大量数据的挖掘和分析应用,急需人们掌握数据的分析技术,人类正全面进入大数据分析时代。
需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量的数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。
“人生苦短,我要用Python”,这是网上对Python评价最多的一句话,说明Python作为一种新兴的编程语言,已深入人心。现在我国许多地区的高考都加入了Python编程的内容,一些中小学也开始开设Python编程课程。
本书重点介绍Python语言数据处理与数据分析方面的应用技巧,内容涉及数据的整理、数据的输入/输出、探索性数据分析、基本数据分析、多元数据分析、时间序列数据分析、网络爬虫技术、社会网络分析、知识图谱和文献计量研究等数据分析方面的内容。附录中提供了Python数据分析相关方法和函数等内容,方便读者随时查看。
本书分为三部分,第1部分讲解数据挖掘基础,包括第1章、第2章和第3章的内容,重点介绍Python数据挖掘基础、数据挖掘的基本方法和数据挖掘的统计基础;第2部分讲解数值数据的挖掘,包括第4章、第5章和第6章的内容,重点介绍线性相关与回归模型、时间序列数据分析和多元数据的统计分析;第3部分讲解文本数据的挖掘,包括第7章、第8章和第9章的内容,重点介绍简单文本处理方法、社会网络与知识图谱和文献计量与知识图谱。最后对本书所建的资源共享平台与云计算进行了介绍。
本书内容丰富、图文并茂、可操作性强且便于查阅,主要面向基于Python数据挖掘的读者,能有效地帮助读者提高数据处理与分析的水平,提升工作效率。本书适合各个层次的数据分析用户,既可作为初学者的入门指南,又可作为中、高级用户的参考手册,同时可作为各大中专院校和培训班的数据分析教材。
为了方便读者学习和使用Python的数据分析技术,本书具有以下四大优点。
(1)本书使用Python科学计算发行版Anaconda,方便数据分析者使用,可从https://www. anaconda.com免费下载安装并使用。
(2)本书公开了自编函数的源代码,使用者可以深入理解Python函数的编程技巧,用这些函数建立自己的开发包。本书还建立了学习博客(https://www.yuque.com/rstat/pydm)和学习网站(http://www.jdwbh.cn/Rstat),本书的例子数据和习题数据都可直接从华信教育资源网(http://www.hxedu.com.cn)免费下载使用。
(3)本书采用网络化教学平台:Python的基础版缺少一个面向一般人群的菜单界面,对那些只想用其进行数据分析的使用者来说,是一个大难题。本书采用Python的Anaconda自带的分析平台Jupyter和Spyder,该平台可作为数据分析教学与科研软件使用。
(4)本书建立了自己的云计算平台(http://www.jdwbh.cn/PyDm),可在上面直接操作本书的代码,也可获得习题解答。
本书由王术和王斌会共同完成,王术对本书进行了统稿,王斌会对本书进行了校对。
由于作者知识和水平有限,书中难免有疏漏和不足之处,欢迎读者批评指正!
作 者
2023年6月于暨南园
展开