华信教育资源网
Python数据挖掘方法及应用——知识图谱(第2版)
丛   书   名: 数据科学与大数据技术系列
作   译   者:王术 出 版 日 期:2023-07-01
出   版   社:电子工业出版社 维   护   人:秦淑灵 
书   代   号:G0459690 I S B N:9787121459696

图书简介:

本书重点介绍Python语言在数据处理与数据挖掘方面的应用技巧,主要包括数据分析基础知识(数据收集与分析软件、数据挖掘的分析基础、简单数据的统计分析),数据分析高级方法(多元数据的综合分析、时序数据的模型分析),大数据基本处理方法(大数据分析基础应用、文献计量与科研评价、社会网络分析方法、数据分析编程平台)等内容。附录中还提供了Python数据分析相关方法和函数等,方便读者随时查看。本书内容丰富,图文并茂,可操作性强且便于查阅,主要面向数据分析的读者,能有效帮助读者提高数据处理与分析的水平,提升工作效率。书中的例子数据、习题数据及相关代码都可在作者的学习博客http://blog.leanote.com/DaPy下载使用,也可登录华信教育资源网http://www.hxedu.com.cn免费下载。
定价 55.0
您的专属联系人更多
关注 评论(1) 分享
配套资源 图书内容 样章/电子教材 图书评价
  • 配 套 资 源

    本书资源

    会员上传本书资源

  • 图 书 内 容

    内容简介

    本书重点介绍Python语言在数据处理与数据挖掘方面的应用技巧,主要包括数据分析基础知识(数据收集与分析软件、数据挖掘的分析基础、简单数据的统计分析),数据分析高级方法(多元数据的综合分析、时序数据的模型分析),大数据基本处理方法(大数据分析基础应用、文献计量与科研评价、社会网络分析方法、数据分析编程平台)等内容。附录中还提供了Python数据分析相关方法和函数等,方便读者随时查看。本书内容丰富,图文并茂,可操作性强且便于查阅,主要面向数据分析的读者,能有效帮助读者提高数据处理与分析的水平,提升工作效率。书中的例子数据、习题数据及相关代码都可在作者的学习博客http://blog.leanote.com/DaPy下载使用,也可登录华信教育资源网http://www.hxedu.com.cn免费下载。

    图书详情

    ISBN:9787121459696
    开 本:16(185*260)
    页 数:236
    字 数:499

    本书目录

    目录
    第1部分  数据挖掘基础
    第1章  Python数据挖掘基础	4
    1.1 数据挖掘软件简介	5
    1.1.1  基本数据挖掘软件	5
    1.1.2  Python语言介绍	6
    1.2 Anaconda计算包	9
    1.2.1  Anaconda的使用	9
    1.2.2  Jupyter分析平台	11
    1.2.3  Spyder编程平台	15
    1.3 Python编程基础	17
    1.3.1  Python编程入门	17
    1.3.2  Python数据类型	17
    1.3.3  Python编程运算	21
    1.4 Python程序设计	23
    1.4.1  Python数据分析包	24
    1.4.2  数值分析包numpy	26
    1.4.3  基本绘图包matplotlib	27
    数据及练习1	34
    第2章  数据挖掘的基本方法	36
    2.1 数据收集过程	37
    2.1.1  常规数据收集	37
    2.1.2  大数据的概念	42
    2.1.3  数据管理	46
    2.1.4  数据分析包pandas	48
    2.2 数据的描述分析	56
    2.2.1  基本统计量	56
    2.2.2  基于数据框的绘图	61
    2.3 数据的透视分析	65
    2.3.1  一维频数分析	65
    2.3.2  二维集聚分析	67
    2.3.3  多维透视分析	72
    数据及练习2	74
    第3章  数据挖掘的统计基础	76
    3.1 均匀分布及其应用	77
    3.1.1  均匀分布的概念	77
    3.1.2  均匀分布的应用	78
    3.2 正态分布及其应用	81
    3.2.1  正态分布简介	81
    3.2.2  基本统计推断	85
    数据及练习3	87
    第2部分  数值数据的挖掘
    第4章  线性相关与回归模型	90
    4.1 两变量相关与回归分析	91
    4.1.1  两变量线性相关分析	91
    4.1.2  两变量线性回归模型	93
    4.2 多变量相关与回归分析	95
    4.2.1  多变量线性相关分析	95
    4.2.2  多变量线性回归模型	97
    数据及练习4	107
    第5章  时间序列数据分析	110
    5.1 时间序列简介	111
    5.1.1  时间序列的概念	111
    5.1.2  时间序列的模拟	111
    5.1.3  股票数据的分析	113
    5.2 时间序列模型的构建	114
    5.2.1  ARIMA模型	114
    5.2.2  ARMA模型的构建	119
    5.2.3  ARMA模型的建立与检验	123
    5.3 时间序列模型的应用	129
    5.3.1  模型的预处理	130
    5.3.2  模型的估计与检验	131
    5.3.3  模型的预测分析	133
    数据及练习5	133
    第6章  多元数据的统计分析	135
    6.1  综合评价方法	136
    6.1.1  综合评价指标体系	136
    6.1.2  综合评价分析方法	138
    6.2 主成分分析方法	144
    6.2.1  主成分分析方法的基本思想	144
    6.2.2  主成分的基本分析	146
    6.3 聚类分析方法	151
    6.3.1  聚类分析方法的概念	151
    6.3.2  系统聚类方法	153
    数据及练习6	158
    第3部分  文本数据的挖掘
    第7章  简单文本处理方法	162
    7.1 字符串处理	163
    7.1.1  字符串的基本操作	163
    7.1.2  字符串查询与替换	164
    7.2 简单文本处理	165
    7.2.1  文本挖掘的概念	165
    7.2.2  文本数据的分词	167
    7.3 网络数据的爬虫	170
    7.3.1  网页的基础知识	170
    7.3.2  Python爬虫步骤	171
    7.3.3  爬虫方法的应用	173
    数据及练习7	180
    第8章  社会网络与知识图谱	182
    8.1 社会网络的初步印象	183
    8.1.1  社会网络分析概念	183
    8.1.2  社会网络分析包	184
    8.2 社会网络图的构建	185
    8.2.1  社会网络数据形式	185
    8.2.2  社会网络统计量	188
    8.2.3  美化社会网络图	191
    8.3 商业数据知识图谱应用	194
    8.3.1  关联规则分析概念入门	194
    8.3.2  关联规则分析基础应用	195
    8.3.3  关联规则可视化分析	197
    8.3.4  大样本关联规则实战	199
    数据及练习8	203
    第9章  文献计量与知识图谱	204
    9.1 文献计量研究的框架	205
    9.2 文献数据的收集与分析	206
    9.2.1  文献数据的获取	206
    9.2.2  文献数据的分析	209
    9.3 科研数据的管理与评价	213
    9.3.1  科研单位与项目分析	213
    9.3.2  科研期刊与作者分析	215
    9.3.3  图谱共现矩阵计算	217
    9.3.4  共现矩阵的网络图	218
    数据及练习9	221
    附录  资源共享平台与云计算平台	222
    附录A  资源共享平台	222
    A1  本书的学习网站	222
    A2  本书自定义函数	223
    附录B  云计算平台简介	225
    B1  课程学习平台	225
    B2  习题解答平台	226
    参考文献	228
    
    
    展开

    前     言

    前言
    人类从农耕时代进入工业时代用了上千年时间,从工业时代进入信息时代用了一百多年时间,而从信息时代进入数据时代仅仅用了不到10年时间。随着互联网、物联网、云计算的不断深入应用,产生了大量数据,这些大量数据的挖掘和分析应用,急需人们掌握数据的分析技术,人类正全面进入大数据分析时代。
    需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量的数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。
    “人生苦短,我要用Python”,这是网上对Python评价最多的一句话,说明Python作为一种新兴的编程语言,已深入人心。现在我国许多地区的高考都加入了Python编程的内容,一些中小学也开始开设Python编程课程。
    本书重点介绍Python语言数据处理与数据分析方面的应用技巧,内容涉及数据的整理、数据的输入/输出、探索性数据分析、基本数据分析、多元数据分析、时间序列数据分析、网络爬虫技术、社会网络分析、知识图谱和文献计量研究等数据分析方面的内容。附录中提供了Python数据分析相关方法和函数等内容,方便读者随时查看。
    本书分为三部分,第1部分讲解数据挖掘基础,包括第1章、第2章和第3章的内容,重点介绍Python数据挖掘基础、数据挖掘的基本方法和数据挖掘的统计基础;第2部分讲解数值数据的挖掘,包括第4章、第5章和第6章的内容,重点介绍线性相关与回归模型、时间序列数据分析和多元数据的统计分析;第3部分讲解文本数据的挖掘,包括第7章、第8章和第9章的内容,重点介绍简单文本处理方法、社会网络与知识图谱和文献计量与知识图谱。最后对本书所建的资源共享平台与云计算进行了介绍。
    本书内容丰富、图文并茂、可操作性强且便于查阅,主要面向基于Python数据挖掘的读者,能有效地帮助读者提高数据处理与分析的水平,提升工作效率。本书适合各个层次的数据分析用户,既可作为初学者的入门指南,又可作为中、高级用户的参考手册,同时可作为各大中专院校和培训班的数据分析教材。
    为了方便读者学习和使用Python的数据分析技术,本书具有以下四大优点。
    (1)本书使用Python科学计算发行版Anaconda,方便数据分析者使用,可从https://www. anaconda.com免费下载安装并使用。
    (2)本书公开了自编函数的源代码,使用者可以深入理解Python函数的编程技巧,用这些函数建立自己的开发包。本书还建立了学习博客(https://www.yuque.com/rstat/pydm)和学习网站(http://www.jdwbh.cn/Rstat),本书的例子数据和习题数据都可直接从华信教育资源网(http://www.hxedu.com.cn)免费下载使用。
    (3)本书采用网络化教学平台:Python的基础版缺少一个面向一般人群的菜单界面,对那些只想用其进行数据分析的使用者来说,是一个大难题。本书采用Python的Anaconda自带的分析平台Jupyter和Spyder,该平台可作为数据分析教学与科研软件使用。
    (4)本书建立了自己的云计算平台(http://www.jdwbh.cn/PyDm),可在上面直接操作本书的代码,也可获得习题解答。
    本书由王术和王斌会共同完成,王术对本书进行了统稿,王斌会对本书进行了校对。
    由于作者知识和水平有限,书中难免有疏漏和不足之处,欢迎读者批评指正!
    
    作  者      
    2023年6月于暨南园
    
    
    展开

    作者简介

    王术,暨南大学伯明翰大学联合学院助理教授。比利时列日大学(与中国农业科学院联合培养)博士。英国伦敦大学国王学院数据科学硕士,华南华南农业大学经济学学士。研究领域为农业经济、环境经济和能源经济及数据科学等交叉学科的研究。曾受国家留学基金委资助公派留学。发表SCI及中文期刊十余篇,其中第1作者SCI一区论文5篇(分别发表于本专业国际顶级期刊)。编写并出版教材3部,掌握计算机编程语言与软件开发能力,精通R语言和Python数据分析。王斌会,暨南大学管理学院教授,博士生导师。国家和省级一流课程获得者,暨南大学“十佳教学名师”。从事数学、统计学及经济管理教学和科研工作37年,发表科研论文100余篇,完成50多项国家和省部级课题,获省部级以上科技进步奖3项,获省部级以上教学成果奖2项,一流课程4门,教学项目10余项。在数据分析和统计建模领域做了大量的基础性研究与开创性工作。出版相关学术专著3部,出版相关教材10余本,开发计算机软件10余套。精通大数据分析及统计语言的编程及数据处理云计算平台的开发。详情见其网站:www.yuque.com/rstat (www.jdwbh.cn/Rstat)
  • 样 章 试 读
  • 图 书 评 价 我要评论
华信教育资源网