华信教育资源网
数据分析与数据挖掘
丛   书   名: 数据科学与大数据技术系列
作   译   者:姜维 出 版 日 期:2023-02-01
出   版   社:电子工业出版社 维   护   人:石会敏 
书   代   号:G0447430 I S B N:9787121447433

编辑推荐:

您的专属联系人更多
关注 评论(4) 分享
配套资源 图书内容 样章/电子教材 图书评价
  • 配 套 资 源
    图书特别说明:有需要样书的老师,可以直接联系本书编辑石老师,电话010-88254537,微信15801037673.

    本书资源

    会员上传本书资源

  • 图 书 内 容

    内容简介

    本书重点讲述统计数据分析方法和数据挖掘技术,在大数据时代和人工智能时代,数据驱动的知识抽取技术成为一项重要学习和研究内容。本书采用理论和举例相结合的方式进行数据分析和数据挖掘知识讲解,并配套《数据分析与数据挖掘建模工具》一书,便于理论和实践相结合。书中内容包括统计检验、方差分析、回归分析、关联分析、分类模型、聚类模型、离群点分析等典型的数据分析和数据挖掘方法。

    图书详情

    ISBN:9787121447433
    开 本:16(185*260)
    页 数:435
    字 数:763

    本书目录

    目    录
     
    第1章  数据分析与数据挖掘基础	1
    1.1  数据分析与数据挖掘需求	1
    1.1.1  数据分析与数据挖掘	1
    1.1.2  大数据处理需求	2
    1.1.3  数据分析误区与隐私问题	3
    1.2  数据分析与数据挖掘的工作过程	3
    1.2.1  数据分析的主要工作过程	3
    1.2.2  数据收集	5
    1.2.3  数据展示	6
    1.3  数据的组织和数据的类型	7
    1.3.1  数据的一般组织形式	7
    1.3.2  数据类型	8
    1.3.3  分类数据的编码	9
    1.4  数据的常用描述性统计量	11
    1.4.1  数据的中心趋势	11
    1.4.2  数据的离散程度	12
    1.4.3  数据的形态统计量	15
    1.5  数据的基本描述性统计分析	18
    1.5.1  数据的描述性统计	18
    1.5.2  五数概括与盒图	19
    1.5.3  数据的描述性统计图	20
    1.6  本章小结	22
    本章概念与关键词	22
    练习与思考	23
    第2章  数据抽样与推断检验	24
    2.1  随机变量概率分布	24
    2.1.1  概率分布	24
    2.1.2  正态分布	26
    2.1.3  二项分布与泊松分布	28
    2.1.4  几何分布与超几何分布	29
    2.2  抽样统计分析	31
    2.2.1  抽样的相关概念	31
    2.2.2  概率抽样的典型方法	33
    2.2.3  非随机抽样的典型方法	34
    2.3  基本抽样分布	34
    2.3.1  经验分布、理论分布与抽样分布	34
    2.3.2  三大抽样分布	36
    2.3.3  小概率事件	38
    2.4  常用的抽样分布与区间估计	40
    2.4.1  常用的统计量抽样分布	40
    2.4.2  置信区间与区间估计	42
    2.5  常用的参数检验	45
    2.5.1  假设检验一般过程	45
    2.5.2  常用的参数检验统计量	47
    2.6  常用的单样本非参数检验	48
    2.6.1  卡方检验	48
    2.6.2  二项分布检验	49
    2.6.3  固定参数的超几何分布检验	49
    2.6.4  游程检验	50
    2.6.5  单样本K-S检验	54
    2.7  本章小结	56
    本章概念与关键词	57
    练习与思考	57
    第3章  可视化图与分组检验	59
    3.1  数据的常用可视化图分析	59
    3.1.1  数据的常用可视化图	59
    3.1.2  基于图的可视化观测一般过程	62
    3.2  均值比较和t检验	62
    3.2.1  分组统计	62
    3.2.2  数据标准化与Z-Score	63
    3.2.3  单样本t检验	64
    3.2.4  两独立样本t检验	65
    3.2.5  两配对样本t检验	67
    3.3  方差齐性检验	68
    3.3.1  Levene方差齐性检验	68
    3.3.2  基于F检验的方差齐性检验	69
    3.3.3  Brown-Forsythe方差齐性检验	70
    3.3.4  Bartlett’s方差齐性检验	70
    3.4  两独立样本的非参数检验	71
    3.4.1  Mann-Whitney U检验	71
    3.4.2  两独立样本K-S检验	74
    3.4.3  两独立样本游程检验	76
    3.4.4  两独立样本Moses极端反应检验	77
    3.4.5  两独立样本Brown-Mood中位数
          检验	78
    3.5  两配对样本的非参数检验	81
    3.5.1  两配对样本符号检验	81
    3.5.2  中位数、分位数及比例的符号
          检验	82
    3.5.3  两配对样本Wilcoxon符号秩
          检验	83
    3.5.4  Wilcoxon符号秩单样本检验	85
    3.5.5  两配对样本McNemar检验	86
    3.5.6  边缘齐性检验	88
    3.6  多样本的非参数检验	88
    3.6.1  多独立样本中位数检验	88
    3.6.2  多独立样本Kruskal-Wallis检验	90
    3.6.3  多独立样本Jonckheere-Terpstra
          检验	91
    3.6.4  多配对样本Friedman检验	94
    3.6.5  多配对样本Kendall协同系数
          检验	96
    3.6.6  多配对样本Cochran’s Q检验	97
    3.7  本章小结	98
    本章概念与关键词	99
    练习与思考	99
    第4章  方差分析与相关性分析	102
    4.1  方差分析	102
    4.1.1  方差分析中的变量	102
    4.1.2  单因素方差分析	103
    4.1.3  单因素方差Brown-Forsythe
          检验	105
    4.1.4  单因素方差Welch’s t检验	106
    4.1.5  无交互作用的双因素方差分析	107
    4.1.6  有交互作用的双因素方差分析	109
    4.2  Post Hoc检验	111
    4.2.1  LSD检验	111
    4.2.2  Studentized极差分布	112
    4.2.3  Tukey’s Range检验	113
    4.2.4  Tukey-Kramer检验	115
    4.2.5  SNK检验	117
    4.2.6  其他几种常用检验方法	118
    4.3  连续属性数据的相关性分析	119
    4.3.1  协方差的线性相关性度量	119
    4.3.2  相关系数的线性相关性度量	122
    4.3.3  Spearman秩相关系数	124
    4.4  离散属性相关性分析	126
    4.4.1  交叉列联表分析	126
    4.4.2  用卡方检验进行离散相关性分析	127
    4.4.3  列联表上常用的指标	128
    4.4.4  Fisher’s exact检验	129
    4.5  本章小结	131
    本章概念与关键词	132
    练习与思考	132
    第5章  数据的预处理与距离分析	134
    5.1  数据的预处理	134
    5.1.1  数据清理	134
    5.1.2  数据集成	136
    5.1.3  数据变换	137
    5.1.4  数据归约	137
    5.2  数据的常用组织方式	138
    5.2.1  数据的常用逻辑组织	138
    5.2.2  数据的常用物理组织	139
    5.2.3  高精度计算与矩阵计算	139
    5.2.4  编程语言、软件工具	140
    5.3  相似度计算与距离分析	140
    5.3.1  相似度与距离的转换	140
    5.3.2  闵可夫斯基距离	143
    5.3.3  马氏距离	145
    5.3.4  混合属性的相似度与距离	147
    5.4  kNN分类模型	148
    5.4.1  kNN分类模型概述	148
    5.4.2  距离加权kNN分类模型	150
    5.5  参数的点估计	151
    5.5.1  原点矩与中心矩	151
    5.5.2  矩估计法	152
    5.5.3  极大似然估计法	153
    5.6  本章小结	156
    本章概念与关键词	156
    练习与思考	156
    第6章  回归分析	158
    6.1  一元线性回归	158
    6.1.1  一元线性回归问题描述	158
    6.1.2  一元线性回归模型与求解	159
    6.1.3  确认回归方程的精度	161
    6.1.4  总体回归的方差分析	162
    6.1.5  残差分析	164
    6.1.6  回归方程参数检验	167
    6.1.7  回归方程预测与控制	168
    6.2  多元线性回归	170
    6.2.1  多元线性回归问题描述	170
    6.2.2  多元线性回归模型与求解	172
    6.2.3  确认回归方程的精度	173
    6.2.4  残差分析	174
    6.2.5  回归方程参数检验	175
    6.2.6  回归方程预测	176
    6.3  常用的曲线回归	177
    6.3.1  曲线回归问题	177
    6.3.2  多项式回归	177
    6.3.3  指数回归与对数回归	179
    6.3.4  其他常见曲线回归	179
    6.4  最小二乘法及其应用	179
    6.4.1  最小二乘法线性拟合	179
    6.4.2  伪逆矩阵求解	180
    6.4.3  Moore-Pseudo逆矩阵	181
    6.4.4  最小均方误差算法	182
    6.4.5  非线性回归	183
    6.4.6  智能优化求解技术	183
    6.5  Logistic回归	184
    6.5.1  Logistic回归分类与基本函数	184
    6.5.2  Logistic回归系数计算	185
    6.6  本章小结	186
    本章概念与关键词	187
    练习与思考	187
    第7章  空间降维技术	189
    7.1  主成分分析	189
    7.1.1  主成分分析描述	189
    7.1.2  基于协方差矩阵的主成分分析	190
    7.1.3  基于相关系数矩阵的主成分
          分析	192
    7.1.4  主成分分析与因子分析的联系	193
    7.1.5  主成分分析的作用	194
    7.2  因子分析案例研究	196
    7.2.1  研究的目的与内容	196
    7.2.2  变量选取与数据来源	196
    7.2.3  因子分析过程	197
    7.2.4  因子回归分析	198
    7.2.5  案例研究结论	199
    7.3  奇异值分解	200
    7.3.1  SVD的协同过滤推荐	200
    7.3.2  SVD在协同过滤中的应用	203
    7.3.3  SVD增量式协同过滤方法	204
    7.4  主成分回归与逐步回归	205
    7.4.1  多重共线性	205
    7.4.2  主成分回归	207
    7.4.3  逐步回归	207
    7.5  本章小结	208
    本章概念与关键词	208
    练习与思考	209
    第8章  关联规则与点对相关性	210
    8.1  频繁模式与关联规则的基本
         概念	210
    8.1.1  频繁模式的基本概念	210
    8.1.2  关联规则的基本概念	211
    8.1.3  极大频繁模式与闭频繁模式	212
    8.2  频繁模式挖掘	213
    8.2.1  Apriori算法	213
    8.2.2  垂直数据格式	214
    8.2.3  基于频繁模式计算关联规则	215
    8.3  频繁模式树	216
    8.3.1  频繁模式树的构建	216
    8.3.2  频繁模式树的递归过程	219
    8.4  点对相似度的典型度量	220
    8.4.1  点对关系常见度量	220
    8.4.2  点对相关性度量的几种特性	222
    8.5  信息熵及其应用与点对相关性
         度量	224
    8.5.1  信息熵	224
    8.5.2  联合熵与互信息	226
    8.5.3  信息增益、相对熵和交叉熵	228
    8.5.4  互信息、交叉熵用于相关性	229
    8.6  本章小结	230
    本章概念与关键词	230
    练习与思考	231
    第9章  决策树	232
    9.1  分类问题与模型训练	232
    9.1.1  分类问题描述	232
    9.1.2  分类问题举例与泛化问题	233
    9.1.3  分类模型的常见评价指标	235
    9.2  决策树及ID3算法	236
    9.2.1  决策树概述	236
    9.2.2  ID3算法	238
    9.3  C4.5算法与连续属性特征分
         类树	241
    9.3.1  C4.5算法	241
    9.3.2  连续属性的决策树构建	241
    9.4  CART决策树	243
    9.4.1  CART分类树	243
    9.4.2  CART回归树	244
    9.5  决策树剪枝	250
    9.5.1  剪枝问题的提出与先剪枝技术	250
    9.5.2  错误率降低剪枝法	251
    9.5.3  悲观剪枝法	251
    9.5.4  代价复杂度剪枝法	254
    9.6  ROC曲线与AUC指标	255
    9.6.1  ROC曲线描述与绘制	255
    9.6.2  ROC曲线绘制与作用	257
    9.6.3  AUC指标与应用	258
    9.7  本章小结	259
    本章概念与关键词	259
    练习与思考	260
    第10章  贝叶斯分类	261
    10.1  连续属性贝叶斯分类器	261
    10.1.1  单个连续属性贝叶斯分类	261
    10.1.2  多个连续属性的最小总风险
           决策	262
    10.1.3  多个连续属性的最小平均误差率
           决策	263
    10.2  正态概率分布下的贝叶斯分
          类器	264
    10.2.1  分类器的判别函数表示形式	264
    10.2.2  正态分布下的贝叶斯判别函数	264
    10.2.3  正态分布下的贝叶斯判别举例	265
    10.3  离散属性贝叶斯分类器	267
    10.3.1  离散属性贝叶斯模型	267
    10.3.2  朴素贝叶斯分类器	267
    10.4  朴素贝叶斯文本分类和TAN贝叶斯
          模型	270
    10.4.1  朴素贝叶斯文本分类器	270
    10.4.2  TAN贝叶斯分类模型	272
    10.5  贝叶斯分类器中的参数估计与非参数
          估计	276
    10.5.1  贝叶斯分类器中的参数估计	276
    10.5.2  非参数估计	277
    10.6  本章小结	278
    本章概念与关键词	279
    练习与思考	279
    第11章  特征空间与判别分析	280
    11.1  特征空间	280
    11.1.1  特征空间构造	280
    11.1.2  特征空间评价	282
    11.1.3  特征空间变换	284
    11.1.4  证据空间	285
    11.2  特征提取与特征选择	285
    11.2.1  特征提取	285
    11.2.2  特征选择	285
    11.2.3  jiang相关系数	286
    11.2.4  过滤式特征选择	288
    11.2.5  封装式特征选择	288
    11.2.6  嵌入式特征选择	289
    11.3  极大似然判别分析	289
    11.3.1  极大似然判别分析的工作过程	289
    11.3.2  极大似然判别分析的应用举例	290
    11.4  距离判别分析	290
    11.4.1  距离与相似度的常用度量	290
    11.4.2  距离判别分析的工作原理	291
    11.4.3  距离判别法的检验与多总体距离
           判别	293
    11.4.4  两总体方差是否有相同的检验	294
    11.4.5  加权的距离或相似度应用于距离判别
           分析与kNN分类模型	296
    11.5  Fisher判别分析	296
    11.5.1  两类别的线性判别中的最佳投影
           方向	296
    11.5.2  两类别的线性判别过程	298
    11.5.3  多重线性判别分析	299
    11.5.4  Fisher判别分析应用举例	301
    11.6  本章小结	303
    本章概念与关键词	303
    练习与思考	303
    第12章  感知机与支持向量机	305
    12.1  线性判别函数	305
    12.1.1  线性判别函数表示	305
    12.1.2  多重线性判别函数	306
    12.1.3  广义线性判别函数	306
    12.2  感知机分类器	307
    12.2.1  M-P模型	307
    12.2.2  感知机结构	308
    12.2.3  感知机训练算法	309
    12.2.4  感知机应用举例	312
    12.3  感知机训练算法扩展	313
    12.3.1  感知机的典型训练算法	313
    12.3.2  感知机松弛算法	314
    12.3.3  最小均方误差求解算法	314
    12.3.4  Ho-kashyap求解算法	316
    12.3.5  多分类扩展伪逆求解	317
    12.3.6  感知机的对偶形式	318
    12.4  最大间隔超平面与结构风险	319
    12.4.1  最大间隔超平面	319
    12.4.2  经验风险最小化与结构风险
            最小化	320
    12.5  支持向量机	323
    12.5.1  线性可分时的支持向量机	323
    12.5.2  数据不可分时的线性SVM	327
    12.5.3  非线性支持向量机	332
    12.5.4  支持向量机中的其他问题	336
    12.6  本章小结	338
    本章概念与关键词	339
    练习与思考	339
    第13章  人工神经网络	341
    13.1  激活函数与多层感知机	341
    13.1.1  常见激活函数	341
    13.1.2  多层感知机结构	344
    13.1.3  多层感知机设计	345
    13.2  BP神经网络	347
    13.2.1  BP神经网络及BP算法	347
    13.2.2  BP算法训练中的注意事项	351
    13.3  BP神经网络应用	355
    13.3.1  二分类问题应用	355
    13.3.2  多分类问题与拟合问题	359
    13.4  深度学习	361
    13.4.1  深度学习技术环境	361
    13.4.2  卷积神经网络	363
    13.4.3  卷积神经网络训练与应用
            举例	368
    13.4.4  循环神经网络	373
    13.4.5  其他深度学习技术	376
    13.5  本章小结	378
    本章概念与关键词	379
    练习与思考	379
    第14章  集成学习	381
    14.1  机器学习中的若干问题	381
    14.1.1  机器学习的主要任务类型	381
    14.1.2  机器学习的泛化问题	382
    14.1.3  维数灾难问题	384
    14.1.4  机器学习模型的优越性问题	385
    14.2  统计量重抽样技术	386
    14.2.1  偏差与方差	386
    14.2.2  刀切法统计量估计	387
    14.2.3  自助法统计量估计	388
    14.3  分类器重抽样技术与组合
          分类器	389
    14.3.1  Bagging法	389
    14.3.2  Boosting法	389
    14.3.3  Bagging法与Boosting法的主要
            特点	390
    14.3.4  组合分类器	390
    14.4  随机森林与Adaboost算法	393
    14.4.1  随机森林	393
    14.4.2  Adaboost算法	396
    14.5  分类模型中的若干问题	397
    14.5.1  用二分类器处理多分类问题	397
    14.5.2  多标签分类方法	399
    14.5.3  类别数据不平衡问题	400
    14.5.4  单纯提高精确率与单纯提高
            召回率的方法	401
    14.6  本章小结	402
    本章概念与关键词	403
    练习与思考	403
    第15章  聚类分析与离群点分析	404
    15.1  聚类问题与聚类类型	404
    15.1.1  聚类问题	404
    15.1.2  聚类类型	405
    15.2  基于划分的聚类	406
    15.2.1  k-means聚类	406
    15.2.2  k-medoids聚类	408
    15.3  层次聚类	410
    15.3.1  簇间距离的计算	410
    15.3.2  层次聚类方法	410
    15.4  基于密度的聚类	412
    15.4.1  DBSCAN聚类	412
    15.4.2  OPTICS聚类	415
    15.5  基于网格的聚类与基于模型的
          聚类	417
    15.5.1  CLIQUE聚类	417
    15.5.2  自组织神经网络聚类原理	418
    15.6  离群点分析	420
    15.6.1  离群点分析	420
    
    15.6.2  离群点检测	420
    15.7  本章小结	421
    本章概念与关键词	422
    练习与思考	422
    附录A  Mann-Whitney U检验的
             临界表	424
    附录B  Wilcoxon signed-rank检验按符号秩
            和的临界表	424
    附录C  Wilcoxon signed-rank检验按min 
             (正号秩,负号秩)的临界表	425
    附录D  q分布(Studentized range distribution)
             的临界表	426
    附录E  Dunnett双尾检验的临界表	428
    附录F  相关系数R和判定系数R2的
            临界表	430
    附录G  鸢尾花数据集	431
    参考文献	433
     
    
    
    
    展开

    前     言

    言
    随着大数据分析、人工智能、互联网等的快速发展,数据分析与数据挖掘理论方法的研究与应用已成为当前的热点,在多个领域已经取得有价值的研究成果。
    受国家自然科学基金(No.71671052,No.71271066,No.70801022)的支持,我基于多年在数据分析和数据挖掘方面的成果积累,结合多年为本科生和研究生讲授数据分析、数据挖掘、文本分析与文本挖掘、专家系统、人工智能方法等课程的经验,撰写了本书。
    本书的定位和特点如下:
    (1)可作为大学高年级本科生和研究生的教材。兼顾知识深度、系统性和学习者的知识掌握规律,循序渐进地展开知识讲述,专注科学技术,引导创新。
    (2)知识体系结构清晰。注重知识的内在逻辑性,系统阐述统计分析、机器学习等理论方法及其在数据分析和数据挖掘中的应用。
    (3)理论与实践相结合。注重理论方法的工作原理、工作过程,借助流程、公式、算法、程序,清晰地给出应用的具体细节。阐述典型应用并举例。书中讲解的方法可借助相关软件工具或编程语言直接使用。
    (4)配以计算举例、应用举例、图表等,既严谨又通俗易懂。书中的大多数内容已经在课堂中讲授,撰写本书的目标是“在科学的框架下将知识讲述清楚”。
    (5)多方位配套相关书籍。《数据分析与数据挖掘建模及工具》侧重案例和工具,《文本分析与文本挖掘》是数据分析与数据挖掘的理论方法在文本领域的应用,《数据分析与数据挖掘C++建模工具》讲述本书配套软件建模,《高级数据分析与数据挖掘》面向研究生和科研工作者阐述前沿深层知识。
    (6)配套软件工具。目前有多种软件工具和编程语言可供数据分析和数据挖掘使用。本书的配套资源有C++软件研发包,全面支持本书内容,同时也支持《文本分析与文本挖掘》等相关书籍中的理论方法。该软件研发包还提供了向量、矩阵、分布式编程库,可直接编程使用,也支持理论方法的教学、科研和应用。特别说明,考虑目前很多软件工具都是英文版的,故书中有些图表保留了英文,从而与软件更加紧密地结合。
    (7)可分块学习。第1、2、3、4、5、6、7、11章可作为数据分析的学习内容;第1、5、7、8、9、10、11、12、13、14、15章可作为数据挖掘的学习内容。各章之间有内在的逻辑性,可酌情选择;还可参考相关图书《数据分析与数据挖掘建模及工具》中的案例。
    感谢课题组成员的支持,感谢姜绍航对本书出版的支持。撰写本书时参考了国内外同行的研究成果,特别是一些基础理论方法,在此表示感谢。数据分析与数据挖掘的需求在不断变化,前沿问题、新的理论方法、新技术也层出不穷,书中难免存在错误和不足之处,敬请各位专家与学者批评指正,以进一步完善。
    本书在配套网站(网址:http://www.jiangw.cn和http://www.orsci.com)上提供共享技术资料、在线研讨群、书籍勘误表、最新研究文档、常见问题、联系方式等,读者可根据需要下载使用。
    
    姜  维    
    哈尔滨工业大学 
    jiangw@hit.edu.cn 
    2022年10月20日
     
    
    展开

    作者简介

    姜维,男,副教授,1978年出生,汉族,博士,博士后、哈尔滨工业大学管理科学与工程系,硕士生导师。2007年哈尔滨工业大学计算机学院博士毕业,2010年哈尔滨工业大学管理科学与工程博士后。作为第1编著者出版著作5部。作为第一、第二作者发表论文50余篇。在计算机学报、自动化学报、电子学报、高技术通讯、计算机集成制造、系统工程理论与实践、系统工程与电子技术、国防科技大学学报、控制与决策等都有文章发表。发表3篇SCI国际期刊文章,20余篇EI期刊文章。目前作为负责人共完成或承担国家自然科学基金3项,已完成某军口预研基金项目,教育部博士点基金、中国博士后科学基金、中央高校基本科研专项项目,哈尔滨工业大学青年教改项目。作为第2负责人完成多项军口项目:总装备部军口重点预研项目,某预研基金项目,某军口重大专项项目,载人航天工程某项目。
  • 样 章 试 读
  • 图 书 评 价 我要评论
华信教育资源网