华信教育资源网
数据科学概论——从概念到应用
丛   书   名: 数据科学与大数据技术系列
作   译   者:薛薇 出 版 日 期:2022-08-01
出   版   社:电子工业出版社 维   护   人:秦淑灵 
书   代   号:G0441330 I S B N:9787121441332

图书简介:

本书引导读者从数据科学基本概念出发,全面了解数据科学相关知识,掌握数据科学中数据处理的流程和方法。本书在理论上突出可读性和完整性,力求兼具一定的广度和深度;在实践上强调对常用技术工具的操作性,力求体现数据科学应用的多样性和代表性。全书共12章,可分为三大部分:第1、2章是数据科学概述部分;第3~6章是数据科学理论基础和重点工具部分;第7~12章是数据科学全流程的技术与方法部分(包括数据采集、数据存储与管理、数据可视化、数据分析、数据安全与伦理,以及数据科学的应用与案例)。登录华信教育资源网(www.hxedu.com.cn)可下载本书涉及的案例与示例的全部代码和数据集,以及各章PPT和教学大纲等资料。本书可作为高等院校数据科学相关专业的教学用书,也可作为数据科学相关研究从业人员的参考用书。
定价 79.0
您的专属联系人更多
关注 评论(0) 分享
配套资源 图书内容 样章/电子教材 图书评价
  • 配 套 资 源

    本书资源

    会员上传本书资源

  • 图 书 内 容

    内容简介

    本书引导读者从数据科学基本概念出发,全面了解数据科学相关知识,掌握数据科学中数据处理的流程和方法。本书在理论上突出可读性和完整性,力求兼具一定的广度和深度;在实践上强调对常用技术工具的操作性,力求体现数据科学应用的多样性和代表性。全书共12章,可分为三大部分:第1、2章是数据科学概述部分;第3~6章是数据科学理论基础和重点工具部分;第7~12章是数据科学全流程的技术与方法部分(包括数据采集、数据存储与管理、数据可视化、数据分析、数据安全与伦理,以及数据科学的应用与案例)。登录华信教育资源网(www.hxedu.com.cn)可下载本书涉及的案例与示例的全部代码和数据集,以及各章PPT和教学大纲等资料。本书可作为高等院校数据科学相关专业的教学用书,也可作为数据科学相关研究从业人员的参考用书。

    图书详情

    ISBN:9787121441332
    开 本:16(185*260)
    页 数:448
    字 数:705

    本书目录

    目录
      第1章  数据与信息概述	1
    1.1  数据的概念、特征和作用	1
    1.1.1  数据的概念	1
    1.1.2  数据的特征	2
    1.1.3  数据的作用	3
    1.2  数据的尺度与类型	3
    1.2.1  定性数据和定量数据	4
    1.2.2  离散数据和连续数据	5
    1.2.3  结构化数据和非结构化数据	5
    1.3  数据的表格化	8
    1.3.1  个体数据的表格化	8
    1.3.2  批量汇总数据的表格化	9
    1.3.3  统计指标	11
    1.4  数据的数字化	12
    1.4.1  二进制与数字化	12
    1.4.2  文本的数字化	13
    1.4.3  数字的数字化	15
    1.4.4  多媒体的数字化	17
    1.4.5  数字化转型与数字化经济	18
    1.5  信息与信息熵	19
    1.5.1  信息熵:不确定性的度量	19
    1.5.2  信息增益:不确定性减少的度量	20
      第2章  数据科学概述	22
    2.1  数据科学的科学观	22
    2.1.1  从科学高度看数据科学	22
    2.1.2  通过案例初识数据科学	23
    2.2  数据科学概念	25
    2.2.1  数据科学产生的重大技术背景	25
    2.2.2  数据科学产生的典型应用背景	25
    2.2.3  数据科学的定义	27
    2.3  历史观察:探讨数据科学的发展历程	27
    2.3.1  古代:从结绳记事到阿拉伯数字	27
    2.3.2  古典:政治算术和国势学	29
    2.3.3  近代:随机现象、概率论与数理统计	29
    2.3.4  现代:抽样与推断统计	31
    2.3.5  计算机时代:技术革命带来的繁荣	32
    2.3.6  大数据时代:奠定数据科学基础	33
    2.4  数据世界:探讨数据科学的对象	37
    2.4.1  数据世界和数据科学	37
    2.4.2  数据世界和数字孪生	38
    2.5  DIKW模型:探讨数据科学中的若干基本概念	39
    2.5.1  DIKW模型	39
    2.5.2  从DIKW模型看数据科学	41
    2.6  维恩图:探讨数据科学的学科交叉性	42
    2.6.1  文献中的数据科学维恩图	42
    2.6.2  数据科学学科交叉性的总结	43
    2.7  从数据到模型:探讨数据科学的一般方法	45
    2.7.1  反问题的方法	45
    2.7.2  数据驱动的方法	46
    2.7.3  模型化的方法	47
    2.8  数据处理流程:探讨数据科学方法论	53
    2.8.1  传统理念下的数据处理方法论	53
    2.8.2  计算机时代的数据处理方法论	54
    2.8.3  大数据时代的数据处理方法论	56
    2.9  三维视角:总览数据科学	58
    2.9.1  从三维视角看数据科学	58
    2.9.2  理论方法维度	58
    2.9.3  处理流程维度	60
    2.9.4  应用领域维度	60
      第3章  数据科学中的计算机基础	61
    3.1  计算机系统概述	61
    3.1.1  计算机的发展	62
    3.1.2  计算机的种类	62
    3.2  计算机硬件	63
    3.2.1  计算机硬件的组成	63
    3.2.2  计算机硬件的工作原理	64
    3.3  计算机软件	65
    3.3.1  操作系统	65
    3.3.2  计算机语言	66
    3.3.3  应用软件	68
    3.4  计算机网络	68
    3.4.1  局域网、广域网和因特网	69
    3.4.2  计算机网络的通信协议	71
    3.5  计算机应用的技术模式	72
    3.5.1  主机/终端模式	72
    3.5.2  客户机/服务器模式	73
    3.5.3  浏览器/服务器模式	74
    3.5.4  云计算模式	75
    3.5.5  对等模式	78
    3.6  计算机应用	79
    3.6.1  科学计算	79
    3.6.2  数据处理与大数据	80
    3.6.3  人工智能	81
    3.6.4  过程控制	85
      第4章  数据科学中的数学与统计学基础	86
    4.1  微积分与数据科学应用	87
    4.1.1  微积分的产生背景	87
    4.1.2  微积分的基本思想方法	88
    4.1.3  梯度下降法及数据科学应用示例	90
    4.2  线性代数与数据科学应用	93
    4.2.1  向量与向量空间及应用示例	93
    4.2.2  矩阵与线性变换及应用示例	95
    4.2.3  特征值与奇异值及数据科学应用示例	99
    4.3  统计学与数据科学应用	103
    4.3.1  描述统计要点	104
    4.3.2  概率与概率分布要点	107
    4.3.3  推断统计和多元统计分析要点	108
    4.3.4  贝叶斯思维在数据科学中的应用	109
    4.4  集合论与数据科学的应用	113
    4.4.1  集合论与罗素悖论	113
    4.4.2  粗糙集与数据科学应用示例	115
    4.5  图论与数据科学的应用	120
    4.5.1  欧拉和哥尼斯堡七桥问题	120
    4.5.2  图论的发展沿革	121
    4.5.3  图论与数据科学应用示例	122
      第5章  数据科学中的SQL基础	125
    5.1  SQL概述	125
    5.1.1  SQL的优点	125
    5.1.2  MySQL和SQL入门	127
    5.2  SQL的数据定义和应用	130
    5.2.1  SQL数据定义语句	131
    5.2.2  SQL数据定义应用	133
    5.3  SQL的数据操纵和应用	137
    5.3.1  SQL数据操纵语句	137
    5.3.2  SQL数据操纵应用	137
    5.4  SQL的数据查询	139
    5.4.1  SELECT语句的简单应用	139
    5.4.2  SELECT语句的进阶应用	145
    5.4.3  SELECT语句的其他应用	150
    5.5  MySQL的系统管理	151
    5.5.1  MySQL的用户管理	151
    5.5.2  MySQL的权限管理	152
    5.5.3  MySQL的事务管理	153
    5.5.4  MySQL的文件存储和日志管理	155
    5.5.5  MySQL的客户端数据库管理工具Navicat	158
      第6章  数据科学中的Python基础	160
    6.1  Python概述	160
    6.1.1  Python的特点	160
    6.1.2  Python的安装和启动	161
    6.1.3  第一个Python程序与帮助	162
    6.2  Python基础	164
    6.2.1  Python的基本数据类型和组织	164
    6.2.2  Python的程序结构和流程控制	169
    6.2.3  异常处理结构	173
    6.3  Python语言进阶	176
    6.3.1  面向对象程序设计	176
    6.3.2  模块与包	177
    6.3.3  Python综合:chaos混沌态	178
    6.4  NumPy入门	181
    6.4.1  NumPy数组的创建	182
    6.4.2  NumPy数组的访问	185
    6.4.3  NumPy数组的计算	186
    6.5  Pandas入门	190
    6.5.1  Pandas的数据组织	191
    6.5.2  Pandas的数据加工处理	194
    6.6  Matplotlib入门	196
    6.6.1  Matplotlib的基本绘图	196
    6.6.2  Matplotlib的参数配置	198
    6.6.3  Matplotlib的子图设置	200
    6.6.4  Matplotlib的常见统计图	201
    6.7  Python综合应用示例:对空气质量监测数据的分析	206
    6.7.1  空气质量数据的预处理	207
    6.7.2  空气质量数据的基本分析	209
    6.7.3  空气质量数据的可视化	212
      第7章  数据采集	217
    7.1  传统数据采集方式和技术	218
    7.1.1  普查和统计报表制度	218
    7.1.2  抽样调查和问卷调查	220
    7.1.3  观察法和实验法	221
    7.1.4  传统数据采集技术	224
    7.2  互联网数据采集	226
    7.2.1  互联网数据采集概述	227
    7.2.2  网站运营数据库和数据分析及采集	227
    7.2.3  网页埋点和数据采集	229
    7.2.4  开放数据库和数据采集	231
    7.2.5  搜索引擎和数据采集	233
    7.2.6  网页爬虫和数据采集	236
    7.3  物联网数据采集	240
    7.3.1  物联网数据采集概述	240
    7.3.2  传感器和数据采集	241
    7.3.3  卫星通信和数据采集	242
    7.3.4  射频识别技术、条形码和数据采集	244
    7.4  数据采集与人工智能	245
    7.4.1  数据标注与数据采集	246
    7.4.2  文本数据采集和挖掘	248
    7.4.3  图像数据采集和识别	249
      第8章  数据存储与管理	251
    8.1  数据文件和数据库系统	251
    8.1.1  数据文件	251
    8.1.2  数据库系统的概念	254
    8.1.3  关系型数据库系统和联机事务处理	255
    8.1.4  数据库索引技术	257
    8.2  数据仓库系统	260
    8.2.1  数据仓库的概念	260
    8.2.2  数据仓库系统的基本结构	261
    8.2.3  联机分析处理	264
    8.2.4  知识发现与商业智能	266
    8.3  数据库系统的技术发展	268
    8.3.1  并行数据库技术	269
    8.3.2  分布式数据库技术	271
    8.3.3  NoSQL数据库系统和NewSQL数据库系统	272
    8.4  Hadoop大数据系统	275
    8.4.1  什么是Hadoop	275
    8.4.2  HDFS	276
    8.4.3  MapReduce计算框架	279
    8.4.4  Hadoop大数据生态系统	280
    8.5  Spark大数据系统	286
    8.5.1  什么是Spark	287
    8.5.2  Spark大数据生态系统	288
    8.5.3  Spark大数据平台databricks应用	290
    8.6  Flink大数据系统	294
    8.6.1  流数据	294
    8.6.2  Flink大数据生态系统	297
    8.7  数据湖系统	300
    8.7.1  什么是数据湖系统	300
    8.7.2  数据湖系统的基本功能	301
    8.7.3  典型的数据湖系统	302
      第9章  数据可视化	305
    9.1  数据可视化概述	305
    9.1.1  数据可视化起源和发展	305
    9.1.2  数据可视化元素	307
    9.1.3  数据可视化步骤和原则	308
    9.2  数据可视化一般方法	309
    9.2.1  电子地图及地图图表	309
    9.2.2  高维数据的可视化展现	312
    9.3  数据可视化实现和Tableau应用	315
    9.3.1  数据可视化实现方式	316
    9.3.2  Tableau及其应用	317
    9.4  数据可视化的新发展	325
    9.4.1  计算机图形学	326
    9.4.2  虚拟现实及相关技术	327
    9.4.3  增强现实技术	329
      第10章  数据分析	332
    10.1  数据分析方法、目标及软件工具	332
    10.1.1  数据分析方法	332
    10.1.2  数据分析目标	337
    10.1.3  数据分析软件工具:sklearn简介	338
    10.2  数据预处理	340
    10.2.1  数据标准化处理	340
    10.2.2  缺失值处理	342
    10.2.3  特征选择与特征提取	344
    10.3  经典聚类算法	347
    10.3.1  聚类分析概述	347
    10.3.2  层次聚类	349
    10.3.3  K-均值聚类	351
    10.3.4  DBSCAN聚类	353
    10.3.5  聚类分析应用实例	355
    10.4  数据预测:经典统计方法	360
    10.4.1  数据预测中的一般问题	360
    10.4.2  一般线性回归分析	362
    10.4.3  二项逻辑回归分析	365
    10.4.4  数据预测应用实例	367
    10.5  数据预测:经典机器学习方法	370
    10.5.1  K-近邻分析	370
    10.5.2  决策树算法	373
    10.5.3  支持向量机	377
    10.5.4  分类算法的对比	379
      第11章  数据安全与伦理	384
    11.1  数据安全概述	384
    11.1.1  什么是数据安全	384
    11.1.2  数据安全的分类	385
    11.2  数据安全体系	388
    11.2.1  数据安全管理系统	388
    11.2.2  数据安全法律法规系统	389
    11.2.3  数据安全技术系统	391
    11.3  传统数据安全技术	393
    11.3.1  数据加密	393
    11.3.2  数据脱敏	394
    11.4  大数据时代的数据安全技术	396
    11.4.1  区块链	396
    11.4.2  联邦学习	398
    11.5  数据伦理和算法伦理	402
    11.5.1  数据伦理与案例	403
    11.5.2  算法伦理与案例	405
      第12章  数据科学的应用与案例	408
    12.1  数据科学的商业应用:RFM分析与客户终身价值	408
    12.1.1  客户购买行为的RFM分析	408
    12.1.2  客户终身价值	409
    12.1.3  客户终身价值的计算和应用案例	411
    12.1.4  应用启示:理解业务才能做好分析	415
    12.2  数据科学的海关应用:抽样方案升级	416
    12.2.1  海关稽查案例	417
    12.2.2  海关稽查抽样的数据模拟	418
    12.2.3  应用启示:数据治理体系	424
    12.3  数据科学的企业应用:数字化转型	426
    12.3.1  数字化转型概述	426
    12.3.2  数字化转型案例	427
    12.3.3  应用启示:数字化转型的评估模型	430
      附录A  MySQL函数列表	432
    
    
    展开

    前     言

    前言
    
    我们已经进入一个蓬勃发展的数字化时代,面临着一个瞬息万变的数字化世界。越来越多的青年学子进入数据科学、大数据技术和人工智能等专业;越来越多的有志之士进入数据处理、数据分析和数据运营等岗位。因此,系统地学习和掌握一些与数据科学相关的知识非常重要,这是一把开启通往未来之门的钥匙。由于数据科学理论体系丰富、技术工具纷杂、应用领域众多,因此提供一本数据科学基础教材和通识读物是非常有必要的。
    
    以大数据和人工智能为代表的一系列新技术与新应用彻底改变了数据处理方式,并使得数据处理具有普遍性、通用性、创新性、价值性。数据科学被从诸多纵向领域中抽象出来,成为一种横向层面的具有一定指导意义的知识体系。本书以数据及其相关概念为出发点,力求从科学的高度,结合数据科学的有关理论基础(数学与统计学、计算机科学及应用领域知识)和重点技术工具(Python、SQL及实用软件),围绕数据处理全流程(采集、存储与管理、可视化、分析、安全与伦理及应用),进行详略得当且深入浅出的讲解,以使读者可以循序渐进地掌握有关数据科学的理论方法和技术工具,从而能够从整体层面感知数据科学的广度,体验数据科学的深度,感受数据科学的高度;同时在实践层面可以边学边做,为后续专业学习和职业发展打开知识视野并奠定一定实操基础。
    
    作者以多年机器学习、数据挖掘、统计学、计算机语言、数据库系统和统计应用软件等课程的教学经验,以及项目开发与科研实践经验为基础编写了本书,希望能为数据科学的教师和学生,以及从事数据科学相关工作的人员提供一本更加实用的优质教材和通识读物。
    
    1.本书特点
    (1)对知识进行清晰讲解。
    数据科学知识体系宏大、内容繁多,具有很强的多学科交叉特征,因此作为入门教材及读物,本书在保证体系架构相对完整的前提下,力求对相关知识内容进行合理的取舍,并根据知识脉络进行编排。对于涉及的知识点,本书力争在讲明基本概念与基本原理的同时指出来龙去脉,说明对数据科学的作用,以及在数据应用中的使用方法,等等,且配以充实的案例和示例,避免罗列空洞的概念和堆砌枯燥的理论。同时对于文字论述,本书力求准确严谨、通俗自然。
    (2)对操作进行有效实现。
    数据科学是一门实操性很强的科学,不能只重视数据科学的思想性和理论性,忽视数据科学的方法性和实践性。学习者只有边学边做才能对知识点有更加深刻的认知,并在课后练习和工作实践中举一反三,不断提高。作者根据市场调研和教学反馈等信息,将Python计算机语言、SQL数据查询语言和Tableau可视化工具作为目前数据科学常用的基本软件,并将网络爬虫、数据管理Navicat和大数据平台databricks等作为典型工具,本书用专门章节对其进行介绍,可使学习者快速把握这些技术工具的全貌与精髓,从而尽可能地将数据科学的理论方法应用到实践中。登录华信教育资源网(www.hxedu.com.cn)可下载本书涉及的案例与示例的全部代码和数据集,以及各章PPT和教学大纲等资料。
    2.本书适用对象
    本书可作为高校数据科学或数据应用相关专业的入门教材,以每周2~3课时、总计约17周设计教学进程。全书共12章,可分为三大部分;1、2章是数据科学概述部分,是必须讲解的基础内容;3~6章是数据科学理论基础和重点工具部分,可根据先修课情况(如高等数学、线性代数、统计学、计算机基础、计算机语言或数据库系统概论等)选讲或将某些章节作为课后自学与练习;7~12章是数据科学全流程的技术与方法部分,可根据专业需求有所侧重地进行讲解。这种相对灵活的课程安排不仅与大部分数据科学与大数据技术专业课程设置相吻合,还可以满足主流计算机应用、人工智能、统计学及涉及数据应用等相关专业的课程要求。
    本书也可作为数据科学与数据应用从业人员的通识读物。在内容设计上,本书尽量避免使用公式定理进行晦涩的论证说明,尽量使用一些经典生动的案例进行直观地分析阐述,旨在使读者能够知其然并知其所以然,使读者在领会有关理论方法的基本原理的同时,能够开拓数据应用领域的视野,提高数据科学的整体认知,发现职业生涯发展方向,并将一些方法付诸实践。
    陈欢歌老师参加了本书部分章节的编写和一些文献资料与数据的整理工作,电子工业出版社秦淑灵老师及一些学者同事对本书提出了宝贵建议,在此一并表示感谢。
    面对数据科学的宏大体系与深刻内涵,以及迅猛发展并快速迭代变化的技术趋势,作者在搜集资料、设计构思和行文撰写过程中,常感自身知识积累不足,学科视野有限,因此书中难免存在疏漏之处。在此恳请各位同人和广大读者不吝赐教并批评指正。真诚希望与大家携手共同努力,为数据科学的美好未来尽一份微薄之力。
    
    
    作  者            
    中国人民大学应用统计科学研究中心
    中国人民大学统计学院  
    
    展开

    作者简介

    薛薇,工学硕士,经济学博士,中国人民大学应用统计学科研究中心研究员,中国人民大学统计学院副教授。主要研究领域:机器学习和文本挖掘、复杂网络建模等。关注统计和数据挖掘算法及软件应用。涉足企业客户终身价值测算,基于文本挖掘的热点事件主题提取和分类,金融、贸易等复杂网络动态建模等方面。主要代表性教材:《SPSS统计分析方法及应用》《R语言数据挖掘方法及应用》《R语言:大数据分析中的统计方法及应用》《SPSS Modeler数据挖掘方法及应用》《数据科学概论——从概念到应用》等。
  • 样 章 试 读
  • 图 书 评 价 我要评论
华信教育资源网