图书简介:
第1章 引言 1
1.1 大数据的发展历程 1
1.2 大数据的概念和定义 3
1.2.1 大量(Volume) 4
1.2.2 多样(Variety) 5
1.2.3 价值密度低(Value) 5
1.2.4 高速(Velocity) 5
1.2.5 真实性(Veracity) 6
1.3 大数据对社会的影响 6
1.3.1 大数据促进经济发展 6
1.3.2 大数据提升社会保障 7
1.3.3 数据治国 8
1.4 大数据的分析方法 9
1.4.1 统计 9
1.4.2 数据挖掘 10
1.4.3 人工智能 11
1.5 数据可视化技术 11
1.5.1 可视化历史 11
1.5.2 可视化概述 12
1.5.3 可视化应用 15
第2章 数据预处理 17
2.1 什么是网络爬虫 17
2.2 网络爬虫的实现 18
2.2.1 Python编程语言 18
2.2.2 正则表达式 19
2.2.3 超文本标记语言 21
2.2.4 超文本传输协议 23
2.3 数据清洗 24
2.3.1 处理缺失值 24
2.3.2 处理异常值 25
2.3.3 处理噪声 26
第3章 基础统计分析 29
3.1 统计学的基本概念 29
3.2 连续变量的统计描述 30
3.2.1 频数 30
3.2.2 集中趋势描述指标 32
3.2.3 离散趋势描述指标 33
3.3 分类变量的统计描述 33
3.4 常用统计图 34
3.4.1 饼图 35
3.4.2 柱状图 36
3.4.3 散点图 38
3.4.4 折线图 39
3.5 统计分析应用示例 41
3.5.1 人口变化总趋势 41
3.5.2 人口结构变化 42
3.5.3 二胎与生育率 43
第4章 多维数据分析 45
4.1 多维数据概述 45
4.2 多维数据过滤分析 46
4.3 相关性分析 50
4.3.1 一般性相关性分析 50
4.3.2 多维数据可视化相关性分析 51
4.4 聚类分析 52
4.5 降维分析 54
4.5.1 主成分分析 54
4.5.2 多维尺度变换 56
4.5.3 T分布随机邻域嵌入 57
4.6 多维特征提取 58
4.6.1 雷达图 59
4.6.2 用户画像 59
4.6.3 Radviz特征提取 60
4.7 多维数据分析应用示例 61
4.7.1 郡县特征的关联度 61
4.7.2 多维度分析得票率的关键因素 63
第5章 时序数据分析 65
5.1 时序数据概述 65
5.2 多维时序数据呈现——折线 67
5.3 多维时序数据呈现——柱状 69
5.4 预测分析 72
5.4.1 移动平均 72
5.4.2 指数平滑 73
5.4.3 三次指数平滑 74
5.5 周期性检测 75
5.6 时序分析应用示例 77
5.6.1 美国各州新冠病毒肺炎确诊病例数的动态变化 77
5.6.2 美国纽约州、加州疫情发展变化 79
5.6.3 美国疫情总体态势 80
5.6.4 美国疫情预测 81
第6章 地理数据分析 83
6.1 地理热度分析 83
6.2 地理空间分析 86
6.3 连接地图 87
6.4 地理分析应用示例 88
6.4.1 美国疫情确诊情况 88
6.4.2 美国疫情死亡情况 90
6.4.3 美国疫情传播分析 91
6.4.4 宅在家里还是出门旅行 93
第7章 图数据分析 95
7.1 图数据概述 95
7.2 树图 96
7.3 图数据的量化可视化分析 98
7.3.1 矩形树图 98
7.3.2 旭日图 98
7.4 图数据嵌套关系分析 99
7.4.1 矩形堆积图 99
7.4.2 圆堆积图 100
7.5 图数据中的关联数据 101
7.5.1 弧线图 101
7.5.2 极坐标弧线图 101
7.5.3 弦图 102
7.5.4 冲积图 103
7.6 力导向布局分析 104
7.6.1 力导向设计思路 104
7.6.2 力导向布局优点 104
7.6.3 力导向布局缺点 105
7.7 搜索算法 105
7.7.1 广度优先搜索算法 106
7.7.2 深度优先搜索算法 108
7.8 最短路径算法 109
7.9 图分析应用示例 109
7.9.1 美国人口普查分区 110
7.9.2 美国新冠病毒肺炎确诊病例按人口普查分区分布 110
第8章 文本数据分析 115
8.1 文本数据概述 115
8.2 文本向量化 116
8.2.1 词袋模型 116
8.2.2 Word2Vec模型 116
8.3 分词 118
8.4 关键词提取 120
8.5 知识图谱 121
8.6 其他文本处理技术简介 122
8.7 文本分析应用示例 124
8.7.1 特朗普和拜登社交媒体回复——舆情分析 124
8.7.2 特朗普和拜登在社交媒体上的宣传策略 125
8.7.3 小结 127
第9章 多媒体数据分析 129
9.1 数字图像处理 129
9.1.1 亮度调整 130
9.1.2 直方图均衡化 132
9.1.3 高斯平滑 133
9.1.4 边缘检测 135
9.2 数字音频处理 135
9.3 数字视频处理 137
9.4 多媒体分析应用示例 137
第10章 综合应用示例:中国社会发展调研 139
10.1 经济总体指标分析 139
10.2 城镇化发展分析 142
10.3 国际影响力分析 145
10.4 科技发展分析 147
10.5 教育发展分析 149
10.6 文化发展分析 151
10.7 医疗卫生发展分析 153
10.8 环境治理状况分析 154
10.9 居民收入变化分析 156
参考资料
展开
推荐序
由于监测技术、通信网络与存储设备的快速发展,多种多样的信息集合成的数据,正以前所未有的速度出现在人们的生活中,大数据时代已到来。它的到来,从多方面深刻影响着这个世界;它的开启,也带来了无限的商机和巨大的挑战。
图片、声音、文字及背后用户对这些资源的使用习惯和轨迹构成了互联网上的数据资源,用户的消费偏好、兴趣爱好、关系网络及整个互联网的趋势、潮流都将成为互联网从业者关注的热点,而这一切的获取和分析都离不开大数据。一方面,在社会化媒体基础上的大数据挖掘和分析将会衍生很多应用;另一方面,基于数据分析的营销咨询服务也正在兴起。数据背后隐藏着巨大的商业机会。
把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新,是社会发展的要求和必然结果。大数据技术所涉及的应用领域包括医疗健康、城市建设、金融产业、网络通信等社会各个层面,因此已被认为是具有国家战略意义的产业,正受到政府、研究机构与民间企业的高度关注。对于大数据的处理和分析能力,正在慢慢地演变成一个国家的核心竞争力。
2015年8月,国务院发布的《促进大数据发展行动纲要》指出:“全面推进我国大数据发展和应用,加快建设数据强国。”2016年3月发布的《中华人民共和国国民经济和社会发展第十三个五年规划纲要》指出:“实施国家大数据战略。2020年,国家提出“新基建”,其重点在于建设大数据中心。2020年4月,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》对外公布,明确将大数据作为一种新型生产要素写入文件中,与土地、劳动力、资本、技术等传统要素并列为要素之一。这些国家发展战略和规划都足以体现国家层面对大数据的关注和支持,也说明了大数据正成为国家竞争力新内涵的核心体现。
站在大数据时代蓬勃发展的风口,人们非常需要一本书来全面详细地阐述大数据,从而走进大数据的世界。市面上,大数据分析类的教材层出不穷,很多却晦涩难懂。本书阐述的内容深入浅出,既适合初学者,又适合实践者。本书采用通俗易懂的方法来阐述算法,并附上相匹配的应用案例。针对算法的复杂难懂,本书用看得懂的语言来描述这些算法。具体而言,本书引入了“可视化”的概念,用图形化的表示方法和可视化的描述,把复杂方法简单化,这是本书的特色之一。并且,本书侧重于方法与应用,提供了丰富的案例。全面的数据、对相关理论和背景知识的涵盖及图文并茂的讲述形式使得本书阅读体验较好。
不懂数据,很容易被这个时代淘汰。在数据变得越来越重要的今天,希望本书可以传播得更广,让更多的数据爱好者受益。
前言
众所周知,大数据是当今的一个风口。然而,在这风口浪尖上,很多人却望而却步,不接近大数据,并且去真正了解、体验它的强大与魅力,这是因为大数据的门槛高,大数据分析复杂,需要很多的专业知识和理论水平,包括计算机编程、数学理论、统计理论等方面。
降低大数据分析的门槛,使更多人融入大数据的世界,是本书的初衷。为了应对复杂的数学模型和算法,我们引入了“可视化”的概念,即通过简单的图形表达,来生动形象地描述大数据分析,深入浅出地阐述大数据分析的奥秘。通过本书,我们想让更多的人喜欢并加入大数据分析的队伍,同时寻找更多志同道合的朋友。
本书第1章从大数据的发展历程出发,逐步引出大数据的概念,并讨论了大数据对社会一些代表性行业的深刻影响。第2章着重介绍网络爬虫,并且介绍了对原始数据进行数据清洗的相关知识。第3章简要讲解统计学的基本概念和分析方法。第4章介绍多维数据分析集,讲解多维数据分析的思路和方式,以及几种常见的降维与聚类算法。第5章介绍时序数据分析的几种方法。第6章简要介绍几种地理数据分析的可视化方法。第7章介绍图数据——将数据转化成节点,同时将数据的关系用节点的连线表示,并讲解几种图数据分析的可视化和计算方法。第8章介绍什么是文本数据分析,并简要讲解常用的文本数据处理算法。第9章介绍三类多媒体数据——图像、音频和视频,并简要讲解相关的处理技术。第10章通过可视化数据分析,从九个方面讨论我国的社会发展变化,展示大数据分析强大的实践应用能力。
在本书的写作过程中,得到了诸多教授和同事的帮助,包括罗智泉院士、蔡小强院士、崔曙光教授、戴建岗教授、艾春荣教授、张博辉教授等,以及Dagoo数据平台的开发者郭文君、金承郁、李洪泽、张晗、宁睿等。在大数据越来越重要的今天,希望本书的读者通过阅读本书可以在大数据分析方面获益。
展开