图书简介:
目 录
第一篇 预 备 篇
第1章 数据分析与数据库的初步认识
1.1 数据分析的基本概念
1.1.1 大数据与数据价值
1.1.2 数据、数据分析与数据挖掘
1.1.3 数据可视化
1.1.4 数据驱动决策
1.1.5 数据分析师在企业中扮演的角色
1.2 数据库的基本概念
1.2.1 企业级关系型数据库
1.2.2 主键与外键
1.2.3 维度与度量
1.2.4 日期分区
1.3 数据分析的一般流程
1.3.1 定义数据分析目标
1.3.2 数据预处理
1.3.3 数据分析与模型搭建
1.3.4 数据产品上线与维护
本章小结
第2章 TPC-DS 数据分析案例简介
2.1 数据集简介
2.2 数据集结构解析
2.2.1 store sales网络
2.2.2 catalog sales网络
2.2.3 website sales网络
2.2.4 inventory网络
2.3 数据集字段解析
2.3.1 事实表字段解析
2.3.2 维度表字段解析
2.4 启示与挑战
本章小结
第二篇 技 能 篇
第3章 企业级数据分析环境的搭建
3.1 SQL Server 2019 数据库管理工具
3.1.1 SQL Server 2019 安装与配置
3.1.2 新建TPC-DS 数据库
3.1.3 通过数据导入向导导入 TPC-DS 数据集
3.1.4 通过 Bulk Insert 命令导入 TPC-DS 数据集
3.1.5 通过数据导出向导导出数据
3.2 Excel Power 插件数据分析工具
3.2.1 Excel Power 插件的调用
3.2.2 Power Pivot 连接 SQL Server 2019数据库
3.2.3 Power View 与 Power Map的调用
3.3 Power BI Desktop 数据分析工具
3.3.1 Power BI Desktop 简介与安装
3.3.2 Power BI Desktop 连接 SQL Server 2019 数据库
3.4 Tableau Desktop & Prep 数据分析工具
3.4.1 Tableau Desktop & Prep 安装与配置
3.4.2 Tableau Desktop 连接 SQL Server 2019 数据库
3.4.3 Tableau Prep 应用基础
3.5 Python数据分析工具
3.5.1 Python简介与安装
3.5.2 Python 连接 SQL Server 2019 数据库
3.5.3 通过 Python 代码导入 TPC-DS 数据集
本章小结
第4章 结构化查询语言SQL
4.1 SQL数据查询概述
4.2 单表查询
4.2.1 投影操作
4.2.2 选择操作
4.2.3 聚集操作
4.2.4 分组操作
4.2.5 排序操作
4.3 连接查询
4.3.1 等值、非等值连接
4.3.2 自身连接
4.3.3 外连接
4.3.4 多表连接
4.4 嵌套查询
4.4.1 包含in谓词的子查询
4.4.2 带有比较运算符的相关子查询
4.4.3 带有any或all谓词的子查询
4.4.4 带有exist谓词的子查询
4.5 集合查询
4.5.1 集合并运算
4.5.2 集合交运算
4.5.3 集合差运算
4.5.4 多值列集合差运算
4.6 基于派生表的查询
4.7 复杂查询案例解析
4.7.1 复杂查询案例1
4.7.2 复杂查询案例2
4.7.3 复杂查询案例3
4.7.4 复杂查询案例4
4.7.5 复杂查询案例5
4.8 SQL 语言的其他功能
4.8.1 数据定义 SQL
4.8.2 数据更新 SQL
4.8.3 视图的定义和使用
本章小结
第5章 数据可视化基础
5.1 工作界面布局
5.2 基本可视化组件
5.2.1 堆积条形图
5.2.2 簇状条形图
5.2.3 折线图
5.2.4 组合图
5.2.5 饼状图与环状图
5.2.6 表格与矩阵
5.2.7 仪表与卡片
5.2.8 基本可视化应用小结
5.3 进阶可视化组件
5.3.1 排名图
5.3.2 瀑布图
5.3.3 树状图
5.3.4 直方图
5.3.5 盒须图
5.3.6 散点图
5.3.7 词云图
5.3.8 弦图与桑基图
5.3.9 R & Python视觉对象
5.3.10 进阶可视化应用小结
5.4 分析板块的应用
5.4.1 汇总功能
5.4.2 模型功能
5.4.3 自定义功能
5.5 仪表板与故事
5.5.1 创建仪表板
5.5.2 创建故事
本章小结
第三篇 实 战 篇
第6章 用户数据分析与挖掘实战
6.1 引言
6.2 用户宏观监控仪表板设计
6.2.1 设计目的
6.2.2 可视化效果
6.2.3 组件介绍
6.2.4 小结
6.3 用户微观监控仪表板设计
6.3.1 设计目的
6.3.2 可视化效果
6.3.3 组件介绍
6.3.4 小结
6.4 用户价值识别模型(RFM模型)
6.4.1 背景简介
6.4.2 目标定义与数据获取
6.4.3 数据预处理与分析
6.4.4 建立模型
6.4.5 模型评价与应用
6.4.6 小结
6.5 用户优惠券使用行为预测模型
6.5.1 背景简介
6.5.2 目标定义与特征工程
6.5.3 数值质量诊断与变量描述性统计
6.5.4 数据预处理
6.5.5 模型建立与效果评估
6.5.6 小结
本章小结
第7章 供应链数据分析与挖掘实战
7.1 引言
7.2 用户偏好维度供应链监控仪表板设计
7.2.1 设计目的
7.2.2 可视化效果
7.2.3 组件介绍
7.2.4 小结
7.3 用户满足维度供应链监控仪表板设计
7.3.1 设计目的
7.3.2 可视化效果
7.3.3 组件介绍
7.3.4 小结
7.4 产品需求量预测模型
7.4.1 背景简介
7.4.2 数据准备
7.4.3 数据预分析
7.4.4 产品行为模式聚类
7.4.5 时间序列建模与效果评估
7.4.6 小结
本章小结
展开
前 言
随着信息技术的迅猛发展和大数据时代的到来,现代企业的信息化系统快速积累了大量数据,数据驱动逐渐成为企业经营决策分析的基本模式。数据分析就是从海量数据中透视数据特征、发现数据内在模式规律、挖掘数据中蕴含的高价值信息的过程,同时通过强大的数据可视化技术生动、直观地为企业提供能够展现数据宏微观特征、内在规律和动态发展过程的数字化画像。数据分析是企业数据驱动决策战略体系下的核心技术,也是大数据时代各专业的学生都需要掌握的实用技能。数据分析是一门交叉学科的技术,需要数据库技术来存储、管理海量的企业数据,通过结构化数据库语言SQL实现数据管理、提取、转换和分析;还需要通过数据分析与数据可视化工具对数据进行深入分析与可视化展现,为用户提供交互的可视化报表;然后进一步应用数学、统计学、计算机编程等方面的专业知识,挖掘数据内在规律和特征,了解历史数据并预测未来以辅助企业决策。
本书针对数据分析的特点,采用融合式教学方法,即在企业级数据分析应用背景下,基于统一的企业级基准数据实战案例,基于当前主流的SQL Server 2019数据库系统、Excel Power插件、Power BI、Tableau数据分析与可视化工具、Python编程语言,综合设计了企业级数据分析与数据可视化案例教学内容,以数据分析需求为中心,按需定制需要掌握的数据库技术、数据分析技术、数据可视化技术和数据挖掘建模技术,并通过完整的案例展现从数据管理到数据抓取、数据可视化、数据挖掘建模的整个数据分析工作流程,为读者提供企业级数据分析处理的技术参考。
本书分为3篇,分别是预备篇、技能篇和实战篇。
预备篇由第1、2章构成,主要介绍建立数据分析的基本概念和本书所采用的案例数据集的基本情况。
第1章介绍了数据分析与数据库的基本概念、数据驱动决策的基本含义及数据分析与挖掘的一般工作流程,为读者建立数据分析的基本框架、构建知识体系结构和工具选择打下基础。
第2章介绍了贯穿本书始终的实战案例数据集TPC-DS,包括整个数据集结构及基本的字段语义解析,使读者了解企业级数据的基本特征和分析需求。
技能篇由第3、4、5章构成,本篇面向数据分析与数据可视化的支撑技术,介绍了主流数据库系统及数据分析与可视化工具的使用方法。
第3章首先介绍了SQL Server 2019的安装与配置方法,以及如何基于TPC-DS数据集创建数据库和将数据导入的方法,构建以数据库为中心的数据分析平台;然后以主流的数据分析与数据可视化工具Excel Power插件、Power BI、Tableau为例介绍了相应的安装配置方法及数据库连接方法,以及Python的安装及与数据库连接方法。第3章的内容帮助读者在自己的计算机上搭建起企业级数据分析的基本环境,为后续章节的实践打好基础。
第4章介绍了结构化查询语言SQL的基本语法及进阶查询技巧,通过SQL命令实现数据管理、数据查询、数据转换及数据分析处理等功能,为数据分析提供数据存储访问服务支持,并通过若干SQL查询实战案例帮助读者理解各种查询技巧在实际工作中的应用。
第5章对比了Excel Power插件、Power BI、Tableau三种主流的数据分析及数据可视化工具的使用方法,以可视化功能为核心横向对比了当前主流的Excel Power插件、Power BI及Tableau等数据可视化工具的操作技巧及功能特点,使读者既可以全面掌握三种不同数据可视化工具的使用方法,又可以根据特定的数据可视化需求选择适合的工具,在企业级数据分析与数据可视化实践工作中拥有灵活的技术选择和全面的技术掌控能力。
实战篇由第6、7章构成,本篇通过两个详细的企业级数据分析与挖掘案例,以实际的企业级业务决策需求为核心,系统地展现了数据分析的整个工作流程、相关工具的配合使用及挖掘建模方法。
第6章基于企业级用户数据分析展现了数据分析和数据可视化的工作流程及相关技术。在数据可视化部分设计了用户宏观监控与微观监控仪表板,通过交互式的数据可视化报表动态展示用户数据特征、定义用户历史行为、评估用户行为特征及相对价值高低。在挖掘建模方法上,设计了用户价值识别模型案例和用户优惠券使用行为预测模型案例,运用Python语言和聚类、分类机器学习算法实现了用户行为数据的基本分析、深入挖掘与针对性预测,展示了用户数据分析与挖掘的完整过程。
第7章演示了企业级供应链数据分析案例。在数据可视化部分通过设计用户偏好维度及用户满足维度的监控仪表板,展现了企业级供应链动态数据分析结果。产品需求量预测案例系统地展示了对产品历史需求行为模式的深入挖掘及应用时间序列算法实现预测性建模的完整过程。
本书提供丰富的教辅资源,包括操作指导视频、数据管理与数据挖掘案例的全套源程序、部分课后习题的参考答案,以及教学大纲、教学日历、教学课件、教学方式设计、考核设计等教学资源。读者可登录华信教育资源网(www.hxedu.com.cn)免费注册后下载本书提供的配套资源。
本书的目标是向跨学科的学生或研究人员介绍数据分析与数据可视化领域最具影响力的系统及工具,使读者能够及时掌握最新的软件工具使用方法并应用于数据分析实务,形成解决企业级数据分析问题的批判性思维方式并培养扎实的技术能力。本教材使用的软件,如SQL Server 2019、Power BI、Tableau等均有免费的试用版或学生版,Python为免费的开源计算机语言,可以作为教材的实战平台。SQL Server 2019是微软最新的数据库系统软件,它具有强大的数据管理和数据处理能力,对Excel、Power BI、Tableau等具有良好的集成能力。Power BI、Tableau是2019年Gartner BI魔力象限I 中位居领导位置的数据分析与数据可视化工具,也是当前企业中主流的数据分析平台。本书基于这些最新、最具影响力的数据分析和数据可视化工具设计基于企业级基准数据集TPC-DS的案例教学内容,使读者能够更加接近企业数据分析实践内容,更好地掌握企业级数据分析及数据可视化工具的使用。
最后,本书也是面向经济、人文、社会、管理学科的高校在校学生及企业从业人员学习数据分析与数据可视化技术的一个教学方法试点:在教学内容的组织上,本书覆盖了理工科的数据库技术、BI商业智能技术、计算机编程技术、机器学习算法技术及商科的战略决策思维,帮助跨学科学生增强数据分析处理能力;在教学内容的选择上,本书采用需求驱动策略简化数据库技术,并面向数据分析处理需求定制教学内容,适当地降低经济、人文、社会、管理学科学生学习数据库知识的技术门槛,以增强实践能力;在教学案例的设计上,本书采用与领域知识相结合的方法,以数据为中心、基于数据分析实务设计教学实践案例,增强教学内容的针对性与现实性;在教材的编写上,本书从文商科学生的视角及理解方式出发,结合企业实践经验组织教材内容的编写和案例设计,力求使教材内容接近企业数据分析的实际需求,使读者掌握来自现实世界的实际应用技能。
本书由中国人民大学张延松、徐新哲共同编著。张延松来自信息学院,主要负责本书的整体设计与基础内容,徐新哲来自商学院,主要负责从文商科学生的视角与理解方式上对教材内容进行全面的改写与组织,并根据自身的企业实践经验设计实践案例,从而使本书具有从文商科学生的理解能力出发、适应文商科学生学习与实践的特点,为广大经济、人文、社会、管理学科学生学习与掌握数据分析及数据可视化技术提供学习素材与指导。
大数据浪潮覆盖全社会,不仅理工科学生需要掌握数据分析处理技能,对于广大经济、人文、社会、管理学科学生及从业者而言,掌握与学科领域知识相结合的数据分析技能尤为重要,数据分析与数据可视化技术也是当前大数据时代的“刚需”技能。本书在编写过程中力求弱化复杂的概念与技术壁垒,采用以数据为中心、以实际业务需求为驱动的方法组织知识结构与实践操作技能,通过融合式案例设计将具体数据集与实际数据分析处理需求相结合,并基于最新、最前沿的工具平台为读者提供实践能力训练,力求使本书有用、好用、实用。由于数据分析与数据可视化需求覆盖领域极广,数据分析与数据可视化软件的更新迅速,加之我们在知识结构上的局限性,书中可能存在一些不足与错误之处,敬请广大读者与同行批评指正,也希望能够获得更多的建议,为广大经济、人文、社会、管理学科学生及从业者提供更加专业、更加实用的实践教材。
张延松 徐新哲
2019年12月于中国人民大学
展开