图书简介:
第1章 数据仓库概论 1
1.1 数据仓库的概念与特点 1
1.2 数据仓库的演进过程 2
1.3 数据仓库技术 3
1.4 数据仓库基本架构 5
1.5 数据库和数据仓库的区别 8
1.6 学前导读 9
1.6.1 学习的基础要求 9
1.6.2 你将学到什么 9
1.7 本章总结 9
第2章 项目需求描述 11
2.1 前期调研 11
2.2 项目架构分析 12
2.2.1 金融租赁行业简介 12
2.2.2 金融租赁数据仓库产品描述 12
2.2.3 系统功能结构 13
2.2.4 系统流程图 14
2.3 项目业务概述 14
2.3.1 数据采集模块业务描述 14
2.3.2 数据仓库需求业务描述 15
2.3.3 数据可视化业务描述 17
2.4 系统运行环境 18
2.4.1 硬件环境 18
2.4.2 软件环境 19
2.5 本章总结 21
第3章 项目部署的环境准备 22
3.1 集群规划与服务器配置 22
3.2 安装JDK与Hadoop 22
3.2.1 准备虚拟机环境 22
3.2.2 安装JDK 26
3.2.3 安装Hadoop 27
3.2.4 Hadoop的分布式集群部署 28
3.3 本章总结 35
第4章 业务数据采集模块 36
4.1 金融租赁业务概述 36
4.1.1 金融租赁业务流程 36
4.1.2 业务表结构 40
4.2 数据同步 43
4.2.1 数据同步策略 43
4.2.2 数据同步工具选择 45
4.3 环境准备 46
4.3.1 安装DataX 46
4.3.2 安装Maxwell 47
4.3.3 安装ZooKeeper 52
4.3.4 安装Kafka 54
4.3.5 安装Flume 57
4.4 模拟业务数据 59
4.4.1 MySQL安装 59
4.4.2 数据模拟 61
4.5 业务数据的采集 62
4.5.1 全量同步 62
4.5.2 增量同步 67
4.6 采集通道启动和停止脚本 76
4.7 本章总结 77
第5章 数据仓库搭建模块 78
5.1 数据仓库理论准备 78
5.1.1 数据建模概述 78
5.1.2 关系模型与范式理论 79
5.1.3 维度模型 82
5.1.4 维度建模理论之事实表 83
5.1.5 维度建模理论之维度表 86
5.1.6 星形模型、雪花模型与星座模型 89
5.2 数据仓库建模实践 91
5.2.1 名词概念 91
5.2.2 为什么要分层 92
5.2.3 数据仓库搭建流程 93
5.2.4 数据仓库开发规范 97
5.3 数据仓库搭建环境准备 101
5.3.1 Hive安装 101
5.3.2 Hive on Spark配置 104
5.3.3 YARN容量调度器并发度问题 106
5.3.4 数据仓库开发环境配置 106
5.3.5 模拟数据准备 109
5.3.6 复杂数据类型 111
5.4 数据仓库搭建——ODS层 112
5.4.1 ODS层表格的创建 112
5.4.2 ODS层业务数据导入脚本 116
5.5 数据仓库搭建——DIM层 117
5.5.1 部门维度表(全量) 117
5.5.2 员工维度表(全量) 119
5.5.3 行业维度表(全量) 120
5.5.4 DIM层每日数据装载脚本 121
5.6 数据仓库搭建——DWD层 121
5.6.1 审批域金融租赁全流程累积快照事实表 121
5.6.2 DWD层首日数据装载脚本 133
5.6.3 DWD层每日数据装载脚本 133
5.7 数据仓库搭建——ADS层 133
5.7.1 待审/在审项目主题指标 133
5.7.2 已审项目主题指标 154
5.7.3 已审项目转化主题指标 167
5.7.4 ADS层数据导入脚本 170
5.8 数据模型评估及优化 170
5.9 本章总结 171
第6章 DolphinScheduler全流程调度 172
6.1 DolphinScheduler概述与安装部署 172
6.1.1 DolphinScheduler概述 172
6.1.2 DolphinScheduler安装部署 173
6.2 创建MySQL数据库和表 179
6.3 DataX数据导出 188
6.4 全流程调度 192
6.4.1 数据准备 192
6.4.2 全流程调度配置 192
6.5 电子邮件报警 198
6.5.1 注册邮箱 198
6.5.2 配置电子邮件报警 199
6.6 本章总结 202
第7章 数据可视化模块 203
7.1 部署FineBI 203
7.1.1 安装 203
7.1.2 初始化 205
7.2 数据源的配置 210
7.2.1 配置数据连接 210
7.2.2 配置数据源 213
7.3 制作图表 215
7.3.1 制作堆积柱状图 215
7.3.2 制作饼状图 219
7.3.3 制作多系列柱状图 227
7.3.4 制作仪表板 229
7.4 本章总结 234
展开
在当今这个高度数据化的时代,数据的重要性不言而喻。数据不仅是企业决策和业务发展的核心资源,更是引领未来发展的关键驱动力。不加处理的数据就像一堆砖瓦沙石,占用空间且没有任何价值,一旦各企业认识到数据的价值,对数据进行抽取、提炼和挖掘,就将从数据中获取到源源不断的支持和动力。当今,各行各业都已逐步认识到了这一点,开始利用数据发力。数据仓库,就是各企业对数据进行组织构建的产物,是管理分析数据的有效手段。
本书聚焦金融租赁行业的数据仓库项目建设。大数据对于金融租赁行业的重要性不言而喻。随着信息技术的飞速发展,金融租赁行业产生了大量数据,这些数据包含丰富的信息,可以为企业的决策提供有力支持。通过构建数据仓库,金融租赁企业可以更好地了解市场需求、客户行为、风险管理等方面的信息,从而提高业务效率和竞争力。尚硅谷教育推出的一系列与数据仓库相关的图书,旨在为各行各业的大数据从业者、数据仓库开发者们提供一些系统性的开发思路。
本书延续《剑指大数据——企业级数据仓库项目实战(在线教育版)》的编写特点,将编写重点放在数据仓库的核心功能模块搭建上,为读者展示大数据在金融租赁行业的应用和实践。通过阅读本书,相信读者可以更好地了解大数据技术在金融租赁行业中的作用和价值。
本书以金融租赁行业为核心,从项目需求分析入手,以项目需求驱动架构设计、框架选型和数据模型设计。本书弱化了项目的环境准备和框架搭建内容(仍保留关键部分,读者可通过附赠资料获取详细文档),强化了对数据仓库核心部分内容的讲解,具体体现为使用更多的笔墨讲解了数据仓库构建过程的关键代码,并辅以大量的思路讲解,力求使读者更快速地了解数据的处理和计算过程。
本书着重讲解了金融租赁的数据种类与结构、数据建模过程、数据仓库搭建详细流程,以及全流程自动化调度和可视化图表的构建,对于数据仓库建设中必不可少的数据治理部分,如元数据管理、权限管理、数据质量管理、集群监控和安全认证等功能,读者可以参考《剑指大数据——企业级数据仓库项目实战(电商版)》一书,书中对数据治理进行了详尽阐述。
阅读本书要求读者具备一定的编程基础,至少掌握一门编程语言(如Java)和SQL查询语言。如果读者对大数据的一些基本框架,如Hadoop、Hive等,也有一定了解,那么学习本书将事半功倍。如果读者不具备以上基础,那么可以关注“尚硅谷教育”公众号,在聊天窗口发送关键字“大数据”,即可免费获取相关学习资料。
书中涉及的所有安装包、源码及视频教程等,均可在“尚硅谷教育”公众号,发送关键字“金融租赁数仓”免费获取。书中难免有疏漏之处,在阅读本书的过程中发现任何问题,均欢迎在尚硅谷教育官网留言反馈。
展开