出 版 日 期:2026-01-01
价 格: 59.8
简 介:
Spark 是业界主流的大数据计算框架,拥有强大的分布式计算能力,能够充分利用大量的廉价机器进行大数据的处理工作,同时又具备较高的性能,这使得它在各大互联网企业中有着广泛的应用。本书通过一系列通俗易懂的数据处理实例展开,详细阐述Spark大数据平台与环境搭建、Spark RDD 离线数据计算、Spark SQL离线数据处理、Spark Streaming流数据计算等一系列常见的大数据处理技术,在此基础上对Spark框架的核心概念及技术原理进行详细分析,最后通过一个综合实例展示Spark离线数据处理的具体应用与部署。本书将Scala基础知识的介绍融入实例中,并未像传统做法那样设置单独的章节,方便读者按需学习,以减轻学习一种新编程语言的压力。全书各环节遵循“做中学”的设计理念,内容编排贴近初学者的认知规律,从细小简单的实例入手,辅以大量配图,对学习过程中涉及的枯燥数据、抽象概念和复杂原理予以图示化的解释说明,还安排了大量单元训练,以达到教学过程中的“学以致用”目的,内容编写以语言浅显易懂、技术体系清晰、逻辑衔接合理、知识内容够用为原则。在最后安排的数据处理综合实例中,分别从需求分析、技术准备、数据清洗、需求实现、数据可视化等几个关键环节展开叙述,便于读者对Spark大数据项目的整体开发流程有一个实际的体会。