华信教育资源网
样本数据处理
丛   书   名: 新工科建设之路·数据科学与大数据
作   译   者:许桂秋 出 版 日 期:2022-06-01
出   版   社:电子工业出版社 维   护   人:孟宇 
书   代   号:G0435730 I S B N:9787121435737

图书简介:

内容简介 本书从实用的角度出发,采用理论与实践相结合的方式,介绍样本数据处理的基础知识,力求培养读者使用Python语言以及Kettle软件进行数据处理的能力。全书内容数据预处理概述、Kettle工具的初步使用、数据的导入与导出、数据清理、数据标注、Kettle作业设计、基于Kettle构建数据仓库、基于Python的数据导入与导出、基于Python的数据整理。本书作为人工智能学科相关的样本数据处理技术的入门教材,目的不在于覆盖样本数据处理技术的所有知识点,而是介绍样本数据处理的主要应用,使读者了解样本数据处理的基本构成以及如何应对不同数据类型的数据预处理工作。为了增强实践效果,本书中引入了多个基础技术案例以及综合实践案例,帮助读者了解样本数据处理涉及到的基本技术的知识和技能。本书可以作为高校的样本数据处理课程教材,也可供对样本数据处理技术感兴趣的读者阅读。
定价 69.8
您的专属联系人更多
关注 评论(0) 分享
配套资源 图书内容 样章/电子教材 图书评价
  • 配 套 资 源

    本书资源

    会员上传本书资源

  • 图 书 内 容

    内容简介

    内容简介

     

    本书从实用的角度出发,采用理论与实践相结合的方式,介绍样本数据处理的基础知识,力求培养读者使用Python语言以及Kettle软件进行数据处理的能力。全书内容数据预处理概述、Kettle工具的初步使用、数据的导入与导出、数据清理、数据标注、Kettle作业设计、基于Kettle构建数据仓库、基于Python的数据导入与导出、基于Python的数据整理。

    本书作为人工智能学科相关的样本数据处理技术的入门教材,目的不在于覆盖样本数据处理技术的所有知识点,而是介绍样本数据处理的主要应用,使读者了解样本数据处理的基本构成以及如何应对不同数据类型的数据预处理工作。为了增强实践效果,本书中引入了多个基础技术案例以及综合实践案例,帮助读者了解样本数据处理涉及到的基本技术的知识和技能。

    本书可以作为高校的样本数据处理课程教材,也可供对样本数据处理技术感兴趣的读者阅读。

    图书详情

    ISBN:9787121435737
    开 本:16(185*260)
    页 数:336
    字 数:538

    本书目录

    本书暂无目录

    前     言

    前  言
    样本数据处理是进行数据挖掘前必不可少的准备工作,更是数据挖掘中的关键一步数据预处理一方面可以保证数据挖掘的正确性和有效性;另一方面通过对数据格式和内容的调整,可使数据更符合挖掘的需要。
    本书是由广东白云学院曙光大数据产业学院牵头,联合数据中国“百校工程”项目中的高校以及广东白云学院白云宏产业学院老师共同编写的校企双元教材。
    本书采用理论与实践相结合的方式,主要讲解如何通过 Kettle和 Python进行数据预处理,以及数据标注的一些知识。 Kettle是一款国外开源的ETL工具,完全用Java编写,可以直接在已安装有Java的 Windows、 Linux、Unix上运行,数据抽取及处理高效、稳定。本书选择 Python作为数据预处理的另一个手段,最主要的原因是一些工具不能处理的数据,需要通过编程来实现预处理。同时,随着人工智能技术的快速发展,新生代工具 Python被人们广泛应用。它是极其适合初学者入门的编程语言,同时也是万能的“胶水”语言可以胜任很多领域的工作,是人工智能和大数据时代的“明星”。
    全书共8章,内容包括三大部分。第一部分是第1章,为数据预处理总述;第二部分由第2章至第7章组成,介绍如何使用 Kettle工具进行数据预处理;第三部分由第8章、第9章组成,介绍如何使用 Python语言进行数据预处理。各章具体内容如下:
    第1章介绍了数据预处理的背景与目的,并详细阐述了数据预处理流程。
    第2章介绍了如何下载和安装 Kettle,并通过一个数据导入与导出的案例讲解如何使用 Kettle
    第3章详细介绍了 Kettle中输入与输出组件的使用,并结合案例讲解如何使用这些组件进行数据的导入与导出。
    第4章侧重于导出数据的清理,除了选择过滤、分组、连接、排序这些常用的功能外,也介绍了在 Kettle中使用Java表达式、正则表达式、Java脚本等进行数据处理的功能。
    第5章介绍数据标注的概念、分类和质量检验,并对现实中数据标注实战进行介绍。
    第6章讲解了如何进行 Kettle作业的设计,包括作业的概念与组成、作业的执行。
    方式、作业的创建及常用作业项。
    第7章为 Kettle综合应用,介绍了如何利用 Kettle,通过数据抽取、转换、加载等流程构造一个面向分析主题的数据仓库。
    第8章主要介绍了如何在 Python中导入与导出各种类型的数据。
    第9章介绍了如何调用 NumPy、 Pandas这些库,通过编程完成数据的清理工作。本书高度重视实践能力的培养,章节中的每一个知识点都有相应的实操案例,并配有截图,为读者展示了真实的、详尽的数据预处理场景,方便读者自学。
    本书可作为高等院校数据科学与大数据技术、计算机、信息管理等相关专业课程的教材,参考课时为64。
    本书在编写过程中得到了许多同行的指导,在此表示衷心感谢由于编写水平有限,书中难免存在一些疏漏和不足之处,敬请广大读者批评指正。 

    展开

    作者简介

    本书暂无作者简介
  • 样 章 试 读
  • 图 书 评 价 我要评论
华信教育资源网