图书简介:
目 录CONTENT
▲ 第1章 人工智能及机器学习概述...................................11.1 人工智能概述 ............................................................................11.1.1.人工智能简史...............................................................21.1.2.人工智能是什么...........................................................41.1.3.人工智能的能力...........................................................51.2 机器学习概述 ............................................................................51.2.1.机器学习是什么...........................................................51.2.2.以监督学习为例...........................................................61.2.3.学习任务......................................................................71.2.4.机器学习要解决的基本问题.......................................71.2.5.机器学习如何优化模型...............................................71.2.6.机器学习工作流程.......................................................71.2.7.机器学习的各大流派...................................................81.2.8.机器学习算法选择.......................................................81.2.9.需要的知识...................................................................91.3 深度学习概述 ............................................................................91.4 机器学习与统计学 ....................................................................91.5 课后练习 ..................................................................................10▲ 第2章 机器学习基础知识...........................................112.1 数学基础 ..................................................................................112.1.1.数据的分类.................................................................122.1.2.基本统计学术语.........................................................122.1.3.回归............................................................................142.1.4.最小二乘法.................................................................142.1.5.判断拟合好坏.............................................................152.1.6.小结............................................................................172.2 读图 ..........................................................................................172.2.1.数值数据的分布.........................................................172.2.2.分类数据的分布.........................................................182.3 KNIME .....................................................................................212.3.1.KNIME简介..............................................................212.3.2.下载和安装.................................................................212.3.3.KNIME基本使用.......................................................212.3.4.小结............................................................................282.4 课后练习 ..................................................................................28▲ 第3章 线性回归.........................................................293.1 简单线性回归 ..........................................................................303.1.1.场景说明....................................................................303.1.2.KNIME建立工作流...................................................303.1.3.数据获取....................................................................303.1.4.观察数据....................................................................313.1.5.数据划分....................................................................333.1.6.模型训练....................................................................343.1.7.模型测试....................................................................373.1.8.损失函数....................................................................373.2 多元线性回归初步 ..................................................................383.2.1.任务及数据说明.........................................................383.2.2.建立基本的工作流.....................................................383.2.3.读取并观察数据.........................................................393.2.4.整合界面....................................................................493.3 多元线性回归进阶 ..................................................................513.3.1.优化模型....................................................................513.3.2.正向选择节点.............................................................553.3.3.反向消除....................................................................583.3.4.模型解释....................................................................583.3.5.特征归一化.................................................................593.3.6.使用KNIME具体实现归一化..................................593.3.7.相关系数....................................................................603.4 课后练习 ..................................................................................61▲ 第4章 逻辑回归.........................................................634.1 逻辑回归基本概念 ..................................................................634.1.1.分类问题....................................................................634.1.2.从线性回归到逻辑回归.............................................654.1.3.判定边界....................................................................664.1.4.KNIME工作流..........................................................664.1.5.读取数据....................................................................674.1.6.数据处理....................................................................674.1.7.模型训练及测试.........................................................684.1.8.模型评价....................................................................694.2 逻辑回归实战 ..........................................................................714.2.1.泰坦尼克号生存问题背景介绍..................................714.2.2.读取数据....................................................................724.2.3.数据处理....................................................................734.2.4.数据可视化及删除无关列.........................................754.2.5.模型训练和测试.........................................................824.2.6.模型评价....................................................................834.2.7.提交结果....................................................................854.2.8.模型解释....................................................................894.3 课后练习 ..................................................................................90▲ 第5章 模型优化.........................................................915.1 梯度下降 ..................................................................................915.1.1.损失函数....................................................................925.1.2.使用KNIME优化模型..............................................965.2 正则化 ......................................................................................985.2.1.准确性和健壮性.........................................................985.2.2.复杂的模型.................................................................985.2.3.欠拟合和过拟合.........................................................985.2.4.正则化防止过拟合...................................................1005.2.5.使用KNIME设置正则化........................................1005.3 模型评价 ................................................................................1015.3.1.混淆矩阵..................................................................1015.3.2.F1..............................................................................1035.3.3.ROC曲线和AUC...................................................1045.4 课后练习 ................................................................................106▲ 第6章 支持向量机....................................................1076.1 支持向量机基本概念 ............................................................1076.1.1.支持向量机是什么...................................................1076.1.2.支持向量是什么.......................................................1086.1.3.逻辑回归与支持向量机的比较................................1086.1.4.核..............................................................................1106.1.5.线性核模型调参.......................................................1116.1.6.非线性核模型调参...................................................1136.1.7.C与 γ...........................................................................1146.2 SVM初战 ..............................................................................1146.2.1..问题说明..................................................................1146.2.2.建立工作流...............................................................1146.2.3.数据观察..................................................................1156.2.4.模型训练与测试.......................................................1176.2.5.观察结果..................................................................1186.3 支持向量机解决泰坦尼克号问题 ........................................1196.3.1.归一化......................................................................1196.3.2.核函数......................................................................1206.3.3.新建工作流...............................................................1206.3.4.C参数.......................................................................1236.4 一个重要的问题 ....................................................................1246.5 课后练习 ................................................................................124▲ 第7章 决策树...........................................................1257.1 决策树简介 ............................................................................1257.1.1.决策树的优点...........................................................1257.1.2.决策树的缺点...........................................................1267.1.3.防止过拟合...............................................................1267.1.4.问题解析..................................................................1267.1.5.奥卡姆剃刀...............................................................1287.1.6.提前结束..................................................................1287.1.7.剪枝..........................................................................1307.1.8.组合算法..................................................................1317.1.9.Adaboosting...............................................................1337.2 使用决策树解决泰坦尼克号生存问题 ................................1357.3 决策树高级应用实战——特征工程 ....................................1377.3.1.数据探寻..................................................................1377.3.2.特征工程..................................................................1437.3.3.异常数据处理...........................................................1467.4 决策树高级应用实战——模型建立与比较 ........................1497.4.1.决策树......................................................................1497.4.2.袋装..........................................................................1537.4.3.随机森林..................................................................1577.4.4.提升..........................................................................1597.5 课后练习 ................................................................................160▲ 第8章 深入理解决策树.............................................1618.1 决策树进阶 ............................................................................1618.1.1.如何构建决策树.......................................................1618.1.2.ID3算法决定什么是最好的....................................1628.1.3.CART算法决定什么是最好的...............................1648.1.4.KNIME设置............................................................1658.2 数据不平衡问题优化 ............................................................1658.2.1.多数数据降采样.......................................................1668.2.2.少数数据过采样.......................................................1688.2.3.SMOTE算法............................................................1708.3 课后练习 ................................................................................172▲ 第9章 贝叶斯分析....................................................1739.1 贝叶斯定理 ............................................................................1739.1.1.基本术语..................................................................1739.1.2.条件概率..................................................................1749.1.3.全概率和贝叶斯.......................................................1769.1.4.贝叶斯定理...............................................................1769.1.5.贝叶斯定理在机器学习中的应用............................1779.2 贝叶斯算法解决银行客户分类问题 ....................................1789.2.1.工作流......................................................................1789.2.2.贝叶斯算法的学习器节点.......................................1789.3 情感分析案例 ........................................................................1799.3.1.安装插件..................................................................1799.3.2.建立工作流...............................................................1809.4 课后练习 ................................................................................183▲ 第10章 深度学习.......................................................18510.1 深度学习简介 ......................................................................18510.1.1.深度学习的关键.....................................................18610.1.2.我们的目标.............................................................18610.1.3.深度学习图像识别原理概述..................................18710.1.4.图像识别探析.........................................................18710.2 卷积神经网络(CNN) .....................................................18910.2.1.CNN基本原理......................................................18910.2.2.常用CNN模型......................................................19310.3 KNIME实现卷积神经网络 ................................................19510.3.1.环境构建.................................................................19510.3.2.安装所需的工具.....................................................19510.3.3.步骤分析.................................................................19810.4 深度学习开源应用举例 ......................................................19910.5 深度学习工商业应用举例 ..................................................20110.6 课后练习 ..............................................................................205▲ 参考文献.......................................................................206
展开
前 言PREFACE
1. 创作经历本书作者团队大部分成员就职于深圳信息职业技术学院(以下简称信息学院)。作者们初入职信息学院时,感觉凭借自己高学历教专科生简直是杀鸡用牛刀,但是往往几节课后就深感到拳头打在棉花上,甚至是如履薄冰。几乎任何一个公式都能让学生们面面相觑,几乎任何一个算法都能让学生们变成大眼瞪小眼。学生经常单刀直入地提问题,简单粗暴:“老师,我学了这个能干什么”,而鲜有学生会问:“这个问题怎么做”“这个问题哪里出错了”“我这样做行不行”。但是一旦“能干什么”的问题明确了,随之而来会源源不断地问“怎样做”。各种“惨痛”的经历告诉我们,不解决目标问题,大多数学生没有兴趣;不解决复杂度问题,大多数学生无法掌握。本书大多数作者都有较高的学历和较多的研究经历,深知学习的艰难和痛苦,更对“知识就是力量”有深切的体会。在作者们的学习阶段,往往发现找到一本合适的入门书是那么得难,开始就啃业界大牛的著作往往是一个从入门到放弃的过程,或者因为很多书公式过多而影响了核心理念的掌握,导致入门如登天。结合在信息学院的授课经验,我们总结出“图说图解、自上而下、够用即止、实战掌握”的教学方法,希望带给大家一本不一样的入门书。借用凯撒的一句名言,希望大家“我来,我见,我征服”。2. 创作背景我们如何才能迈向新时代呢?答案就是拥抱新动能,而人工智能是新动能中最有代表性的一个。虽然人工智能和机器学习作为热门词汇早已进入了人们的视野,但是它们究竟是什么,可能社会上绝大多数人还是不知道,更别说知道它们能干什么了。但是在国家顶层,早就预见到了其力量,“十九大”报告指出:“加快发展先进制造业,推动互联网、大数据、人工智能和实体经济深度融合”。在这个大时代,为了让更多的人搭上新时代的电梯,我们精心设计所有内容,确保能学、会用、可进阶。3. 知识体系全书分为三个部分,分别是人工智能技术入门、传统机器学习和深度学习。人工智能技术入门:这部分包括第1章及第2章,第1章主要从历史发展角度讲述人工智能,第2章在技术层面上为今后的学习打下“够用”的数学基础和KNIME操作基础。传统机器学习:这部分是本书的主要部分,包括第3章到第9章,分别介绍线性回归、模型优化、逻辑回归、支持向量机、决策树、深入理解决策树和贝叶斯模型。在这部分中,我们会逐步掌握KNIME的使用,更重要的是逐步掌握机器学习的流程、数据的处理、模型的使用等技术。其中第5章模型优化和第8章深入理解决策树不是入门必备知识,可以作为选修内容。深度学习:这部分内容只包括第10章,仅仅简单介绍深度学习的入门知识和应用技术。4. 特色本书的特色可以概括为“图说图解,自上而下,够用即止,实战掌握”。“图说图解”是本书最显而易见的特色。本书将所有深奥难懂的机器学习原理图形化地展现及讲解,让读者能够从直觉上理解而不是从概念或者公式上理解。配合图形化的机器学习工具KNIME,使读者能够更方便快速地入门机器学习,免去了编程这个令初学者望而却步的前提条件。为了保证这一点,我们制作了大量的原创图片用于讲解,精挑细选了开源、免费、影响力大并且功能无限制的KNIME作为工具。“自上而下”是本书的核心特色。本书从内容上以机器学习模型为明线,在这条明线外还有两条按照“自上而下”的教学理念设计的暗线。第一条暗线就是使用KNIME工具,从大致流程的掌握到细节的掌握,保证读者能够从大局上知道自己在干什么,进而知道细节上应该怎样设置。第二条暗线就是机器学习知识和技术由宏观理解到具体技能掌握,保证读者能够从宏观上理解一个机器学习项目的流程,接着再去理解具体技术的细节。为保证这一点,本书从简单模型入手逐步深入到复杂模型,从使用“干净”数据逐步扩展到使用“脏”数据。“够用即止”是本书降低读者入门门槛和学习负担的保障。本书省略了大量的理论推导和公式计算,仅通过图形化方法从概念上让读者理解算法的原理,具体操作时直接使用KNIME工具即可完成。而且对于机器学习应用者来说,大多数人也没有必要理解背后的理论及公式,即使之后不用KNIME而使用Python,也是编写几句代码就可以解决的,没有必要去深究理论。为了保证这一点,我们删除了大量的公式,增加了大量的图解。“实战掌握”是验证本书是否成功的关键。纸上谈兵毕竟不是真本事,本书采用Kaggle机器学习平台的真实竞赛为实战项目,从入门项目泰坦尼克号到复杂项目银行客户分类,在实战中使读者逐步掌握机器学习的流程、模型的设置、数据清洗、非平衡数据的处理等问题。5. 本书是什么本书是一本机器学习的入门书。本书是一本关于机器学习应用的书。本书的目标是使一个高中水平的读者通过本书能够入门机器学习,并掌握足够的进一步提升的能力。本书也可以看成是机器学习图解的KNIME软件教程。6. 本书不是什么本书不研究任何机器学习公式、理论。本书不覆盖任何机器学习模型。本书字不多。7. 如何使用本书对于具有理工科背景的同学来说,建议从头至尾学习每章内容以了解每个模型的原理及其应用。对于非理工科背景或者仅仅关心模型应用的同学,可以直接阅读模型使用部分,而将模型原理部分当作手册参考即可。每章的最后都有课后练习部分,请大家仔细思考。所有答案、模型源文件和数据都可以扫描下面的二维码索取。
关注公众号查看本书所有答案、模型源文件和数据更多反馈可以加作者微信进入图说图解机器学习交流群交流。
作者微信8. 编写分工耿煜:主笔,主要负责全书的组织设计、案例分析和整体结构。李钦:案例搜集整理与筛选。杨耿:深度学习案例与应用。邱婉:图解设计及绘图。9. 致谢感谢深圳信息职业技术学院各位老师和同学的帮助,感谢深圳兆阳信息技术研究院各位工程师的协助,感谢我们的家人、朋友。没有你们的帮助就没有这本书的问世。
展开