图书简介:
项目1 项目环境的准备
任务1.1 项目相关基本概念
1.1.1 概述
1.1.2 机器学习发展简史
1.1.3 机器学习的一般步骤
1.1.4 机器学习的主要任务
1.1.5 模型评估
1.1.6 如何选择合适的算法
1.1.7 项目中关键术语
任务1.2 项目中常用模型
1.2.1 k近邻
1.2.2 回归
1.2.3 决策树
1.2.4 贝叶斯分类
1.2.5 支持向量机
1.2.6 集成学习
1.2.7 聚类
1.2.8 深度神经网络
任务1.3 Python+PyCharm环境配置
1.3.1 为什么选用Python
1.3.2 PyCharm+Python开发环境配置
1.3.3 NumPy安装与PyCharm引入
任务1.4 常用Python分析工具配置
1.4.1 基本知识
1.4.2 第一机器学习案例电影分类业务理解
1.4.3 应用Pandas实现电影分类数据读取
1.4.4 应用Matplotlib实现电影分类数据可视化
1.4.5 应用Sklearn实现电影分类学习过程
1.5 项目复盘
1.6 实操练习
项目2 k近邻回归与分类
任务2.1 k近邻算法概述
2.1.1 什么是k近邻算法
2.1.2 应用Python实现k近邻算法
2.1.3 值的选择与过拟合问题
任务2.2 k近邻算法实现葡萄酒分类
2.2.1 葡萄酒数据的准备
2.2.2 应用Pandas读取葡萄酒实验文本数据
2.2.3 数据分布可视化分析
2.2.4 数据清洗
2.2.5 数据标准化
2.2.6 值的选择
2.2.7 构建完整可用的葡萄酒kNN分类器
2.2.8 结果分析
2.3 项目复盘
2.4 实操练习
项目3 线性回归预测与逻辑回归分类
任务3.1 项目准备
3.1.1 线性回归基本知识
3.1.2 普通最小二乘法
3.1.3 回归方程评估
3.1.4 欠拟合问题
3.1.5 多重共线性问题
3.1.6 岭回归
任务3.2 波士顿房价线性回归预测
3.2.1 数据的准备
3.2.2 应用Pandas读取数据
3.2.3 使用Matplotlib进行数据可视化分析
3.2.4 特征降维处理
3.2.5 线性回归模型降维分析
3.2.6 多项式特征生成
任务3.3 茑尾花逻辑回归分类
3.3.1 逻辑回归基本知识
3.3.2 鸢尾花逻辑回归分类
3.3.3 性能指标ROC和AUC
3.4 项目复盘
3.5 实操练习
项目4 决策树分类与回归
任务4.1 决策树构造
4.1.1 决策树归纳算法基本策略
4.1.2 树的划分规则
4.1.3 树的剪枝处理
任务4.2 鸢尾花决策树分类
4.2.1 决策树分类Python编程
4.2.2 鸢尾花决策树分类深度与过拟合
4.2.3 鸢尾花决策树分类模型与评估
任务4.3 波士顿房价决策树回归
4.3.1 决策树回归Python编程
4.3.2 波士顿房价决策树回归深度与过拟合
4.3.3 波士顿房价决策树回归模型预测与评估
4.4 项目复盘
4.5 实操练习
项目5 贝叶斯分类
任务5.1 知识准备
5.1.1 概述
5.1.2 贝叶斯推断
5.1.3 朴素贝叶斯推断
任务5.2 鸢尾花GaussianNB分类
5.2.1 高斯朴素贝叶斯
5.2.2 鸢尾花分类Python编程
任务5.3 邮件MultinomialNB分类
5.3.1 多项式朴素贝叶斯
5.3.2 邮件贝叶斯过滤分类
5.3.3 数据准备与停用词表准备
5.3.4 中文切分与字符过滤及停用词处理
5.3.5 获取全部训练集中单词列表和频次最高的单词集
5.3.6 获取高频词数据集在邮件中的频次
5.3.7 应用MultinomialNB创建贝叶斯模型训练数据
5.3.8 应用MultinomialNB实现未知邮件分类预测
5.4 项目复盘
5.5 实操练习
项目6 支持向量机
任务6.1 知识准备
6.1.1 基本原理
6.1.2 线性可分与线性不可分
6.1.3 二分类实现
6.1.4 硬间隔与软间隔
6.1.5 应用GridSearchCV自动优选超参数
任务6.2 基于SVM手写数字识别技术
6.2.1 数据的准备与业务分析
6.2.2 手写数字图片可视化显示
6.2.3 应用GridSearchCV寻找高斯核最优参数
6.2.4 数字识别模型实现
任务6.3 半导体制造过程信息传递判定
6.3.1 准备并解析数据
6.3.2 应用Python读取和探查数据
6.3.3 组织需要的数据
6.3.4 数据预处理
6.3.5 建立半导体制造过程智能分类模型
6.3.6 保存训练模型和分类的结果
6.3.7 模型性能分析
6.3.8 模型性能可视化分析
6.5 项目复盘
6.6 实操练习
项目7 个体学习与集成学习
任务7.1 知识准备
任务7.2 基于kNN学习器Bagging应用
7.2.1 Bagging基本知识
7.2.2 Python鸢尾花分类编程
任务7.3 随机森林回归与分类
7.3.1 随机森林基本知识
7.3.2 随机森林波士顿房价回归预测
7.3.3 随机森林鸢尾花数据两特征组合分类
任务7.4 Boosting应用
7.4.1 Boosting基本知识
7.4.2 AdaBoost鸢尾花数据两特征组合分类
7.4.3 XGBoost葡萄酒分类
7.5 项目复盘
7.6 实操练习
项目8 聚类
任务8.1 知识准备
8.1.1 聚类基本知识
8.1.2 聚类中的主要问题
8.1.3 常用聚类算法
任务8.2 基于K-Means鸢尾花分类
8.2.1 基本知识
8.2.2 数据读取
8.2.3 构建K-Means分类模型
8.2.4 K-Means模型性能评估
8.2.5 K-Means模型结果可视化
8.3 项目复盘
8.4 实操练习
项目9 深度神经网络
任务9.1 知识准备
9.1.1 深度前馈神经网络
9.1.2 示例:印第安人糖尿病诊断
9.1.3 卷积神经网络
9.1.4 循环神经网络和长短期记忆网络
9.1.5 示例:基于LSTM的国际旅行人数预测
任务9.2 基于CNN的时间戳图像识别
9.2.1 准备数据:从视频图像中分割时间数字
9.2.2 分析数据:初始化CNN的网络结构
9.2.3 处理数据:训练CNN的网络参数
9.2.4 使用算法:时间戳识别算法
9.2.5 结果分析:测试CNN模型
9.3 项目复盘
9.4 实操练习
展开
将自然现象、人类生活等事物以数据的形式记入计算机,从数据中学习知识并应用到生产实践已成为时代的主题。例如,20世纪70年代斯坦福大学开发的MYCIN可对细菌感染疾病进行诊断和治疗咨询,淘宝通过学习电商大数据实现产品自动推荐等。数据来源于客观世界,知识反映了客观世界中事物间的联系,而机器学习就用来专门解决从数据中获取知识的问题。
如何通过计算机进行知识获取、知识表示、知识管理,通过既定的规则应用知识模拟人类行为是一个复杂的过程,需要跨学科的综合应用。例如,采用自动化技术获取传感数据,通过数学知识和业务知识定义规则,运用统计学知识进行规划部署等。当前正处于数据爆炸的年代,机器学习的核心思想是发现数据中蕴含的知识,通过学习知识来模拟人类的行为。近年来,随着大数据和人工智能产业的迅速发展,本科和高职高专院校纷纷成立大数据、云计算、人工智能、物联网等专业,如何培养学生掌握机器学习技术成为相关专业关注的焦点。特别是高职高专院校强调“理实一体化”教学理念,在知识够用的前提下,重视培养技术技能型人才,因而高职高专教材需要遵循职业教育规律,切忌照搬本科教材的形式和内容。
有鉴于此,本书弱化理论知识阐述,尤其是公式的推导过程,通过大量的项目案例和算法比较、辨析各个知识点,采用NumPy、Pandas、Scikit-learn(Sklearn)等Python工具降低学习难度,主要章节都提供完整的项目强化知识综合应用,使读者快速掌握机器学习知识并加以应用。总的来说,编者撰写本书的出发点是提供一本理论与实践结合、知识覆盖较全面、实用性较强的职业教育和培训通用教材。
本书内容覆盖机器学习技术的主要知识点:模型评估方法、数据清洗、数据处理、有监督学习和无监督学习。有监督学习任务中,
项目2介绍kNN模型的基本理论和葡萄酒分类的应用过程;项目3讲述线性回归基本理论、波士顿房价线性回归预测及鸢尾花逻辑回归分类;项目4介绍决策树基本知识、鸢尾花决策树和波士顿房价决策树的回归与分类实现;项目5主要介绍贝叶斯分类基本知识和垃圾邮件过滤的实现;项目6介绍支持向量机基本知识、手写数字识别及数据不均衡的半导体制造过程信息传递判定的实现;项目7介绍集成学习的基本知识及鸢尾花分类、波士顿房价回归、葡萄酒分类的集成实现。无监督学习任务中,项目8介绍聚类的基本知识和基于K–Means的鸢尾花分类的实现。最后,项目9延伸到深度学习网络和基于CNN的时间戳图像识别的实现过程。全书多章共用一组数据,如学生活跃情况分类回归、鸢尾花分类,利于模型间的比较,使读者在掌握机器学习知识的基础上进一步加深对不同算法异同点的理解。
本书适合作为高职高专院校电子信息领域相关专业的教材,也可作为相关科技人员的参考用书,以及应用型本科的实验补充教材,读者需具备Python编程相关的前导知识。本书着重讲述如何从数据中学习知识,对于教学而言,本书适用于人工智能技术服务、大数据技术与应用、云计算技术与应用、软件技术等高职高专专业。
本书由艾旭升、李良、李春静、杨梦铎和陈园园编写,并由艾旭升统稿。由于作者水平有限,加上机器学习领域相关技术发展很快,研究领域广泛,书中难免存在一些缺点和错误,殷切希望广大读者批评指正。
编 者
2020年3月
展开