图书简介:
第1章Python爬虫应用基础 (主要介绍爬虫中重点应用知识)
1.1 Python的安装与开发环境配置
1.1.1在Windows上安装
1.1.2开发环境介绍
1.2 Python的基础
1.2.1 Python的基本语法
1.2.2数据类型与常用函数
1.2.3逻辑控制
1.3 Python序列应用(爬虫常用)
1.4 Python中的函数与类(含生成器、模块概念)
1.5 异常处理
第2章 python网页下载技术
2.1 HTTP协议简介
2.1.1 HTTP请求消息
2.1.2 HTTP响应消息
2.2 爬虫基础简介
2.2.1 爬虫分类
2.2.2 爬虫框架
2.3 robots协议
2.4 网页下载器requests库的应用
2.4.1 安装
2.4.2 requests库的常用方法
2.4.3 requests爬虫之定义请求头
2.4.4 requests库的响应信息
第3章 页面解析技术
3.1 html dom 基础
3.2 css selector定位器
3.2.1 安装应用环境
3.2.2 css选择器详解
3.2.3 lxml etree解释器
3.2.4 css选择器综合应用实战
3.3 BeautifulSoup4
3.3.1 安装环境
3.3.2 bs4库的应用
3.3.3 BeautifulSoup类的基本元素与常用方法
3.3.4 bs4综合应用实战
3.4 Xpath
3.4.1 Xpath基础
3.4.2 Xpath语法
3.4.3 XPath Helper插件
3.4.4 XPath综合应用
3.4.5 加密文字处理
3.4.6 字符串中无用字符清洗方法
3.5 正则表达式
3.5.1 语法
3.5.2 re模块中的常用函数
3.5.3 常用正则表达式
3.5.4 正则表达式解析网页应用实战
第4章 爬虫之文件存储
4.1 Python文件系统
4.1.1基本的文件读写
4.1.2 python文件与目录操作(os模块)
4.2 CSV文件
4.2.1 CSV简介
4.2.2 CSV的读写与格式转换
4.3 json文件
4.3.1 json文件简介
4.3.2 json文件的读写
4.5 MySQL数据库
4.5.1 MySQL的配置
4.5.2元组与列表方式读写MySQL
4.5.3 字典方式读写MySQL
4.6 网页数据清洗与存储综合应用
第5章 Scrapy框架
5.1 Scray工作机制
5.2 Scrapy的安装与入门
5.2.1 安装环境
5.2.2 Scrapy框架部件功能介绍
5.3编写Scrapy爬虫
5.3.1 Scrapy框架模式编写bs4中的综合应用程序
5.3.2 综合应用实战
第6章 动态网页爬取
6.1 JavaScript与AJAX技术
6.1.1 JavaScript语言
6.1.2 AJAX
6.2抓取AJAX数据
6.2.1分析数据
6.2.2提取数据
6.2.3 综合实战(爬取起点中文网信息写入txt文件)
6.3 抓取动态内容
6.3.1动态渲染页面
6.3.2使用Selenium
6.3.3 综合实战
第7章 数据可视化
7.1 pandas 应用
7.2 matplotlib应用
7.3 pyecharts 应用
展开
数据分析是人工智能和大数据领域的必备技能,数据分析的前提是获取数据。在移动互联网、物联网时代,人们的生活与网络密切相关,数据来源已突破传统方式,大量数据来源于网络。从网络中提取的大量数据通过清洗、分析后,可以指导人们生活的方方面面。因此,合理地提取网络中的海量开源数据是未来技术发展的一个重要方向。
Python 作为一门开源语言,被广泛应用于Web 开发、爬虫、数据清洗、人工智能等方面。Python 良好的开源性及第三方工具良好的衔接性使Python 应用的开发更加简单。Python 提供的第三方库使爬虫开发与数据提取更加简单,Python 提供的多种数据存储和处理方式使爬取数据和流行数据的处理格式兼容,Python 提供的数据分析和可视化工具使数据分析和可视化更加快捷。同时,Python 还提供了大型爬虫框架Scrapy,使爬虫,以及数据提取、清洗和分析应用的开发更加高效,性能更加出色。
就必备的知识而言,阅读本书只需要用到很少的计算机知识。在计算机语言的基础上,本书提供了一些与爬虫和可视化相关的知识点。为了使本书的受众尽可能广泛,本书作者付出了大量努力,尽可能多地讲解了与爬虫开发相关的基础知识及常用工具,同时提供了单一示例及各种综合示例,以使读者充分理解爬虫开发工具的应用场景。Python 易于阅读,对有其他语言基础的读者而言,本书中的知识、示例、代码易于理解。
如果读者基于自己要开发的项目阅读本书,那么读者能够通过修改本书的示例,很好地完成自己要开发的项目。同时,本书基于对Scrapy 的理解给出的对比应用示例,可以很好地帮助读者理解中、大型爬虫应用。
本书主要介绍爬取开源网站上的开源信息的方法,并未介绍爬取验证码、密码等的方法。请读者在编写爬虫时遵循法律法规及Robots 协议,任何读者违反法律法规及Robots 协议的行为均与本书无关。
本书的第2 章、第3 章、第4 章、第5 章,以及第8 章的8.3 节和8.4 节由北京邮电大学的夏素霞老师完成;本书的第1 章、第6 章、第7 章,以及第8 章的8.1 节和8.2 节由南京工业职业技术大学的杜兰老师完成;全书由夏素霞老师统稿。最后感谢王晨、周书夷同学为本书提供了很好的示例。
由于作者水平有限,本书中难免有疏漏或不妥之处,恳请读者批评指正。
展开