华信教育资源网
Python 爬虫基础与实战
丛   书   名: 新工科建设之路·计算机类创新教材
作   译   者:夏素霞 出 版 日 期:2024-08-01
出   版   社:电子工业出版社 维   护   人:刘洁 
书   代   号:G0479010 I S B N:9787121479014

图书简介:

本书是一本应用爬虫技术进行数据采集、整理和数据可视化的实战读物。本书以高效开源的python语言编写,python拥有多重开源的网络爬虫工具、数据分析工具和数据可视化的工具,代码简洁,便于学习。本书集中于常用的python第三方工具,从工具的安装、引入到方法和属性做了详细的介绍,同时对各种方法和属性通过大量案例讲解帮助读者理解。每一章都有基础应用到综合实战,每一个案例都经过实战检验。本书既强调基础,又力求体现新知识与新技术,在编写体例上采用简约的文字表述,配合详细操作步骤的图片,图文并茂,直观明了。注重理论和实践相结合,设置了知识图谱、学习目标、知识指南、任务实训、结果分析等模块。为了让读者能够及时地检查自己的学习效果,把握自己的学习进度,每节都附有丰富的巩固训练,前五章还配有测试题,并通过配套的技能训练项目来加强学生技能的培养。
定价 64.8
您的专属联系人更多
关注 评论(0) 分享
配套资源 图书内容 样章/电子教材 图书评价
  • 配 套 资 源

    本书资源

    会员上传本书资源

  • 图 书 内 容

    内容简介

    本书是一本应用爬虫技术进行数据采集、整理和数据可视化的实战读物。本书以高效开源的python语言编写,python拥有多重开源的网络爬虫工具、数据分析工具和数据可视化的工具,代码简洁,便于学习。本书集中于常用的python第三方工具,从工具的安装、引入到方法和属性做了详细的介绍,同时对各种方法和属性通过大量案例讲解帮助读者理解。每一章都有基础应用到综合实战,每一个案例都经过实战检验。本书既强调基础,又力求体现新知识与新技术,在编写体例上采用简约的文字表述,配合详细操作步骤的图片,图文并茂,直观明了。注重理论和实践相结合,设置了知识图谱、学习目标、知识指南、任务实训、结果分析等模块。为了让读者能够及时地检查自己的学习效果,把握自己的学习进度,每节都附有丰富的巩固训练,前五章还配有测试题,并通过配套的技能训练项目来加强学生技能的培养。

    图书详情

    ISBN:9787121479014
    开 本:16(185*260)
    页 数:396
    字 数:603

    本书目录

    第1章Python爬虫应用基础 (主要介绍爬虫中重点应用知识)
    1.1 Python的安装与开发环境配置
    1.1.1在Windows上安装
    1.1.2开发环境介绍
    1.2 Python的基础
    1.2.1 Python的基本语法
    1.2.2数据类型与常用函数
    1.2.3逻辑控制
    1.3 Python序列应用(爬虫常用)
    1.4 Python中的函数与类(含生成器、模块概念)
    1.5 异常处理
    第2章  python网页下载技术
    2.1 HTTP协议简介
    2.1.1 HTTP请求消息
    2.1.2 HTTP响应消息
    2.2 爬虫基础简介
    2.2.1 爬虫分类
    2.2.2 爬虫框架
    2.3  robots协议
    2.4 网页下载器requests库的应用
    2.4.1 安装
    2.4.2 requests库的常用方法
    2.4.3 requests爬虫之定义请求头
    2.4.4 requests库的响应信息
    第3章 页面解析技术
    3.1 html dom 基础
    3.2 css selector定位器
    3.2.1 安装应用环境
    3.2.2 css选择器详解
    3.2.3 lxml etree解释器
    3.2.4 css选择器综合应用实战
    3.3 BeautifulSoup4
    3.3.1 安装环境
    3.3.2 bs4库的应用
    3.3.3 BeautifulSoup类的基本元素与常用方法
    3.3.4 bs4综合应用实战
    3.4 Xpath
    3.4.1 Xpath基础
    3.4.2 Xpath语法
    3.4.3 XPath Helper插件
    3.4.4 XPath综合应用
    3.4.5 加密文字处理
    3.4.6 字符串中无用字符清洗方法
    3.5 正则表达式
    3.5.1 语法
    3.5.2 re模块中的常用函数
    3.5.3 常用正则表达式
    3.5.4 正则表达式解析网页应用实战
    第4章 爬虫之文件存储
    4.1 Python文件系统
    4.1.1基本的文件读写
    4.1.2 python文件与目录操作(os模块)
    4.2 CSV文件
    4.2.1 CSV简介
    4.2.2 CSV的读写与格式转换
    4.3 json文件
    4.3.1 json文件简介
    4.3.2 json文件的读写
    4.5 MySQL数据库
    4.5.1 MySQL的配置
    4.5.2元组与列表方式读写MySQL
    4.5.3 字典方式读写MySQL
    4.6 网页数据清洗与存储综合应用
    
    第5章 Scrapy框架
    5.1 Scray工作机制
    5.2 Scrapy的安装与入门
    5.2.1 安装环境
    5.2.2 Scrapy框架部件功能介绍
    5.3编写Scrapy爬虫
    5.3.1 Scrapy框架模式编写bs4中的综合应用程序
    5.3.2 综合应用实战
    
    第6章 动态网页爬取
    6.1  JavaScript与AJAX技术
    6.1.1 JavaScript语言
    6.1.2 AJAX
    6.2抓取AJAX数据
    6.2.1分析数据
    6.2.2提取数据
    6.2.3 综合实战(爬取起点中文网信息写入txt文件)
    6.3 抓取动态内容
    6.3.1动态渲染页面
    6.3.2使用Selenium
    6.3.3 综合实战
    第7章 数据可视化
    7.1 pandas 应用
    7.2 matplotlib应用
    7.3 pyecharts 应用
    
    展开

    前     言

    数据分析是人工智能和大数据领域的必备技能,数据分析的前提是获取数据。在移动互联网、物联网时代,人们的生活与网络密切相关,数据来源已突破传统方式,大量数据来源于网络。从网络中提取的大量数据通过清洗、分析后,可以指导人们生活的方方面面。因此,合理地提取网络中的海量开源数据是未来技术发展的一个重要方向。
    Python 作为一门开源语言,被广泛应用于Web 开发、爬虫、数据清洗、人工智能等方面。Python 良好的开源性及第三方工具良好的衔接性使Python 应用的开发更加简单。Python 提供的第三方库使爬虫开发与数据提取更加简单,Python 提供的多种数据存储和处理方式使爬取数据和流行数据的处理格式兼容,Python 提供的数据分析和可视化工具使数据分析和可视化更加快捷。同时,Python 还提供了大型爬虫框架Scrapy,使爬虫,以及数据提取、清洗和分析应用的开发更加高效,性能更加出色。
    就必备的知识而言,阅读本书只需要用到很少的计算机知识。在计算机语言的基础上,本书提供了一些与爬虫和可视化相关的知识点。为了使本书的受众尽可能广泛,本书作者付出了大量努力,尽可能多地讲解了与爬虫开发相关的基础知识及常用工具,同时提供了单一示例及各种综合示例,以使读者充分理解爬虫开发工具的应用场景。Python 易于阅读,对有其他语言基础的读者而言,本书中的知识、示例、代码易于理解。
    如果读者基于自己要开发的项目阅读本书,那么读者能够通过修改本书的示例,很好地完成自己要开发的项目。同时,本书基于对Scrapy 的理解给出的对比应用示例,可以很好地帮助读者理解中、大型爬虫应用。
    本书主要介绍爬取开源网站上的开源信息的方法,并未介绍爬取验证码、密码等的方法。请读者在编写爬虫时遵循法律法规及Robots 协议,任何读者违反法律法规及Robots 协议的行为均与本书无关。
    本书的第2 章、第3 章、第4 章、第5 章,以及第8 章的8.3 节和8.4 节由北京邮电大学的夏素霞老师完成;本书的第1 章、第6 章、第7 章,以及第8 章的8.1 节和8.2 节由南京工业职业技术大学的杜兰老师完成;全书由夏素霞老师统稿。最后感谢王晨、周书夷同学为本书提供了很好的示例。
    由于作者水平有限,本书中难免有疏漏或不妥之处,恳请读者批评指正。
    展开

    作者简介

    夏素霞,女,教授,北京邮电大学世纪学院副院长兼教务处长,中国高等教育改革与发展网学术委员会(独立学院教育学术组)专家委员(中国高等教育学会),国家双万工程物联网一流专业建设项目负责人。曾出版教材《数据库原理与应用》《计算机基础》《C语言程序设计实验指导》《计算机网络技术与应用》等。
  • 样 章 试 读
    本书暂无样章试读!
  • 图 书 评 价 我要评论
华信教育资源网