比Selenium还强大的网路爬虫:Scrapy一本就精通

比Selenium还强大的网路爬虫:Scrapy一本就精通 pdf epub mobi txt 电子书 下载 2025

图书标签:
  • Scrapy
  • 爬虫
  • Python
  • 网络爬虫
  • 数据抓取
  • Selenium
  • 数据分析
  • 实战
  • 教程
  • 自动化测试
想要找书就要到 小特书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

本书说明目前最流行的Python 爬虫架构Scrapy,它简单好用、灵活易扩充、文件丰富、开发社区活跃,使用Scrapy 可以高效率地开发网路爬虫应用。读者有Python 语言基础即可,本书从零基础、逐步由浅入深说明。

  全书共14章,系统地介绍Python流行框架Scrapy的相关技术及使用技巧。第1~8 章说明Scrapy 开发的核心基础部分,重点介绍Scrapy的核心元素,如spider、selector、item、link等。

  第9~14 章说明实际爬虫开发中使用频率最高的一些实用技术,如下载档案和图片、模拟登入、执行JavaScript、爬取动态网页、使用HTTP代理、分散式爬虫的编写等内容。

本书特色

  ■ 所有基础部分的说明都配有程式范例,而不仅是枯燥的文件。

  ■ 案例选材方面以说明基础知识为核心,尽量选择专门供练习爬虫技术的网站(不易变动)或接近日常生活的网站(京东、知乎、豆瓣、360)进行示范。

  ■ 在说明某些基础知识时,对Scrapy原始程式进行分析,让读者能够「知其然并知其所以然」。     
  适用:有Python语言基础,想学习编写复杂网路爬虫的读者。
 

著者信息

作者简介    

刘硕  


  曾任职知名外企,从事一线开发工作10年,目前主要从事Python开发与教学工作,在慕课网开设多门Python课程,深受学员欢迎。

图书目录

01  初识Scrapy    
1.1 网路爬虫是什么
1.2 Scrapy 简介及安装
1.3 撰写第一个Scrapy 爬虫
1.4 本章小结 

02  撰写Spider     
2.1 Scrapy 架构结构及工作原理
2.2 Request 和Response 物件
2.3 Spider 开发流程
2.4 本章小结 

03  使用Selector 分析资料 
3.1 Selector 物件
3.2 Response 内建Selector    
3.3 XPath
3.4 CSS 选择器
3.5 本章小结 

04  使用Item 封装资料       
4.1 Item 和Field
4.2 扩充Item 子类别
4.3 Field 中继资料
4.4 本章小结 

05  使用Item Pipeline 处理资料 
5.1 Item Pipeline
5.2 更多实例
5.3 本章小结 

06  使用LinkExtractor 分析连结      
6.1 使用LinkExtractor
6.2 描述分析规则
6.3 本章小结 

07  使用Exporter 汇出资料       
7.1 指定如何汇出资料  
7.2 增加汇出资料格式
7.3 本章小结 

08  专案练习
8.1 专案需求
8.2 页面分析
8.3 程式实现
8.4 本章小结 

09 下载档案和图片
9.1 FilesPipeline 和ImagesPipeline
9.2 专案实战:爬取matplotlib 实例原始程式档案
9.3 专案实战:下载360 图片
9.4 本章小结 

10  模拟登入
10.1 登入实质
10.2 Scrapy 模拟登入
10.3 识别验证码
10.4 Cookie 登入
10.5 本章小结

11 爬取动态页面
11.1 Splash 绘制引擎
11.2 在Scrapy 中使用Splash
11.3 专案实战:爬取toscrape 中的名人名言
11.4 专案实战:爬取京东商场中的书籍资讯
11.5 本章小结

12  存入资料库
12.1 SQLite
12.2 MySQL   
12.3 MongoDB
12.4 Redis
12.5 本章小结

13  使用HTTP 代理
13.1 HttpProxyMiddleware
13.2 使用多个代理
13.3 取得免费代理
13.4 实现随机代理
13.5 专案实战:爬取豆瓣电影资讯
13.6 本章小结

14  分散式爬取
14.1 Redis 的使用
14.2 scrapy-redis 原始程式分析
14.3 使用scrapy-redis 进行分散式爬取
14.4 本章小结

图书序言

前言

  ✤ 关于本书
  如今是网际网路的时代,而且正在迈入智慧时代。人们早已意识到网际网路中的资料是有待开採的极大金矿,这些资料将改善我们的生活,网路爬虫开发工作职位的出现和不断增加正是以对资料价值为基础的重视。优秀的爬虫架构就像是开採金矿的强力採撷机,如果你能嫺熟地驾驶它们,就能大幅加强开採效率。

  本书说明目前最流行的Python 爬虫架构Scrapy,它简单好用、灵活易扩充、文件丰富、开发社区活跃,使用Scrapy 可以高效率地开发网路爬虫应用。本书的读者只需要有Python 语言基础即可,我们从零基础、逐步由浅入深说明。第1~8 章说明Scrapy 开发的核心基础部分,其中包含:

  ■ 初识Scrapy
  ■ 撰写Spider
  ■ 使用Selector分析资料
  ■ 使用Item封装资料
  ■ 使用Item Pipeline处理资料
  ■ 使用Link Extractor分析连结
  ■ 使用Exporter汇出资料
  ■ 专案练习

  第9~14 章说明实际爬虫开发中使用频率最高的一些实用技术,其中包含:
  ■ 下载档案和图片
  ■ 模拟登入
  ■ 爬取动态页面
  ■ 存入资料库
  ■ 使用HTTP代理
  ■ 分散式爬取

  ✤本书特色
  本书的宗旨是以实用和实战为教学目标,主要特色是:

  ■ 所有基础部分的说明都配有程式范例,而不仅是枯燥的文件。
  ■ 案例选材方面以说明基础知识为核心,尽量选择专门供练习爬虫技术的网站(不易变动)或接近日常生活的网站(京东、知乎、豆瓣、360)进行示范。

  ■ 在说明某些基础知识时,对Scrapy原始程式进行分析,让读者能够「知其然并知其所以然」。

  Python 是一种简单易学、功能强大、开发效率极高的语言,近年来在网路爬虫、资料分析、机器学习等领域获得广泛认可。虽然Python上手容易,但想灵活恰当地运用它也并不简单。作者在慕课网(www.imooc.com)上推出一套《Python 高级进阶实战》课程,可供有需求的读者进行参考:http://coding.imooc.com/class/62.html。

  ✤ 致谢
  感谢康烁和陈渝老师在清华大学资讯研究院工作期间对我在专业方面的耐心指导。
  感谢清华大学出版社的王金柱编辑给予我这次写作的机会以及在写作方面的指点。
  感谢同事赵佳音认真阅读全书并提出了许多的宝贵建议。
  感谢剑超和任怡同学认真审稿全书,并对书中程式在多个Python 版本上进行测试。
  感谢女儿刘真,她的笑容化解了写作本书时偶尔的小烦躁。
 

图书试读

用户评价

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 ttbooks.qciss.net All Rights Reserved. 小特书站 版权所有