Python网路爬虫:大数据撷取、清洗、储存与分析:王者归来 pdf epub mobi txt 电子书 下载 2024

图书介绍


Python网路爬虫:大数据撷取、清洗、储存与分析:王者归来

简体网页||繁体网页
著者
出版者 出版社:深智数位 订阅出版社新书快讯 新功能介绍
翻译者
出版日期 出版日期:2019/10/20
语言 语言:繁体中文



点击这里下载
    


想要找书就要到 小特书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

发表于2024-03-28

类似图书 点击查看全场最低价

图书描述

这是一本使用Python从零开始指导读者的网路爬虫入门书籍,全书以约350个程式实例,完整解说大数据撷取、清洗、储存与分析相关知识,下列是本书有关网路爬虫知识的主要内容。

  # 认识搜寻引擎与网路爬虫
  # 认识约定成俗的协议robots.txt
  # 从零开始解析HTML网页
  # 认识与使用Chrome开发人员环境解析网页
  # 认识Python内建urllib、urllib2模组,同时介绍好用的requests模组
  # 说明lxml模组
  # Selenium模组
  # XPath方法解说
  # css定位网页元素
  # Cookie观念
  # 自动填写表单
  # 使用IP代理服务与实作
  # 侦测IP
  # 更进一步解说更新的模组Requests-HTML
  # 认识适用大型爬虫框架的Scrapy模组

  在书籍内容,本书设计爬虫程式探索下列相关网站,读者可以由不同的网站主题,深入测试自己设计网路爬虫的能力,以适应未来职场的需求。

  # 金融资讯
  # 股市数据
  # 人力银行
  # 交友网站
  # 维基网站
  # 主流媒体网站
  # 政府开放数据网站
  # 社群服务网站
  # PTT网站
  # 电影网站
  # 星座网站
  # 小说网站
  # 台湾高铁
  # 露天拍卖网站
  # httpbin网站
  # python.org网站
  # github.com网站
  # ipstack.com网站API实作
  # Google API实作
  # Facebook API实作

  探索网站成功后,本书也说明下列如何下载或储存不同资料格式的数据。

  # CSV档案格式
  # JSON档案格式
  # XML、Pickle
  # Excel
  # SQLite资料库

  本书沿袭作者着作的特色,程式实例丰富,相信读者只要遵循本书内容必定可以在最短时间精通Python网路爬虫设计。
 

著者信息

作者简介

洪锦魁


  一位跨越电脑作业系统与科技时代的电脑专家,着作等身的作家。

  ■ DOS 时代他的代表作品是 IBM PC 组合语言、C、C++、Pascal、资料结构。
  ■ Windows 时代他的代表作品是 Windows Programming 使用 C、Visual Basic。
  ■ Internet 时代他的代表作品是网页设计使用 HTML。
  ■ 大数据时代他的代表作品是 R 语言迈向 Big Data 之路。

  除了作品被翻译为简体中文、马来西亚文外,2000 年作品更被翻译为Mastering HTML 英文版行销美国。

  近年来作品则是在北京清华大学和台湾深智同步发行:
  1:Java 入门迈向高手之路王者归来
  2:Python 入门迈向高手之路王者归来
  3:HTML5 + CSS3 王者归来
  4:R 语言迈向Big Data 之路

  他的着作最大的特色是,所有程式语法会依特性分类,同时以实用的程式范例做解说,让整本书浅显易懂,读者可以由他的着作事半功倍轻松掌握相关知识。
 
Python网路爬虫:大数据撷取、清洗、储存与分析:王者归来 pdf epub mobi txt 电子书 下载

图书目录

第零章 认识网路爬虫
0-1 认识HTML
0-2 网路地址URL
0-3 爬虫的类型
0-4 搜寻引擎与爬虫原理
0-5 网路爬虫的搜寻方法
0-6 网路爬虫是否合法
0-7 认识HTTP 与HTTPS
0-8 表头(headers)

第一章 JSON 资料与绘制世界地图
1-1 JSON 资料格式前言
1-2 认识json 资料格式
1-3 将Python 应用在json 字串形式资料
1-4 将Python 应用在json 档案
1-5 简单的json 档案应用
1-6 世界人口数据的json 档案
1-7 绘制世界地图
1-8 XML

第二章 使用Python 处理CSV 文件
2-1 建立一个CSV 文件
2-2 用记事本开启CSV 档案
2-3 csv 模组
2-4 读取CSV 档案
2-5 写入CSV 档案
2-6 专题- 使用CSV 档案绘制气象图表
2-7 pickle 模组
2-8 Python 与Microsoft Excel

第三章 网路爬虫基础实作
3-1 上网不再需要浏览器了
3-2 下载网页资讯使用requests 模组
3-3 检视网页原始档
3-4 分析网站使用Chrome 开发人员工具
3-5 下载网页资讯使用urllib 模组
3-6 认识httpbin 网站
3-7 认识Cookie
3-8 设置代理IP

第四章 Pandas 模组
4-1 Series
4-2 DataFrame
4-3 基本Pandas 资料分析与处理
4-4 档案的输入与输出
4-5 Pandas 绘图
4-6 时间序列(Time Series)
4-7 专题 鸢尾花
4-8 专题 汇入网页表格资料

第五章 Beautiful Soup 解析网页
5-1 解析网页使用BeautifulSoup 模组
5-2 其它HTML 文件解析
5-3 网路爬虫实战 图片下载
5-4 网路爬虫实战 找出台湾彩券公司最新一期威力彩开奖结果
5-5 网路爬虫实战 列出Yahoo 焦点新闻标题和超连结
5-6 IP 侦测网站FileFab

第六章 网页自动化
6-1 hashlib 模组
6-2 环保署空气品质JSON 档案实作
6-3 检测网站内容是否更新
6-4 工作排程与自动执行
6-5 环保署空气品质的CSV 档案

第七章 Selenium 网路爬虫的王者
7-1 顺利使用Selenium 工具前的安装工作
7-2 获得webdriver 的物件型态
7-3 撷取网页
7-4 寻找HTML 文件的元素
7-5 XPath 语法
7-6 用Python 控制点选超连结
7-7 用Python 填写表单和送出
7-8 用Python 处理使用网页的特殊按键
7-9 用Python 处理浏览器运作
7-10 自动进入Google 系统
7-11 自动化下载环保署空气品质资料

第八章 PTT 爬虫实战
8-1 认识批踢踢实业坊
8-2 进入PTT 网址
8-3 解析PTT 进入须满18 岁功能钮
8-4 各篇文章的解析
8-5 解析文章标题与作者
8-6 推文数量
8-7 文章发表日期
8-8 将PTT 目前页面内容以JSON 档案储存
8-9 前一页面处理的说明
8-10 进入PPT 的Beauty 论坛网站
8-11 ipstack

第九章 Yahoo 奇摩电影网站
9-1 本週新片
9-2 中文片名和英文片名
9-3 上映日期
9-4 期待度
9-5 影片摘要
9-6 剧照海报
9-7 爬取兄弟节点
9-8 预告片
9-9 排行榜

第十章 台湾主流媒体网站
10-1 苹果日报
10-2 联合报
10-3 经济日报
10-4 中国时报
10-5 工商时报

第十一章 Python 与SQLite 资料库
11-1 SQLite 基本观念
11-2 资料库连线
11-3 SQLite 资料类型
11-4 建立SQLite 资料库表单
11-5 增加SQLite 资料库表单纪录
11-6 查询SQLite 资料库表单
11-7 更新SQLite 资料库表单纪录
11-8 删除SQLite 资料库表单纪录
11-9 DB Browser for SQLite
11-10 将台北人口数储存SQLite 资料库

第十二章 股市数据爬取与分析
12-1 证券柜台买卖中心
12-2 台湾证券交易所
12-3 Google 全球股市资讯
12-4 Yahoo 股市资讯
12-5 台湾股市资料读取与图表制作

第十三章 金融资讯的应用
13-1 台湾银行利率查询
13-2 取得HTML 文件
13-3 分析HTML 文件
13-4 将利率表储存成CSV 档案
13-5 取得最优惠利率
13-6 基金资料

第十四章 Dcard 社群服务网站
14-1 进入网站
14-2 分析网站
14-3 抓取预设的热门贴文
14-4 爬取更多Dcard 热门文章

第十五章 星座屋网站
15-1 进入星座屋网站
15-2 分析网站与爬取星座运势文字
15-3 星座图片的下载

第十六章 小说网站
16-1 进入小说网站
16-2 解析网页
16-3 处理编码问题
16-4 爬取书籍章节标题
16-5 爬取章节内容的连结
16-6 从章节超连结输出小说内容
16-7 将小说内文存入档案

第十七章 台湾高铁网站
17-1 查询台湾高铁的站名
17-2 时刻表查询

第十八章 维基百科
18-1 维基百科的中文网址
18-2 爬取台积电主文资料
18-3 台积电的简史
18-4 URL 编码

第十九章 Python 与Facebook
19-1 Facebook 图形API
19-2 facebook-sdk 存取资料的应用

第二十章 Google API
20-1 申请Google API 金钥
20-2 基本操作Google Map
20-3 爬虫撷取Google 地理资讯
20-4 地理资讯的基本应用
20-5 找寻指定区域内的景点

第二十一章 Yahoo 拍卖网站
21-1 Yahoo 拍卖网站
21-2 分析网页与单个商品搜寻
21-3 系列商品搜寻

第二十二章 Hotels.com 旅宿网站
22-1 Hotels.com 旅宿网站
22-2 解析输入表单
22-3 获得查询资料
22-4 列出一系列所找到的旅馆

第二十三章 交友网站
23-1 进入交友网站
23-2 分析网页
23-3 爬取第一笔资料
23-4 将爬取的资料储存至CSV 档案
23-5 爬取与储存Ajax 加载的页面
23-6 教育程度分析
23-7 身高分析
23-8 年龄分析

第二十四章 Requests-HTML 模组
24-1 安装与导入
24-2 使用者请求Session
24-3 认识回传资料型态与几个重要属性
24-4 数据清洗与爬取
24-5 搜寻豆瓣电影网站
24-6 Ajax 动态数据加载

第二十五章 人力银行网站
25-1 认识人力银行网页
25-2 分析与设计简单的爬虫程式
25-3 更进一步分析网页

第二十六章 Scrapy
26-1 安装Scrapy
26-2 从简单的实例开始 - 建立Scrapy 专案
26-3 Scrapy 定位元素
26-4 使用cookie 登入
26-5 保存文件为JSON 和CSV 档案
26-6 Scrapy 架构图
26-7 专题爬取多页PTT 资料

 

图书序言

图书试读

None

Python网路爬虫:大数据撷取、清洗、储存与分析:王者归来 epub 下载 mobi 下载 pdf 下载 txt 电子书 下载 2024


Python网路爬虫:大数据撷取、清洗、储存与分析:王者归来 epub 下载 mobi 下载 pdf 下载 txt 电子书 下载 2024

Python网路爬虫:大数据撷取、清洗、储存与分析:王者归来 pdf epub mobi txt 电子书 下载 2024




想要找书就要到 小特书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

用户评价

类似图书 点击查看全场最低价

Python网路爬虫:大数据撷取、清洗、储存与分析:王者归来 pdf epub mobi txt 电子书 下载


分享链接





相关图书




本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

友情链接

© 2024 ttbooks.qciss.net All Rights Reserved. 小特书站 版权所有