图书目录
Chapter 01 环境设定与网页爬虫初探
1-1 环境设定及套件安装:Anaconda
1-2 使用IDE:PyCharm
1-3 使用Jupyter Notebook
1-4 网页文件解构与网页爬虫初探
Chapter 02 Beautiful Soup 讲解与网页解构
2-1 不要重复造轮子:写爬虫之前
2-2 Beautiful Soup 重要功能 (find(), find_all(), .text, .stripped_strings)
2-3 网页结构巡览(parent, children, siblings)
2-4 正规表示式 (Regular Expression)
Chapter 03 网页爬虫范例实战
3-1 PTT 八卦板今日热门文章
3-2 Yahoo 奇摩电影本週新片
3-3 两大报当日焦点新闻
3-4 Google 搜寻股价资讯
3-5 Dcard 今日热门文章
Chapter 04 使用 API
4-1 API 简介
4-2 PTT 八卦板众来源分佈 (ipstack.com)
4-3 IMDB API
4-4 Google Maps APIs (Google Geocoding/Places API)
4-5 Dcard API
Chapter0 5 资料储存
5-1 储存图片与多媒体档案
5-2 储存资料到 CSV 档
5-3 储存资料到资料库 SQLite
Chapter 06 不同编码与类型的文件
6-1 非 UTF-8 编码的文件
6-2 XML 文件
Chapter 07 进阶爬虫议题
7-1 处理表单及登入页 :台湾高铁时刻查询
7-2 处理表单及登入页 :Yelp 登入
7-3 使用WebDriver:台银法拍屋资讯查询
7-4 爬虫程式经验谈:被封锁的常见原因、常用 Header 栏位、网站隐藏栏位、使用代理伺服器
Chapter 08 资料分析实战
8-1 台股每日盘后资讯爬虫及策略回测(量化投资)
8-2 电影评论情绪分析(中文自然语言处理与机器学习)
8-3 商品特价 Gmail 通知:Costco 商品网页
附表 本书范例目标网站列表
附录A 在 Mac 安装Anaconda 开发环境
附录B Python 爬虫框架Scrapy 入门教学
B-1 Scrapy 环境安装
B-2 简易部落格爬虫
B-3 Scrapy 系统架构
B-4 博客来网路书店爬虫