Python：网路爬虫与资料分析入门实战 pdf epub mobi txt 电子书下载 2025

简体网页||繁体网页

☆☆☆☆☆

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到小特书站

ttbooks.qciss.net

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

想自动化生活琐事？想透过程式撷取网路上的公开资讯？学了Python却不知道有什么实际应用？正在寻找入门难度低且成就感高的Python专案？想知道网路爬虫如何与资料分析结合？本书一次教给你！

　　本书适合阅读的对象：
　　● 对网路爬虫程式或资料分析有兴趣者
　　● 想自动化生活琐事（例如自动追踪网站特价通知、节省资料收集的时间等），化被动资讯接收为主动
　　● Python新手或入门级读者（知道何谓变数、if 判断式与回圈，写过一些小程式），想练习低门槛及高成就感的Python专案

本书特色

　　● 基于热门线上课程与实体教学的学员回响重新编写及增补而成的实战书籍
　　
　　● 以台湾读者熟悉的网站为范例（PTT、Dcard、台湾证交所、苹果日报网站、Yahoo奇摩电影、Google Maps API、IMDB电影资料库等）的Python网路爬虫程式教学

　　● 由浅入深，以实务需求为导向，涵盖爬虫常用函式库、资料储存、文件编码、表单及登入页处理、爬虫程式被封锁的常见原因等经验谈

　　● 全新的资料分析章节，包含三个爬虫程式的经典应用：量化投资、影评情绪分析与商品特价通知

著者信息

作者简介

林俊玮

　　热门开源专案「PTT网路版爬虫」作者。加州大学尔湾分校（UC Irvine）博士候选人，研究领域为软体测试自动化，曾执行包含网页及手机 App 爬虫实作的多个研究专案，也曾在国外知名研究机构及国内软体公司实习，并有多年政府资讯部门工作与介接政府开放资料经验。

林修博

　　台湾大学电子工程研究所毕业，目前任职于软体公司担任全端工程师。有多年爬虫撰写经验，并且将其商用化。

图书目录

Chapter 01 环境设定与网页爬虫初探
1-1 环境设定及套件安装：Anaconda
1-2 使用IDE：PyCharm
1-3 使用Jupyter Notebook
1-4 网页文件解构与网页爬虫初探

Chapter 02 Beautiful Soup 讲解与网页解构
2-1 不要重复造轮子：写爬虫之前
2-2 Beautiful Soup 重要功能 (find(), find_all(), .text, .stripped_strings)
2-3 网页结构巡览（parent, children, siblings）
2-4 正规表示式 (Regular Expression)

Chapter 03 网页爬虫范例实战
3-1 PTT 八卦板今日热门文章
3-2 Yahoo 奇摩电影本週新片
3-3 两大报当日焦点新闻
3-4 Google 搜寻股价资讯
3-5 Dcard 今日热门文章

Chapter 04 使用 API
4-1 API 简介
4-2 PTT 八卦板众来源分佈 (ipstack.com)
4-3 IMDB API
4-4 Google Maps APIs (Google Geocoding/Places API)
4-5 Dcard API

Chapter0 5 资料储存
5-1 储存图片与多媒体档案
5-2 储存资料到 CSV 档
5-3 储存资料到资料库 SQLite

Chapter 06 不同编码与类型的文件
6-1 非 UTF-8 编码的文件
6-2 XML 文件

Chapter 07 进阶爬虫议题
7-1 处理表单及登入页：台湾高铁时刻查询
7-2 处理表单及登入页：Yelp 登入
7-3 使用WebDriver：台银法拍屋资讯查询
7-4 爬虫程式经验谈：被封锁的常见原因、常用 Header 栏位、网站隐藏栏位、使用代理伺服器

Chapter 08 资料分析实战
8-1 台股每日盘后资讯爬虫及策略回测（量化投资）
8-2 电影评论情绪分析（中文自然语言处理与机器学习）
8-3 商品特价 Gmail 通知：Costco 商品网页

附表本书范例目标网站列表

附录A 在 Mac 安装Anaconda 开发环境

附录B Python 爬虫框架Scrapy 入门教学
B-1 Scrapy 环境安装
B-2 简易部落格爬虫
B-3 Scrapy 系统架构
B-4 博客来网路书店爬虫