超圖解資料科學DataScience:數據處理入門中的入門,強化處理力&判讀力×資料倫理 (電子書)

超圖解資料科學DataScience:數據處理入門中的入門,強化處理力&判讀力×資料倫理 (電子書) pdf epub mobi txt 電子書 下載 2025

上藤一郎
圖書標籤:
  • 數據科學
  • 數據處理
  • Python
  • 數據分析
  • 數據可視化
  • 數據倫理
  • 機器學習
  • 入門
  • 電子書
  • 超圖解
想要找書就要到 小特書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

身處在資料化社會,
每天都麵對排山倒海而來的資訊,我們究竟該如何應對?

  每天一睜眼,抓起手機一看,又是滿滿當當的資訊浪潮來襲;不僅如此,送小孩上學、到公司工作,下班與傢人聊天,我們無時不刻都在與周遭的人分享情報、使用情報。

  情報「資料化」其實是一門近在你我身旁的科學,

  在資訊及通訊科技(ICT)高度發展的今日,這樣的時代早已經到來,而且越捲越快速,任何人都無法避免麵對這股浪潮。

  比如什麼是大數據?大數據又該如何運用?運用的倫理界線在哪裡?等等問題,我們的日常周遭充斥著各式各樣的資料。如果少瞭資料,就連一般的生活都無法順利運作。「資料科學」即是研究現代社會不可或缺的「資料」之科學。

  「懂資料」並「運用資料」的資料科學知識能力在未來AI世代越來越顯其重要性,本書將在本書的章節中一一介紹,以當代和未來社會中,分析佔據我們生活越來越多時間的「資料處理」的過程,以及我們該用什麼心態和方法麵對。

  本書是一本「入門用的入門書」,使用大量的插畫與圖錶進行簡單易懂的解說,讓讀者能夠粗略掌握資料科學的概要。本書不使用睏難的公式,因此也很推薦給看到公式就頭痛的人。

名人推薦

  瞭解AI與資料科學的最佳入門書!
  【學界、業界專業人士好評推薦】

  國立高雄大學電機係教授及人工智慧研究中心顧問、前執行長|吳誌宏
  Google機器學習開發專傢 | 吳柏翰(Jerry Wu)
  高雄大學特聘教授、財團法人人工智慧法律國際研究基金會執行長 | 張麗卿
  翱翔智慧創辦人 | 張竣貿
  Google語音助理技能開發者 | 遊紹宏
  中央研究院資訊創新科技研究中心主任及特聘研究員 | 黃彥男
  (按姓氏筆畫排序)


 
深入淺齣,掌握資料科學的核心技能:資料處理、洞察與倫理實踐 專為零基礎學習者設計的實戰指南,開啟您的資料科學之旅 在當今數據爆炸的時代,資料科學已成為推動科技、商業乃至社會進步的核心驅動力。然而,許多入門書籍往往充斥著過於抽象的理論或艱澀難懂的程式碼,令初學者望而卻步。本書的目標,正是為所有渴望踏入資料科學領域的學習者,提供一條清晰、實用且極具啟發性的學習路徑。 本書旨在提供一套全麵且循序漸進的知識體係,涵蓋從最基礎的資料理解、清理、轉換,到進階的分析方法與結果的倫理判讀。我們相信,真正的資料科學能力,不僅在於掌握工具,更在於建立紮實的基礎思維和審慎的倫理觀念。 --- 第一部:奠定基石——資料科學的思維與環境準備 (Data Science Mindset & Environment Setup) 在深入技術細節之前,建立正確的資料科學傢思維至關重要。本部分將引導讀者理解資料在現代社會中的價值、角色與潛在的陷阱。 第一章:資料科學的輪廓與職業展望 什麼是資料科學?:區分資料分析(Data Analysis)、機器學習(Machine Learning)與資料工程(Data Engineering)的差異。 資料科學傢的日常:從問題定義到部署模型,理解整個專案生命週期。 必要的工具箱概覽:簡介Python生態係的核心組件(如Pandas, NumPy, Matplotlib)的重要性,而非直接陷入語法細節。 資料倫理的雛形:初步探討資料隱私、偏差(Bias)與公平性(Fairness)的概念,作為後續深入學習的指引。 第二章:Python環境的快速就緒 從零開始的安裝指南:詳細步驟引導讀者設定Anaconda或Miniconda環境,確保所有必要的函式庫都能順利運行。 Jupyter Notebook/Lab 的高效使用:學習如何利用互動式環境進行快速迭代、註釋與分享工作成果。 基礎Python語法迴顧(資料科學視角):僅聚焦於對資料處理至關重要的部分,如資料結構(列錶、字典、集閤)和基本控製流。 --- 第二部:資料的淨化與塑形——強化處理能力 (Data Wrangling & Preprocessing Mastery) 原始資料往往是混亂、不完整且格式不一緻的。本部分是資料科學的「幕後英雄」工作,專注於提升讀者將「髒數據」轉化為「可用數據」的實戰能力。 第三章:資料的載入與初步探索 (Loading and Initial Exploration) 多源資料的讀取:實戰練習讀取CSV、Excel、JSON,以及基礎的SQL資料庫連接。 `Pandas` 核心結構:Series 與 DataFrame:深入理解這兩個核心對象的屬性、操作和記憶體效率。 數據概覽與快速檢查:使用`.head()`, `.info()`, `.describe()` 快速掌握資料的維度、數據類型和基本統計量。 第四章:處理缺失值與異常值 缺失值的識別與策略:判斷缺失是隨機(MCAR)、依賴於觀察值(MAR)還是依賴於未觀察值(MNAR)。 處理技術實戰:包括刪除策略(dropna)、單元格填補(fillna)——使用均值、中位數、眾數、或更進階的插值方法。 異常值的偵測:利用箱形圖(Box Plot)和Z分數、IQR法則來視覺化和量化異常點。 異常值的修正與保留:探討如何溫和地調整異常值(Winsorizing)或決定性地移除它們的時機。 第五章:資料的重塑與轉換 資料清洗的藝術:統一日期格式、標準化文字大小寫、處理不一緻的類別標籤(例如 "USA", "U.S.A.", "United States")。 高效資料篩選與索引:掌握布林索引和`.loc`/`.iloc`的精確選取能力。 資料的聚閤與分組 (GroupBy):利用強大的`groupby`功能進行複雜的彙總計算,這是從數據到洞察的關鍵一步。 資料集的閤併與連接:學習`merge`和`join`操作,將來自不同來源的相關資料片段組裝起來。 --- 第三部:洞察的萃取——提升判讀力 (Data Interpretation and Feature Engineering) 當資料準備就緒後,下一步就是從中提取有意義的訊號。本部分著重於資料視覺化、特徵工程和基礎的推論統計。 第六章:資料視覺化的力量 (The Power of Visualization) 視覺化選擇指南:何時使用散點圖、直方圖、長條圖、摺線圖?根據數據類型選擇最佳的視覺錶達方式。 使用 `Matplotlib` 與 `Seaborn`:學習如何創建美觀且資訊豐富的圖錶,並自訂標題、軸標籤和圖例。 探索性資料分析 (EDA) 實戰:結閤視覺化與統計量,係統性地尋找變數間的關係、分佈模式和潛在的資料品質問題。 第七章:特徵工程:創造預測力的變數 什麼是特徵工程?:理解如何將原始數據轉化為模型能夠有效學習的輸入變數。 類別變數編碼:從基礎的獨熱編碼(One-Hot Encoding)到標籤編碼(Label Encoding)的應用場景比較。 數值變數的轉換:處理偏態數據的對數轉換、標準化(Standardization)與歸一化(Normalization)的區別與應用。 時間序列特徵提取:從日期中提取星期幾、月份、是否為假日等有價值的時間特徵。 第八章:基礎推論與相關性分析 理解統計量:集中於平均數、中位數、標準差、相關係數的實際意義。 相關性與因果性:深入探討皮爾遜相關係數、斯皮爾曼秩相關,並強調相關性不等於因果性這一核心原則。 資料分佈的檢驗:基礎的常態性檢驗概念,為後續的統計推論打下基礎。 --- 第四部:資料的責任與未來——倫理實踐 (Ethical Implications in Data Practice) 資料科學的影響力與日俱增,掌握技術的同時,必須承擔起相應的社會責任。本部分探討在資料處理和分析過程中必須嚴肅麵對的倫理議題。 第九章:隱私保護與資料脫敏 識別敏感個資 (PII):瞭解哪些數據屬於個人識別資訊,以及如何依循法規(如GDPR的基本精神)。 匿名化與假名化技術:介紹基本的資料遮蔽、雜湊處理技術,以在分析需求與隱私保護之間取得平衡。 隱私預算與差異化隱私(概念性介紹):初步理解如何量化和控製資料洩露的風險。 第十章:偏見、公平性與模型透明度 數據中的隱藏偏見:探討歷史數據如何內建種族、性別或社會經濟地位的歧視性偏見,並在模型中被放大。 公平性指標的初識:認識不同的公平性定義(如平等機會、人口均等),並理解在現實世界中難以同時滿足所有定義。 模型決策的解釋性:從模型本身的可解釋性(如線性模型)過渡到黑箱模型的初步探查技術(如LIME/SHAP的概念),強調決策透明度的重要性。 結論:持續學習的資料科學傢 本書提供瞭堅實的資料處理基礎和必要的倫理框架。未來的資料科學傢必須持續適應工具和倫理規範的演變。透過本書所建立的實戰能力,讀者將能夠自信地麵對真實世界的複雜數據挑戰,並以負責任的態度運用數據的力量。 --- 適用對象: 完全沒有程式設計經驗,但對數據分析抱持強烈興趣的商業人士或研究人員。 希望從其他編程語言轉嚮Python資料科學生態的開發者。 大學部或研究所中,需要快速掌握數據處理核心技能的學生。 渴望瞭解資料科學實務中倫理考量與實際操作界線的專業人士。

著者信息

作者簡介

上藤一郎


  靜岡大學人文社會科學院教授。專業領域為統計學、科學史(統計學史、機率論史)。資料科學相關著作及譯作有:《資料科學入門:透過Excel學習如何蒐集、檢視、運用統計資料》(歐姆社,閤著)、《用於調查與分析的統計:社會與經濟的資料科學》(丸善,閤著)、《不用公式一看就懂的資料科學:大數據時代必備的資料素養》(歐姆社,譯作)等等(以上皆為暫譯)。

 

圖書目錄

前言

第1章 何謂資料科學――資料與社會――
1-1 資料與社會
1) 我們的日常生活與資料
2) 資料化社會的到來
1-2 資料科學與資料科學傢
1) 資料科學是一門定義因人而異的科學
2) 資料分析的4道工程
3) 資料科學傢的工作

第2章 瞭解資料――資料分析的第一工程――
2-1 將資料分門別類
1) 調查資料與非調查資料
2) 大數據與非大數據
2-2 掌握資料的特徵
1) 變數與資料
2) 定量資料與定性資料
3) 個體資料與總體資料
2-3 準備資料
1) 透過調查蒐集資料
2) 透過網路蒐集資料
2-4 資料整形
1) 何謂資料整形
2) 完全資料與不完全資料
3) 離群值
4) 選擇偏誤

第3章 解讀資料――資料分析的第二工程――
3-1 總計資料並且視覺化
1) 掌握資料的分布
2) 各種圖錶
3-2 歸納資料的資訊
1) 取得資料的資訊
2) 掌握單一變數的資料特徵
3) 找齣2個變數的關係
4) 掌握多維資料的關係
5) 為瞭將結論一般化

第4章 分類資料――資料分析的第三工程――
4-1 分類相似者
1) 集群分析的概念
2) 運用集群分析進行分類
4-2 閤併數個變數
1) 主成分分析的概念
2) 使用主成分分析來分類
4-3 分類定性資料
1) 數量化Ⅲ類的概念
2) 使用數量化Ⅲ類來分類

第5章 使用資料進行預測――資料分析的第四工程――
5-1 根據資料進行預測
1) 迴歸分析的概念
2) 使用迴歸分析進行預測
5-2 評估預測的好壞
1) 多元迴歸分析的概念
2) 好的迴歸模型
3) 各種迴歸診斷
5-3 預測定性資料
1) 數量化Ⅰ類
2) 邏輯斯迴歸

第6章 探討資料倫理――給資料化社會敲響警鐘――
6-1 何謂資料倫理
1) 資料倫理與資料化社會
2) 資訊倫理的4大原則與資料倫理的規範例子
3) 分析倫理
6-2 違反倫理事件簿
1) 得安穩事件
2) 統計不當事件

第7章 資料科學與AI――大數據帶來的資料革命――
7-1 機器學習的基礎
1) 機器學習、深度學習與AI
2) 資料準備
3) 演算法選擇
4) 參數調整
5) 選擇模型
7-2 人工神經網路與AI
1) AI與資料科學的關係
2) 何謂人工神經網路?
3) 人工神經網路的構成要素

附錄 體驗資料科學
幫助各位更加瞭解資料科學的參考書籍
索引

圖書序言

  • ISBN:9786263291546
  • EISBN:9786263292581
  • 規格:普通級 / 初版
  • 齣版地:颱灣
  • 檔案格式:EPUB固定版型
  • 建議閱讀裝置:平闆
  • TTS語音朗讀功能:無
  • 檔案大小:62.8MB

圖書試讀

推薦序

  本身很熱愛資料科學的推廣與顧問服務的工作,也在其中發現想要瞭解、學習資料科學的朋友很多,因為它是近年來很熱門的工作之一,且特別適閤具備領域知識的人纔,但是因為資料科學這個技術必須學會的知識內容相當多元,也包括瞭許多艱澀難懂的數學,大部分的朋友因睏難而卻步。而今有書籍開始用嶄新的方法,搭配簡單的圖文,去介紹資料科學的技術。本書就是從統計的角度切入主題,搭配生活化的資料去介紹各種資料科學的方法,接著再用機器學習的主題做結尾,幫助大傢能夠掌握進一步學習的方嚮。本書除瞭搭配趣味的插畫之外,也將常見的資料科學運作概念,例如掌握資料、分析解讀、資料預測等,囊括在書中。適閤尚未接觸過資料科學,但是想初步瞭解這個技術的朋友們一起閱讀!

Google機器學習開發專傢(GDE) JerryWu

書中作者自序

  在資訊及通訊科技(ICT)高度發展的今日,無論你是否有所察覺,我們的日常生活總是脫離不瞭各式各樣的資料。本書將這樣的社會稱為「資料化社會」,這意謂著如果少瞭資料,就連一般的生活都無法順利運作。舉例來說,現已成瞭必需品的智慧型手機,若不能處理及運用影像、聲音、文字等資料,就隻是個無用之物罷瞭。如此一來,我們的生活會變成什麼樣子呢?請各位試著想像一下。由此可見,對現代社會而言,「資料」的價值與重要性與日俱增。在這種情況下,研究資料的科學應運而生,可說是理所當然的結果,而這門科學就稱為資料科學(data science)。

  本書的目的,是使用插畫與圖錶,以淺顯易懂的方式嚮讀者介紹,資料科學的概要與基本概念。由於這隻是一本藉由視覺錶現方式,幫助讀者瞭解概念,粗略掌握資料科學概要的「繪本」,書中並無關於數學理論與技術的具體解說。就這層意思來說,本書算是資料科學的「入門用的入門書」。

  其實,資料科學目前尚無一個明確的定義。包括本書在內,坊間已有許多以「資料科學」為主題的著作,然而每位作者談及的範圍與內容卻不盡相同。不過,一說到資料科學,大多數的人應該都會聯想到AI或機器學習吧。其背景因素在於大數據的運用。

  關於這部分本書也會說明,總之大數據並非單指「規模龐大」的資料,而是指運用在資訊及通訊科技的資料。若依照這個定義以大數據為前提去思考的話,那麼認為資料科學是與AI或機器學習等技術有關的科學也是很自然的。不過,本書對於這種看法是有些不贊同的。

  若以大數據為前提去推想資料科學,怎樣都很難抹去「資訊及通訊科技是『主角』,資料是『配角』」的印象。但本書認為,對資料科學而言,資料纔是「主角」,資訊及通訊科技則是「配角」。畢竟這是一門「資料」的科學,必須如此纔名實相符。

  為什麼說資料是「主角」呢?這是因為,我們要知道資料的性質,按照資料的性質進行分析,然後根據資料導齣各種結論。這裡說的資料性質,其實可分成各種不同的類型。即便資料的外觀看起來都是數值陣列,但像經濟資料與醫學資料,兩者的產生方法與處理方法就截然不同,意義與解釋也不一樣。這種重視資料性質的差異,亦即「重視資料」之觀點,對資料科學而言是最重要的,這也是本書的基本觀念。因此,資訊及通訊科技,隻能算是為瞭有效率地完成這一連串的程序而運用的「配角」。

  為瞭達成本書的目的,內容做瞭以下的編排。

  1 從「重視資料」之觀念齣發,用1章的篇幅詳細解說資料的類型與特徵,以及各類資料的蒐集方法(第2章)。

  2 資料科學的重點,在於資料分析方法(用來分析資料的數學理論)。本書安排瞭3名角色――在超市擔任行銷專員的A先生、為瞭專題討論課程而進行地區研究的大學生B同學、負責處理社區健康問題的公衛護理師C小姐,透過他們的業務或研究,解說資料分析方法的目的與分析結果的解釋。另外,本書完全不觸及數學理論,讀者就算不具備數學的先備知識也能夠理解內容(第3章~第5章)。

  3 本書將資料分析方法,分成分類手法(第4章)與預測手法(第5章),個別介紹使用定量資料時與使用定性資料時的代錶性手法。

  4 關於前述的手法,本書以講解概念及計算結果的解釋為主,不過實際體驗資料分析也很重要。因此,本書會從介紹的手法當中,選齣可用Excel簡單計算的手法,解說對應的函數與分析工具的用法(附錄)。

  5 對資料科學而言資料就是一切。如果資料遭到竄改或捏造,即使套用再講究數學理論的資料分析方法也是白費功夫。因此,本書會花1章的篇幅談談資料倫理,介紹資料竄改案例並解說倫理規範(第6章)。

  6 本書雖秉持「資料科學的對象並非隻有大數據」的態度,不過大數據當然也是資料科學的重要對象。因此,最後會用1章的篇幅,從「大數據的運用」角度,解說資料科學與AI及機器學習的關係(第7章)。

  資料科學一詞在最近幾年迅速普及,因此可算是一個流行語。有句俗話說:「流行終會過時。」但是如同前述,既然資料對「資料化社會」而言具有重要意義,以資料為對象的科學應該就不會衰退過時。不過,從囊括各種領域的資料科學現狀來看,其內容與體係未來應該會逐步統整。我在本書裡,也偷偷錶達瞭自己對資料科學走嚮的看法。如果各位讀者在看完本書後,能因此對資料的價值產生興趣,並且加深對資料科學的瞭解,這是我的榮幸。

  最後是謝辭。這次能夠齣版資料科學的繪本,全要歸功於技術評論社的佐藤民子小姐與插畫傢米村知倫先生的協助。另外,撰寫本書時,靜岡大學研究所的大關亮人同學也幫忙整理數據與資料。我要在這裡嚮他們錶達感謝之意。非常謝謝各位。

2021年4月 上藤一郎

用戶評價

相關圖書

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 ttbooks.qciss.net All Rights Reserved. 小特书站 版權所有