什麼是壞資料?有些人認為它是一個技術性的現象,如遺失值或是格式不對的記錄,但壞資料其實不隻如此。資料專傢Q. Ethan McCallum邀請瞭資料領域中,具有不同身分,包含公司執行長、政府官員、科學傢、大學教授、程式設計師的19位專傢,分享他們處理壞資料問題的方法與心得。
從有問題的儲存、貧乏的錶述到錯誤的政策,造成壞資料有許多的可能。總結來說,壞資料就是會阻礙你的資料。本書提供一些有效的解決方法。
本書涵蓋許多主題,包括:
.測試你的資料,來看它是否準備好被用作分析
.將電子試算錶轉換為可被使用的錶格
.處理在文字資料中隱藏的編碼問題
.開發一個成功的網頁抓取機製
.使用NLP工具來揭露綫上評論的真實情緒
.提齣可能會影響你的分析的雲端運算議題
.防止會阻礙資料分析的政策
.使用係統性的方法來分析資料品質
作者簡介:
Q. Ethan McCallum
Q. Ethan McCallum是一位顧問、作傢以及科技狂熱者。他的文章齣現在The O’Reilly Network以及Java.net的網站上,著有《C/C++ Users Journal》、《Doctor Dobb’s Journal》等書。他主要的工作,是幫助公司作齣對資料以及技術的明智決策。
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 ttbooks.qciss.net All Rights Reserved. 小特书站 版權所有