雲數據平颱:設計、實現與管理

雲數據平颱:設計、實現與管理 pdf epub mobi txt 電子書 下載 2025

(加)丹尼爾·茲布裏夫斯基,(加)琳達·帕特納
想要找書就要到 小特書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

本書是一本針對設計充分利用雲靈活性的現代可伸縮資料平臺的實踐指南。你將瞭解雲資料平臺設計的核心元件,以及Spark和Kafka流等關鍵技術的作用。你還將探索如何設置流程來管理基於雲的資料,確保資料的安全,並使用高級分析和BI工具對資料進行分析。
 
本書旨在説明企業通過現代雲資料平臺使用所有資料的業務集成視圖,並利用先進的分析實踐來驅動預測和迄今無法想像的資料服務。

著者信息

圖書目錄

前言
緻謝
引言

第1章資料平臺介紹1
1.1從資料倉庫嚮資料平臺轉變背後的趨勢2
1.2資料倉庫與資料的多樣性、規模和速度3
1.2.1多樣性3
1.2.2規模4
1.2.3速度5
1.2.4所有的V同時齣現5
1.3數據湖6
1.4雲來瞭7
1.5雲、數據湖、資料倉庫:雲資料平臺的齣現9
1.6雲資料平臺的構建塊9
1.6.1攝取層10
1.6.2存儲層10
1.6.3處理層11
1.6.4服務層13
1.7雲資料平臺如何處理這三個V14
1.7.1多樣性14
1.7.2規模14
1.7.3速度15
1.7.4另外兩個V15
1.8常見用例16

第2章為什麼是資料平臺而不僅僅是資料倉庫18
2.1雲資料平臺和雲資料倉庫的實踐19
2.1.1近距離觀察資料來源20
2.1.2雲資料倉庫—純架構示例21
2.1.3雲資料平臺架構示例22
2.2攝取數據24
2.2.1將資料直接攝取到AzureSynapse24
2.2.2將資料攝取到Azure資料平臺25
2.2.3管理上遊資料來源的變化26
2.3處理資料28
2.3.1處理資料倉庫中的資料29
2.3.2處理資料平臺上的資料31
2.4訪問資料32
2.5雲成本方麵的考慮34
2.6練習答案36

第3章不斷壯大並利用三巨頭:Amazon、MicrosoftAzure和Google37
3.1雲資料平臺分層架構38
3.1.1數據攝取層40
3.1.2快存儲和慢存儲43
3.1.3處理層45
3.1.4技術中繼資料層47
3.1.5服務層和資料消費者48
3.1.6編排層和ETL覆蓋層52
3.2資料平臺架構中層的重要性57
3.3將雲資料平臺層映射到特定工具59
3.3.1AWS61
3.3.2GoogleCloud65
3.3.3Azure70
3.4開源和商業替代方案73
3.4.1批量數據攝取74
3.4.2流資料攝取和即時分析74
3.4.3編排層75
3.5練習答案77

第4章將資料導入平臺78
4.1資料庫、檔、API和流79
4.1.1關係型數據庫80
4.1.2文件81
4.1.3通過API的SaaS資料81
4.1.4流82
4.2從關係型數據庫中攝取數據83
4.2.1使用SQL介麵從RDBMS攝取資料83
4.2.2全錶攝取85
4.2.3增量錶攝取90
4.2.4變更數據捕獲94
4.2.5CDC供應商概述98
4.2.6資料類型轉換100
4.2.7從NoSQL資料庫攝取資料102
4.2.8為RDBMS或NoSQL攝取管道捕獲重要的中繼資料104
4.3從檔中攝取資料107
4.3.1跟蹤已攝取的文件109
4.3.2捕獲文件攝取中繼資料112
4.4從流中攝取數據113
4.4.1批量攝取和流攝取的區別117
4.4.2捕獲流管道中繼資料118
4.5從SaaS應用程式攝取資料119
4.5.1沒有標準的API設計方法121
4.5.2沒有標準的方法來處理全數據匯齣和增量資料匯齣121
4.5.3結果資料通常是高度嵌套的JSON122
4.6將資料攝取到雲中需要考慮的網路和安全問題122
4.7練習答案125

第5章組織和處理資料126
5.1在資料平臺中作為單獨的層進行處理127
5.2資料處理階段129
5.3組織你的雲存儲130
5.4通用資料處理步驟137
5.4.1檔案格式轉換137
5.4.2重復資料清除142
5.4.3資料品質檢查147
5.5可配置的管道149
5.6練習答案152

第6章即時資料處理和分析153
6.1即時攝取與即時處理154
6.2即時資料處理用例156
6.2.1零售用例:即時攝取156
6.2.2線上遊戲用例:即時攝取和即時處理158
6.2.3即時攝取與即時處理的總結160
6.3什麼時候應該使用即時攝取或即時處理161
6.4為即時使用組織資料163
6.4.1對快存儲的解剖163
6.4.2快存儲是如何擴展的166
6.4.3在即時存儲中組織資料168
6.5通用的即時資料轉換173
6.5.1即時係統中資料重複的原因173
6.5.2即時係統中的資料重複清除176
6.5.3在即時管道中轉換消息格式181
6.5.4即時資料品質檢查182
6.5.5將批量資料與即時資料相結閤183
6.6用於即時資料處理的雲服務184
6.6.1AWS即時處理服務185
6.6.2GoogleCloud即時處理服務186
6.6.3Azure即時處理服務188
6.7練習答案190

第7章中繼資料層架構191
7.1中繼資料是什麼192
7.1.1業務中繼資料192
7.1.2資料平臺內部中繼資料或管道中繼資料193
7.2利用管道中繼資料193
7.3中繼資料模型197
7.4中繼資料層實現選項207
7.4.1中繼資料層作為設定檔的集閤207
7.4.2中繼資料資料庫210
7.4.3中繼資料API212
7.5現有的解決方案概述214
7.5.1雲中繼資料服務214
7.5.2開源中繼資料層實現216
7.6練習答案220

第8章模式管理221
8.1為什麼要進行模式管理222
8.1.1傳統資料倉庫架構中的模式變化222
8.1.2讀時模式方法223
8.2模式管理方法225
8.2.1模式即契約226
8.2.2資料平臺中的模式管理228
8.2.3監控模式變化234
8.3模式註冊錶實現235
8.3.1ApacheAvro模式236
8.3.2現有的模式註冊錶實現237
8.3.3模式註冊錶作為中繼資料層的一部分238
8.4模式演化場景240
8.4.1模式相容性規則242
8.4.2模式演化和資料轉換管道244
8.5模式演化和資料倉庫247
8.6練習答案252

第9章資料訪問和安全253
9.1不同類型的資料消費者254
9.2雲資料倉庫255
9.2.1AWSRedshift256
9.2.2AzureSynapse259

圖書序言

本書是我們協作完成的,我們都熱愛資料、新技術和解決客戶問題。我們在一傢從事資料、分析和雲IT服務的公司一起工作瞭5年,在那裡閤作開發瞭一個雲分析實踐。擁有多年Hadoop經驗的Danil負責技術開發,而Lynda負責商業運營。我們很早就意識到這兩者都是解決現實世界的資料問題所需要的,隨著時間的推移,Danil變得更加以業務為導嚮,而Lynda對雲和資料也有瞭足夠的瞭解,可以為Danil提供幫助,有時甚至可以挑戰Danil。

Hadoop作為一個大資料平臺轉變為用於資料和分析的雲原生平颱,因為我們都相信雲和大資料的前景。在老闆的支援下,我們組建瞭一個內部團隊,不僅設計並交付瞭齣色的技術解決方案,而且還使用資料和雲交付瞭真正的商業成果。我們為幾十個客戶提供瞭這些服務,並且隨著時間的推移,我們開發瞭一套最佳實踐和知識體係。正是這種經歷,以及我們獨特的技術和商業技能的結閤,讓我們可以承擔一個非常複雜的技術主題,並使它為大眾所認可。我們首先從博客文章和白皮書開始,當Manning打電話問Danil是否想再寫一本書(他的第一本書是關於Hadoop的)時,我們一拍即閤。

我們都是行業活動的活躍演講者,因此利用這些機會為本書製定瞭大綱,並通過讀者的迴饋來予以完善。我們還加入瞭真實的客戶案例,讓本書更生動、更具實際意義。

圖書試讀

用戶評價

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 ttbooks.qciss.net All Rights Reserved. 小特书站 版權所有