Hadoop構建數據倉庫實踐 (電子書) pdf epub mobi txt 电子书下载 2025

☆☆☆☆☆

王雪迎著

下载链接在页面底部

具体描述

似乎所有人嘴邊都掛著「大數據」這個詞，圍繞大數據這個主題開展的討論幾乎已經完全壓倒傳統資料倉儲的風頭，某些大數據狂熱者甚至大膽預測，在不久的將來，所有企業數據都將由一個基於Apache Hadoop的系統託管，企業資料倉儲（EDW）終將消亡。無論如何，傳統資料倉儲架構仍在不斷發展演化，這一點不容置疑。然而，儘管所有人都在討論某種技術或者架構可能會勝過另一種技術或架構，IBM卻有著不同的觀點。在IBM，他們更傾向於從「Hadoop與資料倉儲密切結合」這個角度來探討問題。
試想一下，對於採用傳統資料倉儲的企業而言，大數據帶來的機會就是能夠利用過去無法通過傳統倉庫架構利用的數據，但傳統資料倉儲為什?不能承擔起這個責任？資料倉儲的傳統架構方式採用業務系統中的結構化數據，用它們來分析有關業務的方方面面，對這些數據進行清理、建模、分布、治理和維護，以便執行歷史分析。無論是從結構方面考慮，還是從數據攝取速率方面考慮，我們在資料倉儲中存儲的數據都是可預測的。相比之下，大數據是不可預測的。大數據的結構多種多樣，對於EDW來說數量過於龐大。尤其要考慮的是，我們更習慣於瀏覽大量數據來查找真正需要的訊息。不久之後可能又會決定丟棄這些數據，在某些情況下，這些數據的保存期限可能會更短。如果我們決定保留所有這些數據，則需要使用比EDW更經濟的解決方案來存儲非結構化數據，以便將來使用這些數據進行歷史分析，這也是將Hadoop與資料倉儲結合使用的另一個論據。
本書通過簡單而完整的示例，論述在Hadoop平臺上設計和實現資料倉儲的方法。將傳統資料倉儲建模與SQL開發的簡單性與大數據技術相結合，快速、高效地建立可擴展的資料倉儲及其應用系統。
本書共十三章，主要內容包括資料倉儲、Hadoop及其生態圈的相關概念，使用Sqoop從關係數據庫全量或增量抽取數據，使用Hive進行數據轉換和裝載處理，使用Oozie調度作業週期性執行，使用Impala進行快速聯機數據分析，使用Hue將數據視覺化，以及資料倉儲中的自封式部署（Scd）、關係鍵、角色扮演維度、層次維度、退化維度、無事實的事實表、遲到的事實、累積的度量等常見問題在Hadoop上的處理等。
本書適合數據庫管理員、大數據技術人員、Hadoop技術人員、資料倉儲技術人員，也適合高等院校和培訓學校相關專業的師生教學參考

图书目录

版權訊息作者簡介內容簡介前言第1章 ?資料倉儲簡介? 　　1.1 什?是資料倉儲　　　1.1.1 資料倉儲的定義　　　1.1.2 建立資料倉儲的原因　　1.2 操作型系統與分析型系統　　　1.2.1 操作型系統　　　1.2.2 分析型系統　　　1.2.3 操作型系統和分析型系統對比　　1.3 資料倉儲架構　　　1.3.1 基本架構　　　1.3.2 主要資料倉儲架構　　　1.3.3 操作數據存儲　　1.4 抽取-轉換-裝載　　　1.4.1 數據抽取　　　1.4.2 數據轉換　　　1.4.3 數據裝載　　　1.4.4 開發ETL系統的方法　　　1.4.5 常見ETL工具　　1.5 資料倉儲需求　　　1.5.1 基本需求　　　1.5.2 數據需求　　1.6 小結第2章 ?資料倉儲設計基礎? 　　2.1 關係數據模型　　　2.1.1 關係數據模型中的結構　　　2.1.2 關係完整性　　　2.1.3 規範化　　　2.1.4 關係數據模型與資料倉儲　　2.2 維度數據模型　　　2.2.1 維度數據模型建模過程　　　2.2.2 維度規範化　　　2.2.3 維度數據模型的特點　　　2.2.4 星型模式　　　2.2.5 雪花模式　　2.3 Data Vault模型　　　2.3.1 Data Vault模型簡介　　　2.3.2 Data Vault模型的組成部分　　　2.3.3 Data Vault模型的特點　　　2.3.4 Data Vault模型的構建　　　2.3.5 Data Vault模型實例　　2.4 數據集市　　　2.4.1 數據集市的概念　　　2.4.2 數據集市與資料倉儲的區別　　　2.4.3 數據集市設計　　2.5 資料倉儲實施步驟　　2.6 小結第3章 ?Hadoop生態圈與資料倉儲? 　　3.1 大數據定義　　3.2 Hadoop簡介　　　3.2.1 Hadoop的構成　　　3.2.2 Hadoop的主要特點　　　3.2.3 Hadoop架構　　3.3 Hadoop基本組件　　　3.3.1 HDFS 　　　3.3.2 MapReduce 　　　3.3.3 YARN 　　3.4 Hadoop生態圈的其他組件　　3.5 Hadoop與資料倉儲　　　3.5.1 關係數據庫的可擴展性瓶頸　　　3.5.2 CAP理論　　　3.5.3 Hadoop資料倉儲工具　　3.6 小結第4章 ?安裝Hadoop? 　　4.1 Hadoop主要發行版本　　　4.1.1 Cloudera Distribution for Hadoop (cdH) 　　　4.1.2 Hortonworks Data Platform (HDP) 　　　4.1.3 MapR Hadoop 　　4.2 安裝Apache Hadoop 　　　4.2.1 安裝環境　　　4.2.2 安裝前準備　　　4.2.3 安裝配置Hadoop 　　　4.2.4 安裝後配置　　　4.2.5 初始化及運行　　4.3 配置HDFS Federation 　　4.4 離線安裝cdH及其所需的服務　　　4.4.1 cdH安裝概述　　　4.4.2 安裝環境　　　4.4.3 安裝配置　　　4.4.4 Cloudera Manager許可證管理　　4.5 小結第5章 ?Kettle與Hadoop? 　　5.1 Kettle概述　　5.2 Kettle連接Hadoop 　　　5.2.1 連接HDFS 　　　5.2.2 連接Hive 　　5.3 導出導入Hadoop集群數據　　　5.3.1 把數據從HDFS抽取到RDBMS 　　　5.3.2 向Hive表導入數據　　5.4 執行Hive的HiveQL語句　　5.5 MapReduce轉換示例　　5.6 Kettle提交Spark作業　　　5.6.1 安裝Spark 　　　5.6.2 配置Kettle向Spark集群提交作業　　5.7 小結第6章 ?建立資料倉儲示例模型? 　　6.1 業務場景　　6.2 Hive相關配置　　　6.2.1 選擇文件格式　　　6.2.2 支持行級更新　　　6.2.3 Hive事務支持的限制　　6.3 Hive表分類　　6.4 向Hive表裝載數據　　6.5 建立數據庫表　　6.6 裝載日期維度數據　　6.7 小結第7章 ?數據抽取? 　　7.1 邏輯數據映射　　7.2 數據抽取方式　　7.3 導出成文本文件　　7.4 分布式查詢　　7.5 使用Sqoop抽取數據　　　7.5.1 Sqoop簡介　　　7.5.2 cdH 5.7.0中的Sqoop 　　　7.5.3 使用Sqoop抽取數據　　　7.5.4 Sqoop優化　　7.6 小結第8章 ?數據轉換與裝載? 　　8.1 數據清洗　　8.2 Hive簡介　　　8.2.1 Hive的體系結構　　　8.2.2 Hive的工作流程　　　8.2.3 Hive服務器　　　8.2.4 Hive客戶端　　8. Hive CLI和Beeline使用上的主要差別　　8.3 初始裝載　　8.4 定期裝載　　8.5 Hive優化　　8.6 小結第9章 ?定期自動執行ETL作業? 　　9.1 crontab 　　9.2 Oozie簡介　　　9.2.1 Oozie的體系結構　　　9.2.2 cdH5.7.0中的Oozie 　　9.3 建立定期裝載工作流　　9.4 建立協調器作業定期自動執行工作流　　9.5 Oozie優化　　9.6 小結第10章 ?維度表技術? 　　10.1 增加列　　10.2 維度子集　　10.3 角色扮演維度　　10.4 層次維度　　　10.4.1 固定深度的層次　　　10.4.2 遞歸　　　10.4.3 多路徑層次　　　10.4.4 參差不齊的層次　　10.5 退化維度　　10.6 雜項維度　　10.7 維度合併　　10.8 分段維度　　10.9 小結第11章 ?事實表技術? 　　11.1 事實表概述　　11.2 週期快照　　11.3 累積快照　　11.4 無事實的事實表　　11.5 遲到的事實　　11.6 累積度量　　11.7 小結第12章 ?聯機分析處理? 　　12.1 聯機分析處理簡介　　　12.1.1 概念　　　12.1.2 分類　　　12.1.3 性能　　12.2 Impala簡介　　12.3 Hive、SparkSQL、Impala比較　　　12.3.1 Spark SQL簡介　　　12.3.2 Hive、Spark SQL、Impala比較　　　12.3.3 Hive、Spark SQL、Impala性能對比　　12.4 聯機分析處理實例　　12.5 Apache Kylin與OLAP 　　　12.5.1 Apache Kylin架構　　　12.5.2 Apache Kylin安裝　　12.6 小結第13章 ?數據視覺化? 　　13.1 數據視覺化簡介　　13.2 Hue簡介　　　13.2.1 Hue功能快速預覽　　　13.2.2 配置元數據存儲　　13.3 Zeppelin簡介　　　13.3.1 Zeppelin架構　　　13.3.2 Zeppelin安裝配置　　　13.3.3 在Zeppelin中添加MySQL翻譯器　　13.4 Hue、Zeppelin比較　　13.5 數據視覺化實例　　13.6 小結