似乎所有人嘴邊都掛著「大數據」這個詞,圍繞大數據這個主題開展的討論幾乎已經完全壓倒傳統資料倉儲的風頭,某些大數據狂熱者甚至大膽預測,在不久的將來,所有企業數據都將由一個基於Apache Hadoop的係統託管,企業資料倉儲(EDW)終將消亡。無論如何,傳統資料倉儲架構仍在不斷發展演化,這一點不容置疑。然而,儘管所有人都在討論某種技術或者架構可能會勝過另一種技術或架構,IBM卻有著不同的觀點。在IBM,他們更傾嚮於從「Hadoop與資料倉儲密切結閤」這個角度來探討問題。
試想一下,對於採用傳統資料倉儲的企業而言,大數據帶來的機會就是能夠利用過去無法通過傳統倉庫架構利用的數據,但傳統資料倉儲為什?不能承擔起這個責任?資料倉儲的傳統架構方式採用業務係統中的結構化數據,用它們來分析有關業務的方方麵麵,對這些數據進行清理、建模、分布、治理和維護,以便執行歷史分析。無論是從結構方麵考慮,還是從數據攝取速率方麵考慮,我們在資料倉儲中存儲的數據都是可預測的。相比之下,大數據是不可預測的。大數據的結構多種多樣,對於EDW來說數量過於龐大。尤其要考慮的是,我們更習慣於瀏覽大量數據來查找真正需要的訊息。不久之後可能又會決定丟棄這些數據,在某些情況下,這些數據的保存期限可能會更短。如果我們決定保留所有這些數據,則需要使用比EDW更經濟的解決方案來存儲非結構化數據,以便將來使用這些數據進行歷史分析,這也是將Hadoop與資料倉儲結閤使用的另一個論據。
本書通過簡單而完整的示例,論述在Hadoop平臺上設計和實現資料倉儲的方法。將傳統資料倉儲建模與SQL開發的簡單性與大數據技術相結閤,快速、高效地建立可擴展的資料倉儲及其應用係統。
本書共十三章,主要內容包括資料倉儲、Hadoop及其生態圈的相關概念,使用Sqoop從關係數據庫全量或增量抽取數據,使用Hive進行數據轉換和裝載處理,使用Oozie調度作業週期性執行,使用Impala進行快速聯機數據分析,使用Hue將數據視覺化,以及資料倉儲中的自封式部署(Scd)、關係鍵、角色扮演維度、層次維度、退化維度、無事實的事實錶、遲到的事實、纍積的度量等常見問題在Hadoop上的處理等。
本書適閤數據庫管理員、大數據技術人員、Hadoop技術人員、資料倉儲技術人員,也適閤高等院校和培訓學校相關專業的師生教學參考