Hadoop構建數據倉庫實踐 (電子書) pdf epub mobi txt 电子书 下载 2024

图书介绍


Hadoop構建數據倉庫實踐 (電子書)

简体网页||繁体网页
著者 王雪迎著
出版者 崧燁文化
翻译者
出版日期 出版日期:2018/08/01
语言 語言:繁體中文



点击这里下载
    


想要找书就要到 小特书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

发表于2024-11-20

类似图书 点击查看全场最低价

图书描述

似乎所有人嘴邊都掛著「大數據」這個詞,圍繞大數據這個主題開展的討論幾乎已經完全壓倒傳統資料倉儲的風頭,某些大數據狂熱者甚至大膽預測,在不久的將來,所有企業數據都將由一個基於Apache Hadoop的系統託管,企業資料倉儲(EDW)終將消亡。無論如何,傳統資料倉儲架構仍在不斷發展演化,這一點不容置疑。然而,儘管所有人都在討論某種技術或者架構可能會勝過另一種技術或架構,IBM卻有著不同的觀點。在IBM,他們更傾向於從「Hadoop與資料倉儲密切結合」這個角度來探討問題。
試想一下,對於採用傳統資料倉儲的企業而言,大數據帶來的機會就是能夠利用過去無法通過傳統倉庫架構利用的數據,但傳統資料倉儲為什?不能承擔起這個責任?資料倉儲的傳統架構方式採用業務系統中的結構化數據,用它們來分析有關業務的方方面面,對這些數據進行清理、建模、分布、治理和維護,以便執行歷史分析。無論是從結構方面考慮,還是從數據攝取速率方面考慮,我們在資料倉儲中存儲的數據都是可預測的。相比之下,大數據是不可預測的。大數據的結構多種多樣,對於EDW來說數量過於龐大。尤其要考慮的是,我們更習慣於瀏覽大量數據來查找真正需要的訊息。不久之後可能又會決定丟棄這些數據,在某些情況下,這些數據的保存期限可能會更短。如果我們決定保留所有這些數據,則需要使用比EDW更經濟的解決方案來存儲非結構化數據,以便將來使用這些數據進行歷史分析,這也是將Hadoop與資料倉儲結合使用的另一個論據。
本書通過簡單而完整的示例,論述在Hadoop平臺上設計和實現資料倉儲的方法。將傳統資料倉儲建模與SQL開發的簡單性與大數據技術相結合,快速、高效地建立可擴展的資料倉儲及其應用系統。
本書共十三章,主要內容包括資料倉儲、Hadoop及其生態圈的相關概念,使用Sqoop從關係數據庫全量或增量抽取數據,使用Hive進行數據轉換和裝載處理,使用Oozie調度作業週期性執行,使用Impala進行快速聯機數據分析,使用Hue將數據視覺化,以及資料倉儲中的自封式部署(Scd)、關係鍵、角色扮演維度、層次維度、退化維度、無事實的事實表、遲到的事實、累積的度量等常見問題在Hadoop上的處理等。
本書適合數據庫管理員、大數據技術人員、Hadoop技術人員、資料倉儲技術人員,也適合高等院校和培訓學校相關專業的師生教學參考

著者信息

Hadoop構建數據倉庫實踐 (電子書) pdf epub mobi txt 电子书 下载

图书目录

版權訊息 作者簡介 內容簡介 前言 第1章 ?資料倉儲簡介?   1.1 什?是資料倉儲    1.1.1 資料倉儲的定義    1.1.2 建立資料倉儲的原因   1.2 操作型系統與分析型系統    1.2.1 操作型系統    1.2.2 分析型系統    1.2.3 操作型系統和分析型系統對比   1.3 資料倉儲架構    1.3.1 基本架構    1.3.2 主要資料倉儲架構    1.3.3 操作數據存儲   1.4 抽取-轉換-裝載    1.4.1 數據抽取    1.4.2 數據轉換    1.4.3 數據裝載    1.4.4 開發ETL系統的方法    1.4.5 常見ETL工具   1.5 資料倉儲需求    1.5.1 基本需求    1.5.2 數據需求   1.6 小結 第2章 ?資料倉儲設計基礎?   2.1 關係數據模型    2.1.1 關係數據模型中的結構    2.1.2 關係完整性    2.1.3 規範化    2.1.4 關係數據模型與資料倉儲   2.2 維度數據模型    2.2.1 維度數據模型建模過程    2.2.2 維度規範化    2.2.3 維度數據模型的特點    2.2.4 星型模式    2.2.5 雪花模式   2.3 Data Vault模型    2.3.1 Data Vault模型簡介    2.3.2 Data Vault模型的組成部分    2.3.3 Data Vault模型的特點    2.3.4 Data Vault模型的構建    2.3.5 Data Vault模型實例   2.4 數據集市    2.4.1 數據集市的概念    2.4.2 數據集市與資料倉儲的區別    2.4.3 數據集市設計   2.5 資料倉儲實施步驟   2.6 小結 第3章 ?Hadoop生態圈與資料倉儲?   3.1 大數據定義   3.2 Hadoop簡介    3.2.1 Hadoop的構成    3.2.2 Hadoop的主要特點    3.2.3 Hadoop架構   3.3 Hadoop基本組件    3.3.1 HDFS    3.3.2 MapReduce    3.3.3 YARN   3.4 Hadoop生態圈的其他組件   3.5 Hadoop與資料倉儲    3.5.1 關係數據庫的可擴展性瓶頸    3.5.2 CAP理論    3.5.3 Hadoop資料倉儲工具   3.6 小結 第4章 ?安裝Hadoop?   4.1 Hadoop主要發行版本    4.1.1 Cloudera Distribution for Hadoop (cdH)    4.1.2 Hortonworks Data Platform (HDP)    4.1.3 MapR Hadoop   4.2 安裝Apache Hadoop    4.2.1 安裝環境    4.2.2 安裝前準備    4.2.3 安裝配置Hadoop    4.2.4 安裝後配置    4.2.5 初始化及運行   4.3 配置HDFS Federation   4.4 離線安裝cdH及其所需的服務    4.4.1 cdH安裝概述    4.4.2 安裝環境    4.4.3 安裝配置    4.4.4 Cloudera Manager許可證管理   4.5 小結 第5章 ?Kettle與Hadoop?   5.1 Kettle概述   5.2 Kettle連接Hadoop    5.2.1 連接HDFS    5.2.2 連接Hive   5.3 導出導入Hadoop集群數據    5.3.1 把數據從HDFS抽取到RDBMS    5.3.2 向Hive表導入數據   5.4 執行Hive的HiveQL語句   5.5 MapReduce轉換示例   5.6 Kettle提交Spark作業    5.6.1 安裝Spark    5.6.2 配置Kettle向Spark集群提交作業   5.7 小結 第6章 ?建立資料倉儲示例模型?   6.1 業務場景   6.2 Hive相關配置    6.2.1 選擇文件格式    6.2.2 支持行級更新    6.2.3 Hive事務支持的限制   6.3 Hive表分類   6.4 向Hive表裝載數據   6.5 建立數據庫表   6.6 裝載日期維度數據   6.7 小結 第7章 ?數據抽取?   7.1 邏輯數據映射   7.2 數據抽取方式   7.3 導出成文本文件   7.4 分布式查詢   7.5 使用Sqoop抽取數據    7.5.1 Sqoop簡介    7.5.2 cdH 5.7.0中的Sqoop    7.5.3 使用Sqoop抽取數據    7.5.4 Sqoop優化   7.6 小結 第8章 ?數據轉換與裝載?   8.1 數據清洗   8.2 Hive簡介    8.2.1 Hive的體系結構    8.2.2 Hive的工作流程    8.2.3 Hive服務器    8.2.4 Hive客戶端   8. Hive CLI和Beeline使用上的主要差別   8.3 初始裝載   8.4 定期裝載   8.5 Hive優化   8.6 小結 第9章 ?定期自動執行ETL作業?   9.1 crontab   9.2 Oozie簡介    9.2.1 Oozie的體系結構    9.2.2 cdH5.7.0中的Oozie   9.3 建立定期裝載工作流   9.4 建立協調器作業定期自動執行工作流   9.5 Oozie優化   9.6 小結 第10章 ?維度表技術?   10.1 增加列   10.2 維度子集   10.3 角色扮演維度   10.4 層次維度    10.4.1 固定深度的層次    10.4.2 遞歸    10.4.3 多路徑層次    10.4.4 參差不齊的層次   10.5 退化維度   10.6 雜項維度   10.7 維度合併   10.8 分段維度   10.9 小結 第11章 ?事實表技術?   11.1 事實表概述   11.2 週期快照   11.3 累積快照   11.4 無事實的事實表   11.5 遲到的事實   11.6 累積度量   11.7 小結 第12章 ?聯機分析處理?   12.1 聯機分析處理簡介    12.1.1 概念    12.1.2 分類    12.1.3 性能   12.2 Impala簡介   12.3 Hive、SparkSQL、Impala比較    12.3.1 Spark SQL簡介    12.3.2 Hive、Spark SQL、Impala比較    12.3.3 Hive、Spark SQL、Impala性能對比   12.4 聯機分析處理實例   12.5 Apache Kylin與OLAP    12.5.1 Apache Kylin架構    12.5.2 Apache Kylin安裝   12.6 小結 第13章 ?數據視覺化?   13.1 數據視覺化簡介   13.2 Hue簡介    13.2.1 Hue功能快速預覽    13.2.2 配置元數據存儲   13.3 Zeppelin簡介    13.3.1 Zeppelin架構    13.3.2 Zeppelin安裝配置    13.3.3 在Zeppelin中添加MySQL翻譯器   13.4 Hue、Zeppelin比較   13.5 數據視覺化實例   13.6 小結

图书序言

图书试读


Hadoop構建數據倉庫實踐 (電子書) epub 下载 mobi 下载 pdf 下载 txt 电子书 下载 2024


Hadoop構建數據倉庫實踐 (電子書) epub 下载 mobi 下载 pdf 下载 txt 电子书 下载 2024

Hadoop構建數據倉庫實踐 (電子書) pdf epub mobi txt 电子书 下载 2024




想要找书就要到 小特书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

用户评价

类似图书 点击查看全场最低价

Hadoop構建數據倉庫實踐 (電子書) pdf epub mobi txt 电子书 下载


分享链接





相关图书




本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

友情链接

© 2024 ttbooks.qciss.net All Rights Reserved. 小特书站 版权所有