Apache Kylin 大数据入门

Apache Kylin 大数据入门 pdf epub mobi txt 电子书 下载 2025

图书标签:
  • Apache Kylin
  • 大数据
  • OLAP
  • 数据分析
  • 数据仓库
  • Hadoop
  • Spark
  • BI
  • 实时分析
  • 入门
想要找书就要到 小特书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

本书全面介绍Apache Kylin,内容包含:

  ●环境架设、范例演练、原始程式分析、Cube最佳化⋯⋯等。
  ●资料仓储、资料模型、OLAP、资料立方体⋯⋯等方面的相关知识。
  ●系统性学习与实战操作,使读者能够架设以Apache Kylin为基础的企业级大数据分析平台。
  ●熟练使用Apache Kylin多维度分析巨量资料,并透过视觉化工具展现结果。

  适用:大数据技术初学者;大数据分析人员、架构师等;亦适合Hadoop、HBase、Hive和Kylin等相关从业人员。

本书特色

  ●Apache Kylin为第一个由华人团队完整贡献至Apache的专案。
  ●作者为业界知名的Apache Kylin专家,本书为其多年的技术累积与实战精华。
  ●内容浅显易懂、实作性强大,是目前第一本系统性介绍Kylin的实作书籍。
  ●Apache Kylin为开放原始码的分散式储存引擎,提供Hadoop上的SQL查询介面及多维分析能力以支援大规模资料。

 

著者信息

作者简介

蒋守壮


  现就职于万达网路科技集团有限公司,资深大数据工程师,大数据实践者。曾任平安科技资深大数据分析师和架构师,CSDN社区专家,知识库特约编辑。目前专注于Docker、Kubernetes、Mesos、Hadoop、Spark以及Kylin等技术领域。

图书目录

第一部分  Apache Kylin基础部分
Chapter 01  Apache Kylin前世今生
1.1  Apache Kylin的背景
1.2  Apache Kylin的应用场景
1.3  Apache Kylin的发展历程

Chapter 02  Apache Kylin前奏
2.1  事实表和维表
2.2  星型模型和雪花型模型
2.3  OLAP
2.4  资料立方体(Data Cube)

Chapter 03  Apache Kylin工作原理和系统架构
3.1  Kylin工作原理
3.2  Kylin系统架构
3.3  Kylin中的核心部分:Cube建构
3.4  Kylin的SQL查询
3.5  Kylin的特性和生态圈

Chapter 04  架设CDH大数据平台
4.1  系统环境和安装套件
4.2  准备工作:系统环境架设
4.3  正式安装CDH:准备工作
4.4  正式安装CDH5:安装设定

Chapter 05  使用Kylin建构企业大数据分析平台的四种部署方式
5.1  Kylin部署的架构
5.2  Kylin的四种典型部署方式

Chapter 06  单独为Kylin部署HBase丛集

Chapter 07  部署Kylin丛集环境
7.1  部署Kylin的先决条件
7.2  部署Kylin丛集环境
7.3  为Kylin丛集架设负载平衡器
 
第二部分  Apache Kylin进阶部分
Chapter 08  Demo案例实战
8.1  Sample Cube案例描述
8.2  Sample Cube案例实战

Chapter 09  多维分析的Cube建立实战
9.1  Cube模型
9.2  建立Cube的流程

Chapter 10  Build Cube的来龙去脉
10.1  流程分析
10.2  小结
 
第三部分  Apache Kylin进阶部分
Chapter  11 Cube最佳化

Chapter  12 备份KylinMetadata
12.1  Kylin的中继资料
12.2  备份中继资料
12.3  恢复中继资料

Chapter 13  使用Hive视图
13.1  使用Hive视图
13.2  使用视图实战

Chapter 14  Kylin的垃圾清理
14.1  清理中继资料
14.2  清理记忆体资料

Chapter 15  JDBC 存取方式

Chapter 16  透过RESTful存取Kylin

Chapter 17  Kylin版本之间升级
17.1  从1.5.2升级到最新版本1.5.3
17.2  从1.5.1升级到1.5.2版本
17.3  从Kylin 1.5.2.1升级到Kylin 1.5.3实战
17.4  补充内容

Chapter 18  大数据视觉化实作
18.1  视觉化工具简述
18.2  安装Kylin ODBC驱动
18.3  透过Excel存取Kylin
18.4  透过Power BI存取Kylin
18.5  透过Tableau存取Kylin
18.6  Kylin + Mondrian + Saiku
18.7  实战演练:透过Saiku存取Kylin
18.8  透过Apache Zepplin存取Kylin
18.9  透过Kylin的"Insight"查询

Chapter 19  使用Streaming Table建构准即时Cube

Chapter 20  快速资料立方演算法
20.1  快速资料立方演算法概述
20.2  快速资料立方演算法优点和缺点
20.3  取得Fast Cubing演算法的优势
 
第四部分  Apache Kylin的扩充部分
Chapter 21  大数据智慧分析平台KAP
21.1  大数据智慧分析平台KAP概述
21.2  KAP的安装部署

图书序言

推荐序一

韩卿
Kyligence联合创始人兼CEO
Apache Kylin专案管理委员会主席(PMC Chair)


  Apache Kylin将传统的资料仓储及商务智慧分析能力带入到大数据时代,作为新兴的技术已被广大使用者所使用。身为创始者,我非常欣喜能看到关于Apache Kylin相关书籍的出版,这无疑对使用者更进一步地使用Kylin,解决实际大数据分析架构及业务问题有很大的帮助。

推荐序二

杨正洪
武汉市云升科技发展有限公司董事长


  因为RDBMS很难处理单表10亿行资料,所以大数据技术应需而生。大数据技术从最初解决巨量资料的快速储存和读取,到现今巨量资料的OLAP,当中衍生出许多的技术产品,Apache Kylin就是其中的优秀产品,目标是解决大数据范围中的OLAP。
第二大主轴为大数据思维。资料处理的最近几十年都被RDBMS的思想所束缚,小表、多表、表的连接、过分注重容错性的坏处,等等,这些都限制了巨量资料上的处理与分析。大数据技术出来之后,随之而来的大数据想法,所带来了巨量资料处理的新思维。这个新思维的核心就是突破表的概念,而採用物件导向的资料模型在资料层上实现。Apache Kylin的Cube模型就是在逐步表现大数据的思维。

  最后一条主轴为大数据实作。大数据实作分为资料整理、资料建模、资料获取、资料控管、资料服务、资料视觉化和资料分析。这是环环相扣的步骤,不能跳过。Apache Kylin作为资料分析环节的技术产品,一定要与资料管理的优秀产品相结合,才能充分发挥出分析的功效。

  蒋守壮是业界知名的Apache Kylin专家。本书浅显容易、实作性强,是目前Apache Kylin界不可多得的技术资料,值得细读和研究。

推荐序三

龚少成
万达网路科技集团大数据中心副总经理
《Spark进阶资料分析》中文版译者


  Apache Kylin是一个大数据领域真正进入全球主流应用的开放原始码专案。作为软体开发的骄傲之作,市面上却缺少一本系统性介绍该专案的书籍。

  万达科技集团大数据中心蒋守壮同学在专案诞生之初就一直追踪Kylin的进展,深入研究专案的技术原理,并将其运用在许多实际专案中。无论您是大数据技术同好,抑或您正在考虑引用Kylin这样杰出的大数据处理工具,本书都将是您很好的参考指南!

推荐序四

贾传青
资料架构师,IT脱口秀(清风那个吹)创始人


  Apache Kylin是以MOLAP为基础的即时大数据引擎,与Hadoop生态系统结合更加紧密,先天的优势註定了其支援更大的资料规模、更好的扩充性,独有的华人中文血统较其他开放原始码软体更具当地语系化优势。本书包含了守壮多年的实作经验,系统化全面性介绍了Apache Kylin技术,值得推荐。
 
推荐序五

项同德
平安科技(深圳)有限公司高级经理


  Apache Kylin是以大数据技术为基础的一种OLAP实现,其根据OLAP原理、利用MapReduce架构建置CUBE,并将预计算结果储存在HBase中,实现多维分析和查询的秒级回应。Apache Kylin虽属于MOLAP范围,但还是有别于传统的MOLAP,它充分利用了Hadoop分散式运算的精髓,是分散式OLAP(DOLAP:Distributed OLAP)的实作方式,在TB、PB级资料集上体现出卓越的效能表现,自开放原始码以来就备受各界关注。

  作为一位技术达人,蒋守壮依靠自身深厚的技术功力,结合实际工作对Kylin做了许多研究工作。从各种部署环境的架设、实际工作案例开发测试到各种问题的分析及解决,作者深入分析了Kylin的原始程式码,也给Kylin社区回馈了很多缺失,被Kylin社区确认并在新的版本中加以增强。本书即是蒋守壮对自己研究工作的归纳和昇华,是目前第一本系统介绍Kylin的实用书籍。

推荐序六

万文兵
万达网路科技集团有限公司大数据资深专案经理


  目前在企业级市场上主流的BI产品有Oracle的BIEE、IBM的Cognos、SAP的BO等,这些产品主要是以传统为基础的关系型资料进行报表开发和资料分析,虽然可以透过加强伺服器效能来提升资料处理的能力,但受限于其本身的架构,在处理大数据(TB级及以上)上就显得缓慢,而Kylin是一款专为大数据而生的开放原始码产品。相对于传统大厂商主导的BI产品,Kylin是一个开放原始码的分散式分析引擎,提供Hadoop之上的SQL查询介面及多维分析(OLAP)能力以支援超大规模资料,其最初由eBay公司开发并贡献至开放原始码社区,它能在微秒内查询极大的Hive表,并且在不断地增强和进化。

  Kylin作为Apache顶级专案,在社区备受推崇,但一直缺少一本实用、可操作的技术书籍让普通的开发人员将其部署实施,应用于企业的发展,产生经济价值。蒋守壮的这本书系统而全面地介绍了Kylin的架构、架设及应用,能让有一定技术功力的人员,快速实施部署,对于目前苦于大数据处理的人员来讲,无疑是久旱逢甘霖。

  蒋守壮一直专注于大数据的研究和应用,技术出色,尤其是擅长解决各种疑难问题。这本书融合了作者多年的技术累积和实战经验,相信对您,无论是学习还是实战都大有益处。

 

图书试读

用户评价

评分

这本书就像一本指引我探索浩瀚大数据世界的地图,虽然我尚未深入到Apache Kylin的具体技术细节,但光是这本书的标题就足以让我充满好奇与期待。它勾勒出了一个清晰的学习路径,从“大数据”这个宏观的概念入手,逐步引导读者走向Apache Kylin这个具体而强大的工具。我设想,这本书会从大数据的基本概念、发展历程、核心挑战等方面展开,为初学者构建一个扎实的基础知识框架。就像在建造一座高楼之前,必须先打好地基一样,这本书显然将大数据领域的“地基”——概念、术语、关键技术——一一呈现。我对书中如何解释“大数据”这个模糊但至关重要的概念尤为感兴趣,是会侧重于数据量、多样性、速度,还是价值?它又将如何介绍构建大数据生态系统的关键组件,例如Hadoop、Spark等,让我在脑海中形成一个初步的立体认知?这些都是我期待在这本书中找到答案的。

评分

这本书的标题“Apache Kylin 大数据入门”给我的第一印象是:这是一本能够帮助我快速理解和掌握核心大数据技术的实践指南。我尚未阅读书中的具体章节,但标题本身就传递了一种“从零开始”的信号,让我这种对大数据技术仅有模糊认识的人感到安心。我猜测,书中会首先建立起对大数据基本概念的理解,例如什么是数据仓库、什么是数据湖,以及在大数据环境下,数据存储、处理和分析面临的挑战。接着,它会自然地引出Apache Kylin,并详细阐述它的核心架构、工作原理以及在实际应用中的优势。我特别期待书中能有案例分析,展示Kylin如何被应用于金融、电商、物联网等不同行业,解决实际的分析难题。这种理论与实践相结合的模式,能让我更好地理解Kylin的价值和应用场景。

评分

对于一个刚刚踏入大数据领域的新人来说,“入门”二字是如此的亲切和鼓舞人心。这本书的标题“Apache Kylin 大数据入门”仿佛为我指明了一条清晰的道路,让我不再感到无从下手。我能想象,这本书会从最基础的概念讲起,一步步引导我理解什么是大数据,为什么我们需要大数据技术,以及在大数据领域有哪些主流的技术栈。它可能会介绍Hadoop的HDFS、MapReduce,以及Spark的RDD、DataFrame等核心概念,为我构建一个初步的认知模型。然后,自然而然地,它会将Apache Kylin这个强大的预计算引擎引入进来,解释它在整个大数据分析流程中扮演的角色,以及它如何能够极大地提升查询性能。我期待书中能够用简单易懂的语言,配合图示和代码示例,让我能够真正理解这些抽象的技术概念。

评分

读到“Apache Kylin”这个名字,我就知道这是一本关于如何驾驭海量数据、实现高效分析的宝典。我尚未接触到书中的具体内容,但从标题就能感受到作者想要为读者打开一扇通往实时OLAP分析世界的大门。我猜想,这本书一定能够教会我如何克服传统数据库在处理海量数据时的瓶颈,如何通过预计算和多维立方体技术,将原本耗时数小时甚至数天的查询,缩短到毫秒级别。这种对性能的极致追求,正是大数据分析领域最吸引人的地方之一。我希望这本书能够用生动形象的例子,解释OLAP的原理,以及Apache Kylin在其中的核心作用。例如,它会如何描述一个电商平台的销售数据分析场景,展示Kylin如何帮助我们快速聚合销量、利润、用户画像等维度的数据,从而支持业务决策?这种理论与实践相结合的讲解方式,对我这样的新手来说至关重要。

评分

我关注这本书的标题“Apache Kylin 大数据入门”,是因为我一直对大数据分析充满兴趣,但常常被各种复杂的技术术语和概念所困扰。这本书的出现,无疑为我提供了一个绝佳的学习契机。我猜想,这本书会首先普及大数据领域的基本知识,例如数据爆炸的现状,以及传统分析工具的局限性。然后,它会很自然地将Apache Kylin作为一个解决方案引入,讲解它如何通过多维立方体和预计算技术,实现超高速的OLAP查询。我特别期待书中能够清晰地解释OLAP(在线分析处理)和OLTP(在线事务处理)的区别,以及Kylin在OLAP领域的强大之处。此外,我也希望书中能够包含一些关于如何构建和管理Kylin Cube的实际指导,让我能够了解从数据源到最终分析报告的全过程。

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 ttbooks.qciss.net All Rights Reserved. 小特书站 版权所有