大数据时代的资料库处理:Spark SQL亲自动手做(热销版)

大数据时代的资料库处理:Spark SQL亲自动手做(热销版) pdf epub mobi txt 电子书 下载 2025

图书标签:
  • 大数据
  • Spark SQL
  • 数据处理
  • 资料库
  • 动手实践
  • 技术
  • 编程
  • 热销
  • 数据分析
  • SQL
想要找书就要到 小特书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

全书分为4篇,共9章,第一篇讲解Spark SQL 发展历史和开发环境搭建。第二篇讲解Spark SQL 实例,帮助读者掌握Spark SQL的入门操作,了解Spark RDD、DataFrame和DataSet,并熟悉 DataFrame 各种操作。第三篇讲解基于WiFi探针的商业大数据分析专案,实例中包含资料获取、预处理、存储、利用Spark SQL 挖掘资料,一步步带领读者学习Spark SQL强大的资料採撷功能。第四篇讲解Spark SQL 最佳化的知识。

  适用:Spark初学者、Spark资料分析人员以及Spark程式开发人员,也可作为大专院校和培训机构等相关专业的师生教学参考。

本书特色

  Spark SQL是 Spark大数据框架的一部分,支援使用标准SQL查询和HiveQL来读写资料,可用于结构化资料处理,并可以执行类似SQL的Spark资料查询,有助于开发人员更快地建置和执行Spark程式。

著者信息

作者简介

纪涵


  资料採撷、云计算爱好者,曾负责多个中小型网站的开发维护工作,参与开发设计多款面向校园服务的App,与多个基于Hadoop、Spark平台的大数据应用,现主要研究方向为机器学习、资料採撷。
 

图书目录

第一部分 入门篇
1初识Spark SQL   
1.1  Spark SQL的前世今生
1.2  Spark SQL能做什么
2 Spark安装、程式设计环境架设以及包装传送
2.1  Spark的简易安装
2.2  准备撰写Spark应用程式的IDEA环境
2.3  将撰写好的Spark应用程式套件装成jar传送到Spark上

第二部分 基础篇
3 Spark上的RDD程式设计
3.1  RDD基础
3.2  RDD简单实例—wordcount  
3.3  建立RDD      
3.4  RDD操作
3.5  向Spark传递函数
3.6  常见的转化操作和行动操作
3.7  深入了解RDD       
3.8  RDD 快取、持久化
3.9  RDD checkpoint容错机制
4 Spark SQL程式设计入门
4.1  Spark SQL概述
4.2  Spark SQL程式设计入门范例
5 Spark SQL的DataFrame操作大全
5.1  由JSON档案产生所需的DataFrame物件
5.2  DataFrame上的行动操作
5.3  DataFrame上的转化操作
6 Spark SQL支援的多种资料来源
6.1  概述
6.2  典型结构化资料来源

第三部分 实作篇
7 Spark SQL 工程实战之以WiFi探针为基础的商业大数据分析技术
7.1  功能需求
7.2  系统架构
7.3  功能设计
7.4  资料库结构
7.5  本章小结
8 第一个Spark SQL应用程式
8.1  完全分散式环境架设
8.2  资料清洗
8.3  资料处理流程
8.4  Spark程式远端侦错
8.5  Spark的Web介面
8.6  本章小结

第四部分 最佳化篇
9 让Spark程式再快一点
9.1  Spark执行流程
9.2  Spark记忆体简介
9.3  Spark的一些概念
9.4  Spark程式设计四大守则
9.5  Spark最佳化七式
9.6  解决资料倾斜问题
9.7  Spark 执行引擎Tungsten 简介
9.8  Spark SQL解析引擎Catalyst 简介
9.9  本章小结

 

图书序言

前言

  我们处于一个资料爆炸的时代!

  大量涌现的智慧型手机、平板、可穿戴装置及物联网装置每时每刻都在产生新的资料,然而带来革命性变革的并非巨量资料本身,而是我们如何从这些资料中採撷到有价值的资讯,来辅助我们做出更加智慧的决策。我们知道,在生产环境下,所谓的大数据常常是由数千万笔、上亿笔具有多个预先定义栏位的资料单元组成的资料集,是不是很像传统关联式资料库的二维资料表呢?那么我们是否也能找到一个像SQL 查询那样简便的工具来高效率地分析处理大数据领域中的巨量结构化资料呢?没错,这个工具就是Spark SQL。

  Spark SQL 是Spark 用来操作结构化资料的进阶模组,在程式中透过引用SparkSQL 模组,我们便可以像从前在关联式资料库利用SQL(结构化查询语言)分析关联式资料库表一样简单快速地在Spark 大数据分析平台上对巨量结构化资料进行快速分析,而Spark 平台隐藏了底层分散式储存、计算、通讯的细节以及作业解析、排程的细节,使开发者仅需关注如何利用SQL 进行资料分析的程式逻辑就可以方便地操控丛集来分析我们的资料。

  本书内容
  础篇、实作篇、最佳化篇,所有程式均採用简洁而优雅的Scala 语言撰写,Spark 架构也是使用Scala 语言撰写的。

  第一部分 入门篇(第1、2 章)
  第1 章简介Spark 的诞生、Spark SQL 的发展历史以及Spark SQL 的用处等内容,让读者快速了解Spark SQL 背景知识,为以后的学习奠定基础。

  第2 章透过说明Spark SQL 开发环境的架设、Spark 作业的包装传送、常见问题的解答,并结合大量图示,让读者快速掌握开发环境的架设以及传送应用程式到丛集上,为后面章节的学习奠定坚实的基础。

  第二部分 基础篇(第3、4、5、6 章)
  第3 章是真正开始学习Spark SQL 必要的先修课,详尽地介绍Spark 架构对资料的核心抽象--RDD(弹性分散式资料集)的各方面。先介绍与RDD 相关的基本概念,例如转化操作、行动操作、惰性求值、快取,说明的过程伴随着丰富的范例,加强读者对RDD 的了解与RDD 程式设计基础。在说明RDD 中基础内容的同时,又深入地剖析了疑点、困难,例如RDD Lineage(RDD 相依关系图)、向Spark 传递函数、对闭包的了解等。在之前对基本类型RDD 的学习基础上,又引用了对特殊类别RDD-- 键值对RDD 的大致介绍,在键值对RDD介绍中对combineByKey 操作的说明,深入地从程式实现的角度洞悉了Spark分散式运算的实质,帮助对RDD 具有浓厚兴趣的读者做进一步的扩充。最后,站在RDD 设计者的角度重新检查RDD 快取、持久化、checkpoint 机制,进一步诠释RDD 为什么能够极佳地适应大数据分析业务的特点,有天然强大的容错性、易恢复性和高效性。

  第4 章对Spark 进阶模组--Spark SQL, 也就是本书的主题, 进行简明扼要的概述,并说明对应的Spark SQL 程式设计基础。先是透过与前一章所学的Spark 对资料的核心抽象--RDD 的比较,引出Spark SQL 中核心的资料抽象--DataFrame,说明两者的异同,点明Spark SQL 是针对结构化资料处理的进阶模组的原因,在于其内建丰富结构资讯的资料抽象。后一部分透过丰富的范例说明如何利用Spark SQL 模组来程式设计的主要步骤,举例来说,从结构化资料来源中建立DataFrames、DataFrames 基本操作以及执行SQL 查询等。

  第5、6 章属于Spark SQL 程式设计的进阶内容,也是我们将Spark SQL 应用于生产、科学研究计算环境下,真正开始分析多类别资料来源、实现各种复杂业务需求必须要掌握的知识。第5 章,以包含简单且典型的学生资讯表的JSON 档案作为资料来源,深入对DataFrame 丰富强大的API 进行研究,以操作说明加范例的形式涵盖DataFrame 中每一个常用的行动、转化操作,进而帮助读者轻松高效率地组合使用DataFrame 所提供的API 来实现业务需求。第6章,介绍Spark SQL 可处理的各种资料来源,包含Hive 表、JSON 和Parquet档案等,从广度上让读者了解Spark SQL 在大数据领域对典型结构化资料来源的皆可处理性,进一步让读者真正在工作中掌握一种结构化资料的分析利器。

  第三部分 实作篇(第7、8 章)
  第7 章透过说明大型商业实例专案(以WiFi 探针为基础的商业大数据分析技术)的功能需求、系统架构、功能设计、资料库结构,帮助读者了解如何在实际开发中应用Spark SQL 处理结构化资料,加强读者的工程思维,同时为第8章的学习做好准备。

  第8 章透过说明分散式环境架设以及专案程式的解析,帮助读者进一步了解Spark SQL 应用程式的执行过程,在后一部分介绍Spark SQL 程式的远端侦错方法和Spark 的Web 介面,帮助读者更加方便地了解程式的执行状态。

  第四部分 最佳化篇(第9 章)
  最佳化篇由第9 章组成,本篇从Spark 的执行流程到记忆体以及工作的划分,再到Spark 应用程式的撰写技巧,接着到Spark 本身的最佳化,最后引出资料倾斜的解决想法,层层递进,逐步解析Spark 的最佳化思想。最后,以对Spark 执行引擎Tungsten 与Spark SQL 的解析引擎Catalyst 的介绍作为本部分的结尾。笔者将在本篇中带领读者掌握Spark 的最佳化方式以及思想,让Spark 程式再快一点。
  
  繁体中文版注意事项
  为维持原作者内容,本书部分画面会保留原作者之简体中文介面,请读者自行参照内文对照。
  
  本书适合读者
  本书适合于学习资料採撷、有巨量结构化资料分析需求的大数据从业者及同好阅读,也可以作为大专院校相关科系的教材。建议在学习本书内容的过程中,理论结合实务,独立进行一些程式的撰写,採取开放式的实验方法,即读者自行准备实验资料和实验环境,解决实际问题,最后达到理论结合实务的目的。

  本书在写作过程中获得家人以及编辑的大力支持,在此对他们一併表示感谢。本书由纪涵(负责基础篇的撰写)主笔,其他参与着作的还有靖晓文(负责实作篇的撰写)、赵政达(负责入门篇、最佳化篇的撰写),排名不分先后。
 

图书试读

用户评价

评分

刚拿到这本《大数据时代的资料库处理:Spark SQL亲自动手做(热销版)》,迫不及待地翻阅起来。这本书的封面设计就相当吸引人,那种科技感与厚重感并存的风格,瞬间点燃了我对大数据探索的热情。我一直对Spark SQL在处理海量数据方面的能力感到好奇,尤其是在实际工作中,面对复杂的数据查询和分析任务时,总觉得传统数据库的效率有些捉襟见肘。这本书的出现,就像一盏指路明灯,让我看到了在Spark SQL这个强大的工具下,如何更高效、更灵活地驾驭数据。我特别关注书中关于SQL语法在Spark环境下的应用,以及如何优化查询性能的部分。毕竟,光有强大的工具,如果使用不当,也难以发挥其最大效用。希望书中能有丰富的实战案例,让我能够边学边练,真正地把知识转化为解决实际问题的能力。读完前言,作者那种深入浅出的讲解风格就让我对接下来的内容充满了期待。

评分

我是一名在校的计算机科学专业的学生,目前正在接触大数据相关的课程。老师在课堂上提到了Spark,但很多概念都比较抽象,我一直希望能找到一本既有理论深度又不失实践指导的书籍。《大数据时代的资料库处理:Spark SQL亲自动手做(热销版)》这个书名就非常契合我的学习目标。我对书中关于Spark SQL与Hadoop生态系统的结合部分特别感兴趣,想了解它们是如何协同工作的。同时,我也关注书中关于分布式SQL查询的优化策略,因为在处理大规模数据集时,效率是至关重要的。我希望能通过这本书,不仅理解Spark SQL的基本语法和操作,更能学习到一些高级技巧,比如如何处理半结构化数据、如何进行数据联邦查询等等。这本书的“亲自动手做”部分,也让我充满期待,希望书中能提供一些可以直接下载和运行的代码,让我能够亲身体验Spark SQL的强大之处,并为我将来的毕业设计打下坚实的基础。

评分

作为一名数据分析师,每天都在与各种各样的数据打交道。数据的规模日益庞大,对分析工具的要求也越来越高。Spark SQL这个名字早已如雷贯耳,但一直苦于没有系统性的学习途径。这本《大数据时代的资料库处理:Spark SQL亲自动手做(热销版)》恰好满足了我的需求。我最期待的部分是书中关于Spark SQL的架构原理和核心组件的讲解。只有理解了其底层运作机制,才能更好地掌握它的强大之处,并在实际应用中做出更明智的选择。书中提到的“亲自动手做”更是让我眼前一亮,这意味着书中会有大量的代码示例和练习题,这对于我这种喜欢动手实践的学习者来说,简直是福音。我希望通过这本书,能够掌握Spark SQL在ETL、数据仓库构建、即席查询等方面的应用,最终提升我的数据处理和分析效率,为我的职业发展添砖加瓦。

评分

平时的工作涉及大量的数据存储和管理,最近公司开始引入Spark技术,我作为其中的一员,肩负着学习和实践的重任。《大数据时代的资料库处理:Spark SQL亲自动手做(热销版)》这本书的出现,为我提供了一个非常好的学习平台。我非常看重书中关于Spark SQL在实际生产环境中的应用场景的描述,例如如何与现有数据仓库整合,如何在数据湖上进行查询等。我希望通过这本书,能够理解Spark SQL的执行计划是如何生成的,以及如何通过调整参数来优化查询性能。书中提到的“热销版”也暗示了这本书受到了广泛的认可,相信内容一定很扎实。我期待书中能有详细的步骤指导,带领我一步步地完成各种数据处理任务,从而快速掌握Spark SQL这项关键技能,更好地适应公司的技术转型。

评分

我是一个对新技术充满好奇的技术爱好者,尤其对大数据和人工智能领域抱有浓厚的兴趣。《大数据时代的资料库处理:Spark SQL亲自动手做(热销版)》这个书名,一下子就抓住了我的眼球。我对书中关于Spark SQL在不同数据源上的查询能力非常感兴趣,例如如何直接查询HDFS、S3、Kafka中的数据,以及如何与Hive、HBase等传统大数据组件集成。我更希望书中能包含一些关于Spark SQL在实时数据流处理方面的应用,因为这在当前大数据应用中越来越普遍。这本书的“亲自动手做”理念,让我相信它不仅仅是一本理论书籍,更是一本实践指南,我期待能通过书中的案例,真正地掌握Spark SQL,并将其应用到我的个人项目或者开源社区的贡献中,体验大数据带来的无限可能。

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 ttbooks.qciss.net All Rights Reserved. 小特书站 版权所有