大数据的下一步:用Spark玩转活用(第2版)

大数据的下一步:用Spark玩转活用(第2版) pdf epub mobi txt 电子书 下载 2025

图书标签:
  • 大数据
  • Spark
  • 数据分析
  • 数据挖掘
  • Python
  • 机器学习
  • 数据处理
  • 实时计算
  • 第2版
  • 技术
想要找书就要到 小特书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

适用:从事安防监控领域的应用开发和工程施工的技术人员。

名人推荐

  随着大数据时代的到来,企业资料每天都在急剧快速膨胀,如何发掘这些资料的价值,需要一种高效而稳定的分散式运算框架和模型。Spark恰逢其时,应运而生。本书对Spark进行详细的阐述,包括核心模组和各个子系统,能让Spark初学者快速了解和上手,是学习Spark的敲门砖,希望此书能让更多的读者去深入发掘Spark之美。~~淘宝技术部资料採撷与计算团队负责人 黄明(明风)

  Apache Spark由于其基于记忆体的高性能计算模式以及丰富灵活的程式设计介面,得到广泛的支援和应用,大有逐渐取代Hadoop MapReduce成为新一代大数据计算引擎的趋势。本书从原始程式码角度深入浅出地分析了Apache Spark及相关大数据技术的设计及实现,包含很多实战经验和使用心得。相信本书对于进行大数据、记忆体计算及分散式系统研究,Apache Spark的深入理解以及实际应用,都有很好的参考价值。~~英特尔亚太研发有限公司技术总监 段建刚

著者信息

作者简介

夏俊鸾


  现任阿里巴巴资料平台部高级技术专家,Apache Spark项目Committer,曾就职于英特尔亚太研发中心,微博帐号@Andrew-Xia。

刘旭晖

  现任蘑菇街资料平台资深架构师(花名天火),曾就职于英特尔亚太研发中心大资料软体部,Spark/Hadoop/Hbase/Phoenix 等众多大资料相关开源专案的积极贡献者。

邵赛赛

  英特尔亚太研发有限公司开发工程师,专注于大资料领域,现从事Spark相关工作,Spark代码贡献者。

程浩

  英特尔大资料技术团队软体工程师,Shark和Spark SQL活跃开发者,致力于SQL on Big Data的性能最佳化。

史鸣飞

  英特尔亚太研发有限公司大资料软体部工程师,专注于大资料领域,现在主要投身于Tachyon项目的开发。

黄洁

  目前就职于英特尔亚太研发中心大资料技术中心,担任高级软体工程师,是Apache Chukwa专案的PMC成员和Committer。

图书目录

前言

Chapter 01   Spark 系统概述
1.1 大数据处理架构
1.2 Spark 大数据处理架构
1.3 小结

Chapter 02   Spark RDD 及程式设计介面
2.1 Spark 程式"Hello World"
2.2 Spark RDD
2.3 建立操作
2.4 转换操作
2.5 控制操作(control operation)
2.6 行动操作(action operation)
2.7 小结

Chapter 03   Spark 执行模式及原理
3.1 Spark 执行模式概述
3.2 Local 模式
3.3 Standalone 模式
3.4 Local cluster 模式
3.5 Mesos 模式
3.6 YARN standalone / YARN cluster 模式
3.7 YARN client 模式
3.8 各种模式的实现细节比较
3.9 Spark 1.0 版本之后的变化
3.10 小结

Chapter 04   Spark 排程管理原理
4.1 Spark 作业排程管理概述
4.2 Spark 排程相关基本概念
4.3 作业排程模组顶层逻辑概述
4.4 作业排程实际工作流程
4.5 工作集管理模组详解
4.6 排程池和排程模式分析
4.7 其他排程相关内容
4.8 小结

Chapter 05   Spark 的储存管理
5.1 储存管理模组整体架构
5.2 RDD 持久化
5.3 Shuffle 资料持久化
5.4 广播(Broadcast)变数持久化
5.5 小结

Chapter 06   Spark 监控管理
6.1 UI 管理
6.2 Metrics 管理
6.3 小结

Chapter 07   Shark 架构与安装设定
7.1 Shark 架构浅析
7.2 Hive/Shark 各功能元件比较
7.3 Shark 安装设定与使用
7.4 Shark SQL 命令列工具(CLI)
7.5 使用Shark Shell 指令
7.6 启动SharkServer
7.7 Shark Server2 设定与启动
7.8 快取资料表
7.9 常见问题分析
7.10 小结

Chapter 08   SQL 程式扩充
8.1 程式扩充平行执行模式
8.2 Evaluator 和ObjectInspector
8.3 自订函数扩充
8.4 自订资料存取格式
8.5 小结

Chapter 09   Spark SQL
9.1 Spark SQL 逻辑架构
9.2 Catalyst 上下文(Context)
9.3 SQL DSL API
9.4 Java API
9.5 Python API
9.6 Spark SQL CLI
9.7 Thrift 服务
9.8 小结

Chapter10   Spark Streaming 串流资料处理架构
10.1 快速入门
10.2 Spark Streaming 基本概念
10.3 效能最佳化
10.4 容错处理
10.5 DStream 作业的产生和排程
10.6 DStream 与RDD 关系
10.7 资料接收原理
10.8 自订资料登录源
10.9 自订监控介面(StreamingListener)
10.10 Spark Streaming 案例分析
10.11 小结

Chapter 11   GraphX 计算架构
11.1 图型平行计算
11.2 GraphX 模型设计
11.3 GraphX 模型实现
11.4 GraphX 应用
11.5 小结

Chapter 12   Tachyon 储存系统
12.1 设计原理
12.2 架构设计
12.3 Tachyon 的部署
12.4 Tachyon 应用
12.5 相关专案讨论
12.6 小结

图书序言

推荐序

  2009 年的时候,Netflix 公司举办了一个叫作Netflix Prize 的推荐演算法比赛。这个比赛匿名公佈了Netflix 五十万使用者对近两万部电影的一亿个评分资料,希望参赛者能够开发出更好的推荐演算法,以加强推荐系统的品质。这个比赛的奖金有一百万美金,看似很多,但和一个更好的推荐演算法为Netflix 带来的效益相比,实则九牛一毛。

  丰厚的奖金和Netflix 提供的真实资料吸引不少的参赛者,其中也包含了来自加州大学柏克莱分校(UC Berkeley)的博士生Lester Mackey。Lester 师从机器学习领域泰斗Michael Irwin Jordan,在一个AMPLab 的大数据实验室里进行博士研究。AMPLab 和大多数学术界实验室不同的地方,在于实验室内由多名教授和他们带领的学生一起合作,研究人员来自不同的领域,包含机器学习、资料库、电脑网路、分散式系统等。当时,要想加强演算法研究反覆运算的效率,需要利用多台机器的分散式建模。在尝试当时业界最流行的HadoopMapReduce 后,Lester 发现自己的时间并不是花在加强演算法效率上,而是耗费在MapReduce 的程式设计模型和低效的执行模式上。因此,他向实验室另一名进行分散式系统研究的学生Matei Zaharia 求助。

  当时年纪轻轻的Matei 在业界已经小有名望。他在雅虎和Facebook 实习期间做了很多Hadoop 早期的奠基工作,包含现今Hadoop 系统内应用最广的fair scheduler 排程演算法。在和Lester 的脑力激盪中,Matei 归纳了Hadoop MR的不足,开始设计第一个版本的Spark。这个版本完全是为Lester 订制,只有几百行的程式,却让Lester 可以高效率地进行分散式机器学习建模。

  Lester 所在的The Ensemble 团队最后和BellKor's Pragmatic Chaos 设计了在效率上并列第一的演算法,可惜因为晚20 分钟送出,与一百万美金奖金失之交臂。5 年后,Lester 和Matei 都变成了学术界和业界杰出的人物。Lester 成为史丹佛大学电脑系的教授,带领学生攻克一个又一个机器学习和统计的难题。Matei 成为麻省理工电脑系的教授,也是Databricks 公司的CTO。

  2009 年之后的4 年里,AMPLab 以Spark 为基础展开很多不同的学术研究专案,其中包含了Shark 和GraphX,还有Spark Streaming、MLlib 等。4 年里随着Hadoop 的发展,Spark 也逐渐从一个纯学术研究专案发展到开始有业界敢尝鲜的使用者。

  2013 年, 包含Matei 和我在内的Spark 核心人员共同创立Databricks 公司,立志于加强Spark 的速度发展。过去两年,Spark 的发展超越了我们所有人的想像。一年半以前Spark 还是一个连监控介面都不存在的系统,很难放进生产线部署。而一年半后的今天,它已经变成整个大数据生态圈和Apache Software Foundation 内最活跃的专案,活跃程度远远超出了曾经只能望其项背的Hadoop。

  很多高科技和网际网路公司也都有了Spark 的生产作业,不少使用者直接减少在Hadoop MapReduce 上的投资,把新的专案都传输到Spark 上。

  今天正好是Databricks 公司成立一年半,也是Spark 1.2 版本第一个release candidate 发佈的日期。Spark 的高速发展导致中文资讯的脱节。这本书深入浅出地介绍Spark 和Spark 上多个重要计算架构,希望它的问世可以更进一步地普及Spark,增进Spark 社区的发展。

辛湜 Reynold Xin
Berkeley, CA

图书试读

用户评价

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 ttbooks.qciss.net All Rights Reserved. 小特书站 版权所有