挑战大数据:Facebook、Google、Amazon怎么处理Big Data?用NoSQL搞定每年100颗硬碟资料(二版) pdf epub mobi txt 电子书 下载 2025
图书介绍
☆☆☆☆☆
简体网页||
繁体网页
著者
出版者 出版社:佳魁资讯 订阅出版社新书快讯 新功能介绍
翻译者
出版日期 出版日期:2015/03/23
语言 语言:繁体中文
下载链接在页面底部
点击这里下载
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
发表于2025-01-26
类似图书 点击查看全场最低价
图书描述
◎NoSQL 不是产品,而是一个当红的概念,为云端时代不间断资料的储存基础
◎NoSQL 不是 No SQL,而是 Not Only SQL,不但保留了 SQL 的高逻辑性,更加上了分散式架构的强项
◎传统关联式资料库(SQL)已存在30年,再面对全球每年100亿颗硬碟的增长量已完全无法承载负担
◎使用 NoSQL,用成千上万的廉价 PC,就能保存及处理大数据,随时扩充,不怕电脑当机
◎介绍全球目前当红的各个 NoSQL,Cassendra (Facebook 使用)、BigTable(Google使用)、Redis(Flickr及新浪使用)
面对全球每年将近100亿颗资料的成长,大数据的资料处理早已成为显学。随着大数据的概念兴起,各行各业也面临到保存各种资料的难题。资料的保存不只是 保存而已,还必须成为资料仓储(Data Warehouse)、资料分析、全文检索、行为预测等功能的基础。在传统的关联式资料库(Oracle、MySQL、SQL Server)已老态龙钟,或是需要高成本的伺服器来执行时,NoSQL 类的资料挟其水平扩充性(Scale out),使用一般PC就可扩充其功能的优势,逐渐成为全球新宠。NoSQL 这个新兴的观念,已成为云端时代的基本知识,本书可让你快速上手大数据及 NoSQL,帮你成为云端时代最性感行业(Sexiest Industry)的一员!
适合:对资料库知识有一定了解者、或有较好的程式设计基础和阅读程式的能力、有一定Linux作业系统的基础知识者
著者信息
挑战大数据:Facebook、Google、Amazon怎么处理Big Data?用NoSQL搞定每年100颗硬碟资料(二版) pdf epub mobi txt 电子书 下载
图书目录
前言
01 概论
1.1 引子
1.2 巨量资料挑战
1.3 巨量资料的储存和管理
1.3.1 平行资料库
1.3.2 NoSQL资料管理系统
1.3.3 NewSQL资料管理系统
1.3.4 云端资料管理
1.4 巨量资料的处理和分析
1.5 小结
参考文献
02 资料一致性理论
2.1 CAP理论
2.2 资料一致性模型
2.3 ACID与BASE
2.4 资料一致性实现技术
2.4.1 Quorum系统NRW策略
2.4.2 两阶段传送协定
2.4.3 时间戳记策略
2.4.4 Paxos
2.4.5 向量时钟
2.5 小结
参考文献
03资料储存模型
3.1 总论
3.2 键值储存
3.2.1 Redis
3.2.2 Dynamo
3.3 列式储存
3.3.1 Bigtable
3.3.2 Cassandra与HBase
3.4 文件储存
3.4.1 MongoDB
3.4.2 CouchDB
3.5 图形储存
3.5.1 Neo4j
3.5.2 GraphDB
3.6 小结
参考文献
04 资料分区与放置策略
4.1 分区的意义
4.1.1 为什么要分区
4.1.2 分区的优点
4.2 范围分区
4.3 列表分区
4.4 杂凑分区
4.5 三种分区的比较
4.6 放置策略
4.6.1 一致性杂凑演算法
4.6.2 容错性与可扩充性分析
4.6.3 虚拟节点
4.7 小结
参考文献
05 巨量资料处理方法
5.1 MapReduce简介
5.2 MapReduce资料流程
5.3 MapReduce资料处理
5.3.1 传送作业
5.3.2 初始化作业
5.3.3 分配工作
5.3.4 执行工作
5.3.5 更新工作执行进度和状态
5.3.6 完成作业
5.4 Dryad简介
5.4.1 DFS Cosmos介绍
5.4.2 Dryad执行引擎
5.4.3 DryadLINQ解释引擎
5.4.4 DryadLINQ程式设计
5.5 Dryad资料处理步骤
5.6 MapReduce vs Dryad
5.7 小结
参考文献
06 资料复制与容错技术
6.1 巨量资料复制的作用和代价
6.2 巨量资料复制的策略
6.2.1 Dynamo的复写原则
6.2.2 CouchDB的复写原则
6.2.3 PNUTS的复写原则
6.3 巨量资料的故障发现与处理
6.3.1 Dynamo的故障发现与处理
6.3.2 CouchDB的故障发现与处理
6.3.3 PNUTS的故障发现与处理
6.4 小结
参考文献
07 资料压缩技术
7.1 资料压缩原理
7.1.1 资料压缩的定义
7.1.2 资料为什么可以压缩
7.1.3 资料压缩分类
7.2 传统压缩技术[1]
7.2.1 霍夫曼编码
7.2.2 LZ77演算法
7.3 巨量资料带来的3V挑战
7.4 Oracle混合列压缩
7.4.1 仓库压缩
7.4.2 归档压缩
7.5 Google资料压缩技术
7.5.1 寻找长的重复串
7.5.2 压缩演算法
7.6 Hadoop压缩技术
7.6.1 LZO简介
7.6.2 LZO原理[5]
7.7 小结
参考文献
08 快取技术
8.1 分散式快取简介
8.1.1 分散式快取的产生
8.1.2 分散式快取的应用
8.1.3 分散式快取的效能
8.1.4 衡量可用性的标准
8.2 分散式快取的内部机制
8.2.1 生命期机制
8.2.2 一致性机制
8.2.3 直接读取与直接写入机制
8.2.4 查询机制
8.2.5 事件触发机制
8.3 分散式快取的拓扑结构
8.3.1 复制式拓扑
8.3.2 分割式拓扑
8.3.3 用户端快取拓扑
8.4 小结
参考文献
09 key-value资料库
9.1 key-value模型综述
9.2 Redis
9.2.1 Redis概述
9.2.2 Redis下载与安装
9.2.3 Redis入门操作
9.2.4 Redis在业内的应用
9.3 Voldemort
9.3.1 Voldemort概述
9.3.2 Voldemort下载与安装
9.3.3 Voldemort设定
9.3.4 Voldemort开发介绍[3]
9.4 小结
参考文献
10 Column-Oriented资料库
10.1 Column-Oriented资料库简介
10.2 Bigtable资料库
10.2.1 Bigtable资料库简介
10.2.2 Bigtable资料模型
10.2.3 Bigtable基础架构
10.3 Hypertable资料库
10.3.1 Hypertable简介
10.3.2 Hypertable安装
10.3.3 Hypertable架构
10.3.4 Hypertable中的基本概念和原理
10.3.5 Hypertable的查询
10.4 Cassandra资料库
10.4.1 Cassandra简介
10.4.2 Cassandra设定
10.4.3 Cassandra资料库的连接
10.4.4 Cassandra丛集机制
10.4.5 Cassandra的读/写机制
10.5 小结
参考文献
11 文件资料库
11.1 文件资料库简介
11.2 CouchDB资料库
11.2.1 CouchDB简介
11.2.2 CouchDB安装
11.2.3 CouchDB入门
11.2.4 CouchDB查询
11.2.5 CouchDB的储存结构
11.2.6 SQL和CouchDB
11.2.7 分散式环境中的CouchDB
11.3 MongoDB资料库
11.3.1 MongoDB简介
11.3.2 MongoDB的安装
11.3.3 MongoDB入门
11.3.4 MongoDB索引
11.3.5 SQL与MongoDB
11.3.6 MapReduce与MongoDB
11.3.7 MongoDB与CouchDB比较
11.4 小结
参考文献
12 图型资料库
12.1 图型资料库的由来及基本概念
12.1.1 图型资料库的由来
12.1.2 图型资料库的基本概念
12.2 Neo4j图型资料库
12.2.1 Neo4j简介
12.2.2 Neo4j使用教学
12.2.3 分散式Neo4j — Neo4j HA
12.2.4 Neo4j工作机制及优缺点浅析
12.3 GraphDB
12.3.1 GraphDB简介
12.3.2 GraphDB的整体架构
12.3.3 GraphDB的资料模型
12.3.4 GraphDB的安装
12.3.5 GraphDB的使用
12.4 OrientDB
12.4.1 背景
12.4.2 OrientDB是什么
12.4.3 OrientDB的原理及相关技术
12.4.4 Windows下OrientDB的安装与使用
12.4.5 相关Web应用
12.5 三种图型资料库的比较
12.5.1 特征比较表
12.5.2 分散式模式及应用比较
12.6 小结
参考文献
13 以Hadoop为基础的资料管理系统
13.1 Hadoop简介
13.2 HBase
13.2.1 HBase系统结构
13.2.2 HBase资料模型
13.2.3 HBase的安装和使用
13.2.4 HBase与RDBMS
13.3 Pig
13.3.1 Pig的安装和使用
13.3.2 Pig Latin语言
13.3.3 Pig实例
13.4 Hive
13.4.1 Hive的资料储存
13.4.2 Hive的中继资料储存
13.4.3 安装Hive
13.4.4 HiveQL简介
13.4.5 Hive的网路介面(WebUI)
13.4.6 Hive的JDBC介面
13.5 小结
参考文献
14 NewSQL资料库
14.1 NewSQL资料库简介
14.2 MySQL Cluster
14.2.1 概述
14.2.2 MySQL Cluster的层次结构
14.2.3 MySQL Cluster的优势和应用
14.2.4 巨量资料处理中的sharding技术
14.2.5 单机环境下MySQL Cluster的安装
14.2.6 MySQL Cluster的分散式安装与设定指导
14.3 VoltDB
14.3.1 传统关联式资料库与VoltDB
14.3.2 VoltDB的安装与设定
14.3.3 VoltDB元件
14.3.4 Hello World
14.3.5 使用Generate指令稿
14.3.6 Eclipse整合开发
14.4 小结
参考文献
15 分散式快取系统
15.1 Memcached快取技术
15.1.1 背景介绍
15.1.2 Memcached快取技术的特点
15.1.3 Memcached安装[3]
15.1.4 Memcached中的资料操作
15.1.5 Memcached的使用
15.2 Microsoft Velocity分散式快取系统
15.2.1 Microsoft Velocity简介
15.2.2 资料分类
15.2.3 Velocity核心概念
15.2.4 Velocity安装
15.2.5 一个简单的Velocity用户端应用
15.2.6 扩充型和可用性
15.3 小结
参考文献
16 企业应用
16.1 Instagram
16.1.1 Instagram如何应对资料的急剧增长
16.1.2 Instagram的资料分割策略
16.2 Facebook对Hadoop以及HBase的应用
16.2.1 工作负载型态
16.2.2 为什么採用Apache Hadoop和HBase
16.2.3 即时HDFS
16.2.4 Hadoop HBase的实现
16.3 淘宝巨量资料解决之道
16.3.1 淘宝资料分析
16.3.2 淘宝巨量资料挑战
16.3.3 淘宝OceanBase资料库
16.3.4 淘宝将来的工作
16.4 小结
参考文献
图书序言
图书试读
None
挑战大数据:Facebook、Google、Amazon怎么处理Big Data?用NoSQL搞定每年100颗硬碟资料(二版) epub 下载 mobi 下载 pdf 下载 txt 电子书 下载 2025
挑战大数据:Facebook、Google、Amazon怎么处理Big Data?用NoSQL搞定每年100颗硬碟资料(二版) epub 下载 mobi 下载 pdf 下载 txt 电子书 下载 2025
挑战大数据:Facebook、Google、Amazon怎么处理Big Data?用NoSQL搞定每年100颗硬碟资料(二版) pdf epub mobi txt 电子书 下载 2025
用户评价
类似图书 点击查看全场最低价
挑战大数据:Facebook、Google、Amazon怎么处理Big Data?用NoSQL搞定每年100颗硬碟资料(二版) pdf epub mobi txt 电子书 下载