Hadoop+Spark大数据巨量分析与机器学习整合开发实战 pdf epub mobi txt 电子书 下载 2024

图书介绍


Hadoop+Spark大数据巨量分析与机器学习整合开发实战

简体网页||繁体网页
著者
出版者 出版社:博硕 订阅出版社新书快讯 新功能介绍
翻译者
出版日期 出版日期:2015/11/03
语言 语言:繁体中文



点击这里下载
    


想要找书就要到 小特书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

发表于2024-12-22

类似图书 点击查看全场最低价

图书描述

◆技术为金融财务、行销分析、商业趋势预测带来全新的变革
◆详实的安装设定与程式编写说明降低学习入门门槛
◆可单机执行或以实机/虚拟机器建立多台演算阵列
◆具备大量实务案例分析与程式码范例实作


  大数据分析与机器学习人工智慧带来资讯科技革命的第五波新浪潮

  创新产业
  大量商机
  人才需求

  一般人可能会认为大数据需要很多台机器的环境才能学习,但是本书透过虚拟机器的方法,就能在自家电脑演练建立Hadoop丛集,并且建立Spark开发环境。

  以实机操作介绍Hadoop MapReduce与HDFS基本概念,以及Spark RDD与MapReduce基本观念。

  以大数据分析实务案例:MoiveLens(电影喜好推荐引擎)、StumbleUpon(网页二元分类)、CovType(林相土地演算)、Bike Sharing(Ubike类租赁预测分析)。

  配合范例程式码来介绍各种机器学习演算法,示范如何撷取资料、训练资料、建立模型、预测结果,由浅而深介绍Spark机器学习。

  大数据对每个领域都造成影响。在商业、经济及其他领域中,将大量资料进行分析后,就可得出许多资料关联性。可用于预测商业趋势、行销研究、金融财务、疾病研究、打击犯罪等。大数据对每一个公司的决策方式将发生变革-决策方式将基于资料和分析的结果,而不是依靠经验和直觉。

  资讯科技浪潮第一波是大型电脑,第二波是个人电脑,第三波是网路,第四波是社群媒体,第五波科技则是「大数据」。每一波的的资讯科技浪潮,总是带来工作与生活方式的改变,创造大量商机、新的产业、大量的工作机会。像是在网路时代,创造了Google、Amazon 等大公司,以及无数.com 公司。

  每一波浪潮开始时,需求的相关人才最多,但是此时也是相关人才供应最少。因此对个人而言,如果能在浪潮兴起时就投入,往往成果最丰硕,并且有机会占有重要职位。像是网路刚兴起时,每个公司都需要建立网站,但是相对这方面的人才不够。那时候能撰写网页相关程式语言的工程师就能够获得高薪。但是后来投入的人越来越多,这方面的工程师就没有那么吃香了。

  之前的科技浪潮,也许你没有机会躬逢其盛,或是没有机会在浪潮初期进入。但是大数据的浪潮方兴未艾,正是进入的好时机。根据IBM 调查预估,大数据目前的商机是71 亿美元,并将以每年增长20%速度持续成长,预计2015 年达到180 亿美元。机会是给有准备的人,学会了大数据分析的相关技能,让你有机会获得更好的薪资与发展前景。根据美国调查机构Robert Half Technology 2016 年趋势报告,在美国大数据工程师,薪水年成长8.9%,年薪大约13 万至18 万美金(约新台币429 万元~594 万元)。因为人才短缺,企业不惜重金挖角。(你可以在google 搜寻Robert Half Technology 2016 就可以下载此调查报告)

  本书的主题是Haddop+Spark大数据分析与机器学习。Hadoop 大家已经知道是运用最多的大数据平台,然而Spark 异军突起,与Hadoop 相容而且执行速度更快,各大公司也开始加入Spark 开发。例如IBM 加入Apache Spark 社群打算培育百万名资料科学家。Google 与微软也分别应用了Spark 的功能来建置服务、发展大数据分析云端与机器学习平台。这些大公司的加入,也意味着未来更多公司会採用Hadoop+Spark 进行大数据资料分析。

  然而目前市面上虽然很多大数据的书,但是多半偏向理论或应用层面的介绍,网路上的资讯虽然很多,但是也很杂乱。本书介绍希望能够用浅显易懂原理说明,再加上实机操作、范例程式,能够降低大数据技术的学习门槛,带领读者进入大数据与机器学习的领域。当然整个大数据的生态系非常庞大,需要学习的东西太多。希望读者能透过本书有了基本概念后,比较容易踏入这门领域,能继续深入研究其他大数据的相关技术。

著者信息

作者简介

林大贵


  作者从事IT产业多年,涉猎系统设计、网站开发、数位行销与商业智慧等多领域,具备丰富实务开发经验。
Hadoop+Spark大数据巨量分析与机器学习整合开发实战 pdf epub mobi txt 电子书 下载

图书目录

Chapter01 大数据与机器学习
1-1 大数据定义
1-2 Hadoop 简介
1-3 Hadoop HDFS 分散式档案系统
1-4 Hadoop MapReduce 介绍
1-5 Spark 介绍
1-6 机器学习介绍

Chapter02 Virtual Box 虚拟机器软体安装
2-1 VirtualBox 下载安装
2-2 设定Virtual Box 储存资料夹
2-3 在VirtualBox 建立虚拟机器

Chapter03 Ubuntu Linux 作业系统安装
3-1 下载Ubuntu 安装光碟档案
3-2 在Virtual Box 设定Ubuntu 虚拟光碟档案
3-3 开始安装Ubuntu
3-4 启动Ubuntu
3-5 安装Guest Additions
3-6 设定预设输入法
3-7 设定终端机程式
3-8 设定终端机白底黑字
3-9 设定共用剪贴簿

Chapter04 Hadoop Single Node Cluster 安装
4-1 安装JDK
4-2 设定SSH 无密码登入
4-3 下载安装Hadoop
4-4 设定Hadoop 环境变数
4-5 修改Hadoop 组态设定档
4-6 建立与格式化HDFS 目录
4-7 启动Hadoop
4-8 开启Hadoop Resource Manager Web 介面
4-9 NameNode HDFS Web 介面

Chapter05 Hadoop Multi Node Cluster 安装
5-1 复制Single Node Cluster 到data1
5-2 设定data1 伺服器
5-3 复制data1 伺服器至data2、data3、master
5-4 设定data2、data3 伺服器
5-5 设定master 伺服器
5-6 master 连线至data1、data2、data3 建立HDFS 目录
5-7 建立与格式化NameNode HDFS 目录
5-8 启动Hadoop Multi Node Cluster
5-9 开启Hadoop ResourceManager Web 介面
5-10 开启NameNode HDFS Web 介面

Chapter06 Hadoop HDFS 命令介绍
6-1 启动Hadoop Multi-Node Cluster
6-2 建立与查看HDFS 目录
6-3 从本机复制档案到HDFS
6-4 将HDFS 上的档案复制到本机
6-5 复制与删除HDFS 档案
6-6 Hadoop HDFS Web UI 介面浏览HDFS

Chapter07 Hadoop MapReduce 介绍
7-1 wordCount.java 介绍
7-2 编辑wordCount.java
7-3 编译wordCount.java
7-4 下载测试文字档
7-5 上传文字档至HDFS
7-6 执行wordCount.java
7-7 查看执行结果
7-8 Hadoop MapReduce 的缺点

Chapter08 Spark 安装介绍
8-1 SPARK 的cluster 模式架构图
8-2 Scala 介绍与安装
8-3 安装SPARK
8-4 启动spark-shell 互动介面
8-5 设定spark-shell 显示讯息
8-6 启动Hadoop
8-7 本机执行Spark-shell 程式
8-8 在Hadoop YARN 执行spark-shell
8-9 建置Spark standalone cluster 执行环境
8-10 在Spark standalone 执行spark-shell

Chapter09 Spark RDD 介绍
9-1 RDD 的特性
9-2 基本RDD「转换」运算
9-3 多个RDD「转换」运算
9-4 基本「动作」运算
9-5 RDD Key-Value 基本「转换」运算
9-6 多个RDD Key-Value「转换」运算
9-7 Key-Value「动作」运算
9-8 Broadcast 广播变数
9-9 accumulator 累加器
9-10 RDD Persistence 持久化
9-11 使用Spark 建立WordCount
9-12 Spark WordCount 详细解说

Chapter10 Spark 整合开发环境介绍
10-1 下载与安装Scala IDE
10-2 下载专案所需要的Library
10-3 启动eclipse
10-4 建立新Spark 专案
10-5 设定专案程式库
10-6 新增scala 程式
10-7 下载WordCount 测试资料
10-8 建立WordCount.scala
10-9 编译WordCount.scala 程式
10-10 执行WordCount.scala 程式
10-11 汇出jar 档
10-12 spark-submit 详细介绍
10-13 在本机local 模式执行WordCount 程式
10-14 在hadoop yarn-client 执行WordCount 程式
10-15 WordCount 程式在Spark Standalone Cluster 执行
10-16 本书范例程式安装说明

Chapter11 建立推荐引擎
11-1 推荐演算法介绍
11-2 「推荐引擎」大数据分析使用情境
11-3 ALS 推荐演算法介绍
11-4 ml-100k 推荐资料下载与介绍
11-5 使用spark-shell 汇入ml-100k 资料
11-6 查看汇入的资料
11-7 使用ALS.train 进行训练
11-8 使用模型进行推荐
11-9 显示推荐的电影的名称
11-10 建立Recommend 专案
11-11 Recommend.scala 程式码
11-12 建立PrepareData() 资料准备
11-13 recommend() 推荐程式码
11-14 执行Recommend.scala
11-15 建立AlsEv alution.scala 调校训练参数
11-16 建立PrepareData() 资料准备
11-17 进行训练评估
11-18 执行AlsEv aluation
11-19 修改Recommend.scala 为最佳参数组合

Chapter12 StumbleUpon 资料集介绍
12-1 StumbleUpon 资料集
12-2 下载StumbleUpon 资料
12-3 以LibreOffice Calc 试算表查看train.tsv
12-4 二元分类演算法

Chapter13 决策树二元分类
13-1 决策树介绍
13-2 建立Classi fication 专案
13-3 建立RunDecisionTreeBinary.scala 程式
13-4 资料准备阶段
13-5 训练评估阶段
13-6 预测阶段
13-7 执行RunDecisionTreeBinary.scala
13-8 修改RunDecisionTreeBinary 调校训练参数
13-9 RunDecisionTreeBinary 执行参数调校程式
13-10 RunDecisionTreeBinary 不执行参数调校程式

Chapter14 逻辑回归二元分类
14-1 逻辑回归分析介绍
14-2 RunLogisticRegressionWithSGDBinary.scala 程式说明
14-3 执行RunDecisionTreeRegression.scala 进行参数调校
14-4 执行RunDecisionTreeRegression.scala 不进行参数调校

Chapter15 支援向量机器SVM 二元分类
15-1 支援向量机器SVM 演算法基本概念
15-2 RunSVMWithSGDBinary.scala 程式说明
15-3 执行SVMWithSGD.scala 进行参数调校
15-4 执行SVMWithSGD.scala 不进行参数调校

Chapter16 单纯贝氏二元分类
16-1 单纯贝氏分析原理介绍
16-2 RunNaiveBayesBinary.scala 程式说明
16-3 执行NaiveBayes.scala 进行参数调校
16-4 执行NaiveBayes.scala 不进行参数调校

Chapter17 决策树多元分类
17-1 「森林覆盖树种」大数据问题分析情境
17-2 UCI Covertype 资料集介绍
17-3 下载与查看资料
17-4 建立RunDecisionTreeMulti.scala
17-5 修改RunDecisionTreeMulti.scala 程式
17-6 执行RunDecisionTreeMulti.scala 进行参数调校
17-7 执行RunDecisionTreeMulti.scala 不进行参数调校

Chapter18 决策树回归分析
18-1 Bike Sharing 大数据问题分析
18-2 Bike Sharing 资料集
18-3 下载与查看资料
18-4 建立RunDecisionTreeRegression.scala
18-5 修改RunDecisionTreeRegression.scala
18-6 执行RunDecisionTreeRegression.scala 执行参数调校
18-7 执行RunDecisionTreeRegression.scala 不执行参数调校

Chapter19 使用Apache Zeppelin 资料视觉化
19-1 Apache Zeppelin 介绍
19-2 安装Zeppelin 前的准备
19-3 Apache Zeppelin 安装
19-4 启动Apache Zeppelin
19-5 建立新的Notebook
19-6 使用Zeppelin 执行Shell 命令
19-7 建立暂存资料表「UserTable」
19-8 使用Zeppelin 执行年龄统计Spark SQL
19-9 使用Zeppelin 执行性别统计Spark SQL
19-10 依照职业统计
19-11 Spark SQL 加入文字方块输入参数
19-12 加入选项参数
19-13 Zeppelin 在firefox 浏览器使用的问题
19-14 同时显示多个统计栏位
19-15 工具列设定
19-16 设定段落标题
19-17 设定Paragraph 段落宽度
19-18 设定显示模式

图书序言

图书试读

None

Hadoop+Spark大数据巨量分析与机器学习整合开发实战 epub 下载 mobi 下载 pdf 下载 txt 电子书 下载 2024


Hadoop+Spark大数据巨量分析与机器学习整合开发实战 epub 下载 mobi 下载 pdf 下载 txt 电子书 下载 2024

Hadoop+Spark大数据巨量分析与机器学习整合开发实战 pdf epub mobi txt 电子书 下载 2024




想要找书就要到 小特书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

用户评价

类似图书 点击查看全场最低价

Hadoop+Spark大数据巨量分析与机器学习整合开发实战 pdf epub mobi txt 电子书 下载


分享链接





相关图书




本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

友情链接

© 2024 ttbooks.qciss.net All Rights Reserved. 小特书站 版权所有