大数据时代:资料库系统实作与案例分析(附光碟)

大数据时代:资料库系统实作与案例分析(附光碟) pdf epub mobi txt 电子书 下载 2025

图书标签:
  • 大数据
  • 资料库系统
  • 实作
  • 案例分析
  • 数据库
  • 数据分析
  • 信息管理
  • 技术
  • 计算机
  • 光碟
想要找书就要到 小特书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

本书作者精心汇整大数据分析工作所需的理论知识、系统开发,程式撰写与建立模型之实务经验,以资料库实作为主轴,导引出大数据之应用和未来方向;由资料分析、资料仓储到资料探勘,皆有周详的说明与释例,让读者一目了然,在观念结构的建立上能更有效率的掌握,并举列案例让读者透过案例分析,而能对资料库的概念有更深一层的体会。

  书中并完整介绍一些常用和知名套件如何撰写、使用以及对跑出的结果如何进行解读,例如:如何利用wordcloud套件绘制文字云、Arules 套件 apriori 进行关联规则分析、stats套件 kmeans 进行集群分析、C50 套件 C5.0 进行决策树分析、stats 套件 glm 和RevoScaleR 套件 rxLogit进行罗吉斯回归分析等,相信对于有志成为资料科学家的初学者而言,本书绝对是一本绝佳的入门书籍。

  ※本书架构:

  1. 第一、二、三、五章:主要介绍关联式资料库中进阶技巧,以检视表为开端,接续单元介绍索引技术、交易管理和可程式性物件,让读者建立在处理大量结构化资料时能更有效率的观念与基础。

  2. 第四章:介绍 ADO.NET 资料库程式设计,让读者从无到有建置一个小型资讯系统专案,建立对于资讯系统开发之认识,以及提升程式撰写的能力。

  3. 第六章:介绍资料仓储与资料探勘,对于监督式学习或非监督式学习相关知识有一定程度的了解。

  4. 第七章:介绍 SQL Server 2016 版才有的新功能,也是微软致力于大数据分析的解决方案,主要提供资料科学家能够透过原先所熟悉的 R 语言,不论是在交谈式介面中透过SQL Server R Services直接撰写 R 脚本指令进行资料分析,或是在 Visual Studio.NET 中透过R Tools for Visual Studio或 Microsoft R Client 的安装,在原有 Visual Studio开发环境撰写 R 指令从事各种机器学习,进行关联、分类、集群和预测的工作。

  书附光碟内容
  1.Microsoft SQL Server 2016 范例资料库
  2.SQLServer2016

本书特色

  1. 以资料库的实作为主轴,详述大数据的应用和未来方向。
  2. 详尽说明资料分析、仓储与探勘等课题。
  3. 举列实际案例且循序引导,进而培养对资料库的概念。
  4. 常用套件、知名套件之介绍、撰写、解读说明与范例。
  5. 对有志成为资料科学家的初学者而言,本书绝对是一本绝佳的入门书籍。
数据驱动的未来:现代信息架构与实践指南 本书聚焦于信息时代的基石——数据管理与处理的现代范式,深入探讨如何构建、维护和优化支撑复杂业务与科学研究的数据系统。 我们将带领读者穿越传统数据库的局限,迈入一个以海量、多样化数据为核心的全新信息架构领域。 本书旨在为计算机科学专业学生、数据工程师、系统架构师以及所有希望深入理解数据生命周期管理的技术人员提供一套全面且实用的知识体系。我们不局限于单一工具或技术栈,而是从数据哲学的演进、系统设计的核心原则出发,构建一个宏观且深入的认知框架。 --- 第一部分:数据存储范式的演进与基础理论 本部分将追溯信息存储技术的历史脉络,清晰界定传统关系模型(RDBMS)的优势与局限,并引入现代分布式系统的基本设计思想。 第一章:从关系模型到 NoSQL 的思想碰撞 本章首先回顾了 Codd 关系代数的核心概念,特别是 ACID 事务的重要性及其在现代高并发场景下的挑战。我们将详细分析 OLTP (在线事务处理) 与 OLAP (在线分析处理) 的本质区别,为后续引入非关系型数据模型奠定理论基础。 事务的权衡: 深入探讨 BASE 理论(基本可用性、软状态、最终一致性)与 ACID 的适用场景对比。 数据模型的多元化: 介绍键值存储、文档数据库、列族数据库和图数据库的内在结构、数据组织方式及其在特定业务场景中的性能优势。例如,阐述文档数据库如何自然映射面向对象的设计,以及列族存储如何优化写入密集型应用。 第二章:分布式系统的基础:一致性、可用性与分区容错性 (CAP) CAP 定理是理解现代数据系统的基石。本章将不再停留在概念介绍,而是深入探讨实现不同 CAP 权衡的具体技术方案。 一致性模型的细化: 区分强一致性、会话一致性、最终一致性、因果一致性等多种模型,并结合 ZooKeeper、etcd 等分布式协调服务的工作原理,展示如何通过 Paxos 或 Raft 算法来达成共识。 数据分区策略 (Sharding): 探讨水平分区与垂直分区的差异,重点分析一致性哈希 (Consistent Hashing) 算法,它如何在节点动态增减时最大程度地减少数据迁移和系统中断。 --- 第二部分:高性能数据管道与实时处理架构 本部分将转向数据如何在系统中高效流动、被清洗和被实时利用,构建面向业务决策的动态数据基础设施。 第三章:消息队列:构建异步通信的骨干网络 消息队列(Message Queues)是解耦微服务和实现高吞吐量系统的关键组件。本章将聚焦于如何设计健壮的消息传递系统。 可靠性设计: 讨论消息的“至少一次”与“恰好一次”语义的实现难度,包括死信队列 (DLQ)、消息确认机制 (Acknowledgement) 与幂等性处理。 流处理的核心概念: 引入事件驱动架构 (EDA) 的思想,讲解生产者/消费者模型在实时数据流中的应用,以及如何利用消息队列进行流量削峰和系统弹性伸缩。 第四章:流式计算引擎:时间窗与状态管理 实时性要求使得批处理模型逐渐转向流处理。本章详细剖析现代流式计算框架的内部机制。 时间语义的挑战: 区分事件时间 (Event Time)、摄入时间 (Ingestion Time) 和处理时间 (Processing Time),并重点讲解水印 (Watermarking) 技术如何解决乱序数据对准确计算的影响。 状态管理的艺术: 流处理中状态的维护至关重要。我们将分析如何使用 RocksDB 或内存数据库作为内部状态存储,以及如何实现增量计算和快照恢复,确保系统故障后的数据一致性。 --- 第三部分:数据仓库与分析系统设计 本部分关注如何将海量业务数据转化为可被深入洞察的分析资产,侧重于面向 BI (商业智能) 和复杂查询优化的技术。 第五章:面向分析的存储引擎:列式存储的威力 传统行存数据库难以应对复杂的聚合查询。本章深入探讨列式存储 (Columnar Storage) 的原理及其带来的革命性性能提升。 压缩与编码技术: 详细介绍字典编码 (Dictionary Encoding)、运行长度编码 (RLE) 等技术如何显著降低存储空间和 I/O 负载。 向量化执行: 讲解向量化处理 (Vectorized Execution) 如何利用 CPU 缓存和 SIMD 指令集,实现远超传统迭代模型的查询性能。 第六章:MPP 架构与查询优化器原理 大规模并行处理 (MPP) 架构是现代数据仓库的核心。本章揭示 MPP 系统的执行模型和查询优化的内部机制。 分布式查询规划: 分析查询优化器如何基于成本模型(I/O 成本、CPU 成本)生成最优的执行计划,包括数据广播、数据混洗 (Shuffle) 和 Join 策略的选择(如 Hash Join、Merge Join)。 索引策略的升级: 探讨位图索引 (Bitmap Index) 和 Z 序 (Z-order) 排序等技术如何提升高维数据过滤的效率,这是传统 B 树索引难以有效应对的场景。 --- 第四部分:数据治理与安全实践 一个强大的数据系统必须是可信赖和合规的。本部分关注数据生命周期中的质量、安全与可维护性。 第七章:数据质量保证与元数据管理 数据治理的基础在于对数据“是什么”和“从哪里来”有清晰的认识。 数据血缘 (Data Lineage): 阐述如何自动追踪数据流向,从源头到最终报告的每一步转换,这对于审计和故障排查至关重要。 质量检查框架: 介绍如何在数据摄入和转换管道中嵌入自动化数据质量检查点,包括缺失值、格式校验和业务规则验证。 第八章:安全、隐私与合规性实现 在数据密集型应用中,安全是不可妥协的前提。 数据脱敏与假名化: 深入讨论不同级别的隐私保护技术,如 k-匿名化、l-多样性,以及如何安全地对敏感数据进行标记化 (Tokenization)。 访问控制的精细化: 讲解基于角色的访问控制 (RBAC) 之外,如何利用基于属性的访问控制 (ABAC) 实现行级和列级的数据安全策略,确保只有授权用户才能看到其权限范围内的数据子集。 --- 本书的结构设计旨在提供一个从底层理论到顶层架构实践的完整学习路径,帮助读者构建起一个面向未来数据挑战的、高性能、高可靠性的信息处理系统。

著者信息

图书目录

Chapter 0 大数据时代导读

Chapter 1 视界

1.1 视界的优点
1.2 视界的缺点
1.3 视界的种类
1.4 使用「Management Studio」建立检视表
1.4.1 建立行列子集视界
1.4.2 建立联结视界
1.4.3 建立统计摘要视界
1.5 使用「Management Studio」修改检视表
1.5.1 使用检视规则更新
1.5.2 使用系结至结构描述
1.6 使用「Management Studio」删除检视表
1.7 使用「T-SQL 指令」建立检视表
1.7.1 建立行列子集视界
1.7.2 建立联结视界
1.7.3 建立统计摘要视界
1.8 使用「T-SQL 指令」修改检视表
1.8.1 使用检视规则更新:WITH CHECK OPTION
1.8.2 使用系结至结构描述:WITH SCHEMABINDING
1.8.3 将检视表加密:WITH ENCRYPTION
1.9 使用「T-SQL 指令」编辑检视表的资料
1.9.1 在检视表中新增一笔资料
1.9.2 修改检视表中的资料
1.9.3 删除检视表中的资料
1.10 使用「T-SQL 指令」删除检视表
1.11 习题

Chapter 2 索引
2.1 主索引
2.2 丛集索引
2.3 次索引
2.4 多层索引
2.5 密集索引和稀疏索引
2.6 使用「Management Studio」建立索引
2.7 使用「Management Studio」修改索引
2.7.1 是否忽略重复的索引键
2.7.2 是否设定填满因数
2.8 使用「Management Studio」删除索引
2.9 使用「T-SQL 指令」建立索引
2.10 使用「T-SQL 指令」修改索引
2.10.1 是否忽略重复的索引键:IGNORE_DUP_KEY
2.10.2 是否设定填满因数:FILLFACTOR
2.11 使用「T-SQL 指令」删除索引
2.12 习题

Chapter 3 交易管理和并行控制
3.1 交易管理
3.1.1 交易的 ACID 四大特性
3.1.2 交易状态
3.2 为何需要并行控制
3.3 排程的循序性
3.3.1 如何测试非序列排程的正确性
3.3.2 优先次序图
3.4 并行控制的方法
3.4.1 锁定法
3.4.1.1 二位元锁定
3.4.1.2 共享 / 互斥锁定
3.4.1.3 两阶段锁定法
3.4.1.3.1 发生死结的条件
3.4.1.3.2 死结预防
3.4.1.3.3 死结侦测
3.4.1.3.4 饥饿问题
3.4.2 时间戳记法
3.5 使用「T-SQL 指令」执行交易
3.5.1 BEGIN TRANSACTION
3.5.2 COMMIT TRANSACTION
3.5.3 COMMIT WORK
3.5.4 ROLLBACK TRANSACTION
3.5.5 ROLLBACK WORK
3.5.6 SAVE TRANSACTION
3.5.7 交易的架构
3.5.8 巢状交易
3.5.9 分散式交易
3.5.9.1 如何启动分散式交易协调器 (MSDTC) 服务
3.5.9.2 如何新增一个连结伺服器
3.5.9.3 BEGIN DISTRIBUTED TRANSACTION
3.5.10 交易的隔离等级
3.5.11 资料锁定
3.5.11.1 乐观和悲观的并行控制
3.5.11.2 资料锁定的种类
3.5.11.2.1 锁定的对象
3.5.11.2.2 锁定的方法
3.5.11.2.3 意图式锁定
3.5.11.2.4 各种锁定的共存性
3.5.12 锁定的死结问题
3.6 习题

Chapter 4 VB.NET 2015 资料库系统实作
4.1 ADO.NET简介
4.1.1 .NET Data Provider
4.1.1.1 Connection 物件
4.1.1.2 Command 物件
4.1.1.3 DataReader 物件
4.1.1.4 DataAdapter 物件
4.1.2 DataSet 物件
4.1.2.1 DataTable 物件
4.1.2.2 DataColumn 物件
4.1.2.3 Constraint 物件
4.1.2.4 DataRelation 物件
4.1.2.5 DataRow 物件
4.1.2.6 DataView 物件
4.2 建立资料库系统专案
4.2.1 「使用者登入」实作
4.2.1.1 使用者介面设计
4.2.1.2 编写程式码
4.2.2 「EM01员工资料维护」实作
4.2.2.1 使用者介面设计
4.2.2.2 编写程式码
4.2.3 样板表单设计
4.2.3.1 使用者介面设计
4.2.3.2 编写程式码
4.2.3.3 加入 .NET Framework 元件至工具箱
4.2.4 「EM02 员工资料维护」实作
4.2.4.1 套用继承的表单
4.2.4.2 建立资料库连线
4.2.4.3 建立资料配接器
4.2.4.3.1 建立「da员工」资料配接器
4.2.4.3.2 建立「da员工1」资料配接器
4.2.4.3.3 建立「da部门」资料配接器
4.2.4.3.4 建立「da员工电话」资料配接器
4.2.4.3.5 建立「da员工眷属」资料配接器
4.2.4.4 建立「dsEM02」资料集
4.2.4.5 使用者介面设计
4.2.4.6 编写程式码
4.2.5 「DE01 部门资料维护」实作
4.2.5.1 套用继承的表单
4.2.5.2 建立资料库连线
4.2.5.3 建立资料配接器
4.2.5.3.1 建立「da部门」资料配接器
4.2.5.3.2 建立「da员工」资料配接器
4.2.5.4 建立「dsDE01」资料集
4.2.5.5 使用者介面设计
4.2.5.6 编写程式码
4.2.6 「PR01 计划资料维护」实作
4.2.6.1 套用继承的表单
4.2.6.2 建立资料库连线
4.2.6.3 建立资料配接器
4.2.6.3.1 建立「da计划」资料配接器
4.2.6.3.2 建立「da部门」资料配接器
4.2.6.4 建立「dsPR01」资料集
4.2.6.5 使用者介面设计
4.2.6.6 编写程式码
4.2.7 「JO01 员工参加计划」实作
4.2.7.1 套用继承的表单
4.2.7.2 建立资料库连线
4.2.7.3 建立资料配接器
4.2.7.3.1 建立「da参加」资料配接器
4.2.7.3.2 建立「da员工」资料配接器
4.2.7.4 建立「dsJO01」资料集
4.2.7.5 使用者介面设计
4.2.7.6 编写程式码
4.2.8 「选择计划代号」实作
4.2.8.1 新增空白的表单
4.2.8.2 建立资料库连线
4.2.8.3 建立「da计划」资料配接器
4.2.8.4 建立「dsSelectPID」资料集
4.2.8.5 使用者介面设计
4.2.8.6 编写程式码
4.2.9 「JO02 计划参加员工」实作
4.2.9.1 套用继承的表单
4.2.9.2 建立资料库连线
4.2.9.3 建立资料配接器
4.2.9.3.1 建立「da参加」资料配接器
4.2.9.3.2 建立「da计划」资料配接器
4.2.9.4 建立「dsJO02」资料集
4.2.9.5 使用者介面设计
4.2.9.6 编写程式码
4.2.10 「选择身分证号码」实作
4.2.10.1 新增空白的表单
4.2.10.2 建立资料库连线
4.2.10.3 建立「da员工」资料配接器
4.2.10.4 建立「dsSelectEID」资料集
4.2.10.5 使用者介面设计
4.2.10.6 编写程式码
4.3 习题

Chapter 5 SQL Server 可程式性物件
5.1 规则物件
5.1.1 使用「T-SQL 指令」建立「规则」物件
5.1.2 使用「T-SQL 指令」系结资料行
5.1.3 使用「T-SQL 指令」系结「使用者定义资料类型」
5.1.4 使用「T-SQL 指令」解除资料行之间的系结
5.1.5 使用「T-SQL 指令」解除「使用者定义资料类型」之间的系结
5.1.6 使用「T-SQL 指令」删除「规则」物件
5.1.7 使用「Management Studio」系结「使用者定义资料类型」
5.1.8 使用「Management Studio」解除「使用者定义资料类型」之间的系结
5.1.9 使用「Management Studio」删除「规则」物件
5.2 预设值物件
5.2.1 使用「T-SQL 指令」建立「预设值」物件
5.2.2 使用「T-SQL 指令」系结资料行
5.2.3 使用「T-SQL 指令」解除资料行之间的系结
5.2.4 使用「T-SQL 指令」删除「预设值」物件
5.2.5 使用「Management Studio」系结资料行
5.2.6 使用「Management Studio」解除资料行之间的系结
5.2.7 使用「Management Studio」删除「预设值」物件
5.3 预存程序物件
5.3.1 使用预存程序的优点
5.3.2 预存程序的种类
5.3.3 SQL Server 流程控制语言
5.3.4 使用「Management Studio」建立「预存程序」物件
5.3.5 使用「Management Studio」执行「预存程序」物件
5.3.6 使用「Management Studio」删除「预存程序」物件
5.3.7 使用「T-SQL 指令」建立「预存程序」物件
5.3.8 使用「T-SQL 指令」执行「预存程序」物件
5.3.9 使用「T-SQL 指令」删除「预存程序」物件
5.3.10 何谓 SQL Injection 资料隐码攻击
5.3.10.1 含有 SQL Injection 弱点之「使用者登入」表单
5.3.10.2 如何防范 SQL Injection 攻击
5.4 触发程序物件
5.4.1 DML 触发程序
5.4.1.1 使用 DML 触发程序的目的
5.4.1.2 DML 触发程序的类型
5.4.1.3 使用「Management Studio」建立「DML 触发程序」物件
5.4.1.4 使用「Management Studio」删除「DML 触发程序」物件
5.4.1.5 使用「T-SQL 指令」建立「DML 触发程序」物件
5.4.1.6 使用「T-SQL 指令」停用「DML 触发程序」物件
5.4.1.7 使用「T-SQL 指令」启用「DML 触发程序」物件
5.4.1.8 使用「T-SQL 指令」删除「DML 触发程序」物件
5.4.2 DDL 触发程序
5.4.2.1 使用 DDL 触发程序的目的
5.4.2.2 使用「T-SQL 指令」建立「DDL 触发程序」物件
5.4.2.3 使用「T-SQL 指令」删除「DDL 触发程序」物件
5.5 习题

Chapter 6 资料仓储与资料探勘
6.1 资料仓储简介
6.1.1 资料库与资料仓储的差别
6.1.1.1 OLTP 和 OLAP
6.1.1.2 资料仓储的特性
6.1.1.3 资料库与资料仓储之比较
6.1.2 资料仓储架构
6.1.2.1 资料预处理
6.1.2.2 多维度资料模型
6.1.2.2.1 资料方块
6.1.2.2.2 事实表与维度表
6.1.2.2.3 星状纲目与雪花纲目
6.1.2.3 OLAP 线上分析处理
6.1.2.3.1 OLAP 的资料储存方式
6.1.2.3.2 OLAP 的操作方式
6.2 资料探勘简介
6.2.1 资料探勘的定义
6.2.2 资料探勘和 OLAP 的差别
6.2.3 资料探勘专案标准流程 CRISP-DM
6.2.4 资料探勘的功能
6.2.4.1 决策树
6.2.4.1.1 ID3 和 C4.5 决策树
6.2.4.1.2 CART 决策树
6.2.4.1.3 CHAID 决策树
6.2.4.2 贝氏分类器
6.2.4.3 关联规则
6.2.4.4 序列规则
6.2.4.5 集群分析
6.2.4.5.1 阶层式集群
6.2.4.5.2 非阶层式集群
6.3 习题

Chapter 7 大数据分析与应用
7.1 大数据简介
7.1.1 大数据的定义
7.1.2 大数据的资料特性
7.1.3 大数据的应用
7.1.3.1 古代大数据应用案例
7.1.3.2 现代大数据应用案例
7.1.4 大数据 V.S. 资料科学家
7.1.5 微软大数据分析解决方案
7.2 SQL Server R Services
7.2.1 如何启用外部脚本指令
7.2.2 如何在 SQL Server 中执行 R Script 指令
7.2.3 如何利用 R Script 指令将资料写入 SQL Server 资料表
7.2.4 如何利用 R Script 指令读取 SQL Server 资料表中资料
7.2.5 如何查询 R Service已安装的 R 套件清单
7.2.6 R Service 如何下载和安装新的套件
7.2.7 下载和安装 SSMSBoost 外挂元件
7.2.8 如何利用 SSMSBoost 显示文字云绘图结果
7.3 R Tools for Visual Studio
7.3.1 建置R Tools for Visual Studio整合开发环境
7.3.2 准备分析的资料
7.3.3 建立 R 语言专案
7.3.4 建立资料来源新增资料库连线
7.3.5 Arules 套件 apriori 关联规则分析
7.3.6 stats套件 kmeans 集群分析
7.3.7 C50 套件 C5.0 决策树分析
7.4 Microsoft R Client
7.4.1 安装 Microsoft R Client
7.4.2 在 R Tools for Visual Studio 检视 R Engine 目录
7.4.3 stats 套件 glm 罗吉斯回归分析
7.4.4 RevoScaleR 套件 rxLogit 罗吉斯回归分析
7.5 习题

图书序言

大数据时代导读

  不论资讯科技如何演进,从大型主机 (Mainframe)、主从式 (Client-Server)、三阶层 (Three-tier) 架构,乃至于现今大众耳熟能详的云端运算、行动APP、社群媒体、物联网等应用模式,亘古不变的是「资料」依旧成为企业营运的核心命脉,毕竟没资料就没价值 (No data, no value)。随着云端运算盛行,Hadoop框架中的HDFS (Hadoop Distributed File System) 让大量资料得以分散式储存、MapReduce则是让大量资料得以分散式计算,借由大量储存和快速运算等两大特性,让大数据分析得以实现。平心而论,大数据并不是一个新议题,经过这些年各大媒体争相报导,企业也逐渐从模煳的概念、争相理解,到最后认同大数据的实用价值,思虑如何导入应用,冀望能辅助公司决策更加精准。

  这些年来大多数企业也都学会如何利用「资料」来创造「价值」,这些企业透过线上分析处理(On-Line Analytical Processing,OLAP) 或是资料探勘 (Data Mining) 等技术,将平常赖以为生的 ERP、SCM 或 CRM 等各式各样资料库系统所衍生的大量资料加以分析,取得有助于未来营运方向的决策数据。近年来,除了将企业内部关联式资料库中各个资料表等结构化资料的进行分析之外,许多企业更将资料分析的触角延伸到企业外部诸如:电子报新闻报导、社群网站留言和回文、物联网感测器纪录,冀望借由文字探勘 (Text Mining) 技术,将这些非结构化资料加以分析,尝试创造出新的价值,以面对这瞬息万变的广大市场,大数据分析俨然成为企业成功致胜的秘密武器。

  然而,企业往往碍于资源不足,或因工具不完善,抑或专业人才不足,导致相关应用推动不顺。大数据之所以难为,因为一方面需动用众多伺服器进行大量运算,对企业而言可谓一笔财务负担。再者,企业想做好大数据分析,需要延揽资料科学家或资料分析人才,建构许多资料模型,或针对诸多工具进行设定,对结果进行解读,无论从管理角度、技能门槛而言都非常高,成为企业难以跨越之鸿沟,亦是无法将大数据应用普及化的主要原因。

  话虽如此,少数人对于大数据依然存在些许错误迷思,误认为从事大数据分析,就需要建构所费不赀的Hadoop系统,殊不知台湾大多数企业的资料量只有几TB到数10TB,这样的资料量在Hadoop技术下根本无法发挥其价值,因为 Hadoop要管理多伺服器节点并将资料从记忆体移动至资料库造成的启动延迟,可能会比一般的资料处理方案更慢。诚如专业财经媒体Bloomberg负责人Matt Hunt 指出:「在 Bloomberg 我们并没有大数据问题,反而是有中量数据 (medium data) 问题,这里指的中量数据指的是量够大、但适用于单一设备上,但并不需要庞大巨量的集群数据,相当于 TB,而不需要达 PB 等级」。的确,杀鸡焉须用牛刀,特别是台湾的社群媒体没那么发达,资料大多不在自己手上,与其盲目追求技术和工具,不如先用小量资料去验证一个模型,是否能将资料转换成商机利润,再来决定要不要建置大数据的作业环境。

  近年来,笔者曾参与一些政府部门、私人企业大数据应用专案开发,发觉大部分专案也都不是在 Hadoop上执行,反而大部分工作都是透过本书所介绍的章节内容完成,例如:在经济部资料应用分析专案中,是利用 R 语言结合 PHP 网页程式设计,建置一套太阳能发电选址模型,将最近三年全省和离岛共 24个太阳能电厂年每 10 分钟智慧电表所量测到的日照量和发电量资料,进行建模和预测。过程中有些有关发电量遗缺值的资料预处理部分,便是透过 5.3.3 小节所介绍的SQL Server 流程控制语言,利用SQL指令回圈和判断式撰写「内差法」填补有日照量却无发电量的遗缺值,快速处理数百万笔的日照量和发电量资料,并且透过 7.3.6 节所介绍的 R 语言 stats 套件中的 arima 模型,进行日照量和发电量的预测。

  在行政院主计总处主计资料大数据分析研究案中,则是利用C# 结合 SQL Server 资料库,建置一套跨机关去识别化资料整合模型,将每五年办理一次的工业及服务业普查、农林渔牧业普查,或是每十年办理一次的人口及住宅普查,各县市政府主计单位将调查后的资料先进行去识别化后,再交付国势普查处进行去识别化资料整合。去识别化资料整合工具的开发是以 4.1 小节所介绍的 ADO.NET观念和 4.2 小节资料库系统范例专案方式实作出来的,此工具可能会面临处理 2300 万笔人口普查这类等级的资料量,将其身分证号码这个主键,透过加密方式一一去识别化,或去除其他栏位的间接识别,所以在开发过程中又得透过第 3 章交易管理的观念,将多个 SQL指令视为同一笔交易执行,并且透过 2.9 小节建立索引,加入多执行绪方式来提升去识别化的执行效能。

  有鑑于此,笔者将这些年从事大数据分析工作可能会用到的理论知识、系统开发,程式撰写,建立模型的经验整理成册,希望对于想要踏入大数据分析这个领域的读者有所助益。书中第一、二、三、五章主要介绍关联式资料库中进阶技巧,以检视表为开端,接续单元介绍索引技术、交易管理和可程式性物件,这些章节内容与观念可以让我们处理大量结构化资料时更有效率,第四章则是介绍 ADO.NET 资料库程式设计,让读者从无到有建置一个小型资讯系统专案,相信对于资讯系统开发有一定认识、对于程式撰写能力也会提升,第六章介绍资料仓储与资料探勘,对于监督式学习或非监督式学习相关知识有一定程度的了解。最后第七章则是介绍 SQL Server 2016 版才有的新功能,也是微软致力于大数据分析的解决方案,主要提供资料科学家能够透过原先所熟悉的 R 语言,不论是在交谈式介面中透过SQL Server R Services直接撰写 R 脚本指令进行资料分析,或是在 Visual Studio.NET 中透过R Tools for Visual Studio或 Microsoft R Client 的安装,在原有 Visual Studio开发环境撰写 R 指令从事各种机器学习,进行关联、分类、集群和预测的工作。书中除了介绍一些常用和知名套件如何撰写,例如:如何利用wordcloud套件绘制文字云、Arules 套件 apriori 进行关联规则分析、stats套件 kmeans 进行集群分析、C50 套件 C5.0 进行决策树分析、stats 套件 glm 和RevoScaleR 套件 rxLogit进行罗吉斯回归分析。更重要的是对于这些模型如何使用、和对跑出的结果如何进行解读,都有非常完整的介绍,相信对于有志成为资料科学家的初学者而言,本书绝对是一本很好的入门书籍。

图书试读

用户评价

评分

当我拿到《大数据时代:资料库系统实作与案例分析(附光碟)》这本书时,我期待着能够一窥大数据技术如何落地生根,尤其是在“资料库系统实作”这一块,我希望能得到一些具体、可操作的指导。书的前半部分,关于大数据的一些基本概念和历史发展,介绍得还算中规中矩,为读者建立了一个初步的认知框架。然而,当我深入到具体的实操部分,特别是关于数据采集、存储、处理和分析的章节时,我发现书中对这些关键环节的讲解,似乎都点到为止,缺乏深入的剖析。例如,在数据采集的部分,只是简单罗列了一些工具,但对于如何设计高效、可靠的数据采集流程,如何应对各种复杂的数据源,如何进行实时数据流的处理,并没有提供太多实质性的建议。同样,在数据存储和管理方面,对于分布式文件系统、NoSQL数据库等技术的选择和配置,以及它们在不同场景下的性能表现,讨论得也比较笼统。更令我感到遗憾的是,案例分析部分,虽然提到了一些成功的应用,但往往只是对最终成果的展示,而对于背后支撑这些成果的具体技术细节、数据建模过程、算法选择逻辑、以及在项目推进过程中遇到的实际困难和如何克服,都一带而过,让人感觉“隔靴搔痒”。

评分

我最近入手了这本《大数据时代:资料库系统实作与案例分析(附光碟)》,冲着“大数据”这个热点和“实作与案例分析”的承诺,我满怀期待地翻开了它。然而,读完后,我感觉这本书在内容深度和实用性上,似乎未能完全达到我的预期。书的开篇理论部分铺陈得还算可以,但很快就转向了具体的技术实现。我本来期望能看到一些更深入的算法原理剖析,或者在数据处理流程的每个环节有更详尽的解释。比如,在数据清洗和预处理的章节,我希望能看到更多关于不同类型噪声的处理方法,以及如何针对不同业务场景进行数据质量评估和提升的策略。书中虽然提及了一些工具和框架,但对于它们在实际应用中的优缺点、适用范围,以及如何根据具体需求进行选择和优化,讨论得略显肤浅。尤其是涉及到分布式计算的部分,我希望能够更清晰地理解其背后的容错机制、数据分片策略以及任务调度算法。虽然附带的光盘可能包含一些代码示例,但缺乏对这些代码的深入解读和扩展性思考,让我感觉学习起来有些断层。此外,案例分析部分,虽然列举了一些行业应用,但往往停留在宏观层面的介绍,对于具体的数据模型设计、关键技术选型、实施过程中遇到的挑战以及最终的业务成效,描述得不够具体和深入,缺乏“实战”的醍醐味。

评分

我对《大数据时代:资料库系统实作与案例分析(附光碟)》这本书的期待,主要集中在它承诺提供的“实作”和“案例分析”内容上,希望能从中获得一些切实可行的指导。书本开篇的理论介绍,我个人觉得还能接受,对于大数据的一些基础概念和发展趋势,做了一个比较清晰的梳理。然而,当我翻阅到后面关于具体技术实现的部分,比如数据存储、处理和分析的技术栈选择,我发现书中的内容相对比较笼统,缺乏深入的细节。例如,在介绍分布式文件系统和分布式计算框架时,只是简单地列举了一些名称和基本功能,但对于它们在实际应用中的性能调优、容错机制、以及如何根据具体业务场景进行选择和配置,都没有进行深入的探讨。我更希望看到一些关于如何从零开始搭建和配置这些系统的具体步骤,以及在实践中可能会遇到的常见问题和解决方案。同样,在案例分析的部分,虽然提到了几个行业应用,但这些案例的描述往往停留在高层面的介绍,对于数据是如何采集、存储、处理和分析的,具体的模型是如何构建的,以及在项目实施过程中遇到的技术挑战和解决方案,都显得不够深入和详尽,未能给我留下深刻的印象。

评分

拿到《大数据时代:资料库系统实作与案例分析(附光碟)》这本书,我最看重的是它“实作”和“案例分析”的标题,希望能从中获得一些能够指导实践的知识。书中对大数据发展历程和基本概念的梳理,我个人认为还可以,为新手建立了一个大致的轮廓。但是,当我期望在“实作”部分看到更深入的技术细节和操作指南时,却感到有些失望。例如,在数据仓库设计方面,书中的内容更多是概念性的介绍,缺乏对不同数据仓库模型(如星型模型、雪花模型)的详细讲解,以及如何根据业务需求选择和优化模型。对于实际构建数据仓库过程中可能遇到的挑战,比如ETL流程的自动化、数据质量的保障、性能的优化等,书中的讨论也比较有限。至于光盘中的光碟内容,我希望它能提供一些可运行的示例代码,并附带详尽的解释和配置说明,让我能够亲手实践。然而,如果这些代码只是简单的脚本,或者需要复杂的环境配置才能运行,那么其价值就会大打折扣。案例分析部分,虽然列举了一些行业应用,但给我的感觉更像是一些“成功故事”的叙述,缺乏对具体技术实现细节的挖掘,比如某个案例是如何选择特定的大数据技术栈,数据是如何被处理和转化的,以及在分析过程中使用了哪些关键的算法和模型。

评分

坦白说,对于《大数据时代:资料库系统实作与案例分析(附光碟)》这本书,我的感受有些复杂。它确实提供了一个了解大数据领域入门的框架,但总的来说,我觉得它的内容还不够“硬核”。在介绍数据仓库和数据湖的概念时,只是简单地阐述了它们是什么,以及和传统数据库的区别,但对于如何根据企业实际情况选择搭建哪种架构,以及两种架构的优劣势在不同场景下的具体体现,没有给出太多有价值的指导。书中对一些主流的大数据处理框架,比如Hadoop和Spark,进行了概览式的介绍,但缺乏对这些框架的核心组件、工作原理以及性能调优方法的深入探讨。我原以为在“实作”部分能看到更贴近实际操作的指南,例如如何从零开始搭建一个简单的Hadoop集群,或者如何使用Spark进行复杂的数据分析任务。可惜的是,书中的示例代码虽然存在,但显得有些零散,而且没有提供足够的环境配置和运行说明,让初学者在实际操作时可能会遇到不少障碍。案例分析部分,虽然提到了几个知名公司的应用,但更多的是一种“是什么”的描述,而“怎么做”的细节,以及在实施过程中可能遇到的技术难题和解决方案,却鲜有提及。这种“浅尝辄止”的风格,让我觉得这本书更适合作为大数据领域的“速成指南”,而非深度学习的参考手册。

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 ttbooks.qciss.net All Rights Reserved. 小特书站 版权所有