AI開發的機器學習系統設計模式 (電子書)

AI開發的機器學習系統設計模式 (電子書) pdf epub mobi txt 电子书 下载 2025

澁井雄介
图书标签:
  • 人工智能
  • 机器学习
  • 系统设计
  • 设计模式
  • 软件工程
  • 电子书
  • AI开发
  • 深度学习
  • 算法
  • 工程实践
想要找书就要到 小特书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

  幫助您更了解如何實務開發中應用機器學習技術
  本書是機器學習系統設計模式的集合,範例使用的平台是Docker和Kubernetes,以確保程式碼的可重複執行。本書描述機器學習從訓練、評估和QA,到發布和運行推理器的順序,以及架構和代碼。藉由本書的指引,能夠幫助您更有效地使用機器學習的技術,將其應用在實際的系統開發中。

  本書可以幫助您:
  .了解如何MLOps這種機器學習付諸實用的開發維護方法
  .了解建置機器學習系統的方法,包括專為機器學習設計的系統(機器學習管線或實驗管理)與專為使用機器學習設計的系統(發佈或推論器),以實現MLOps
  .了解改善機器學習系統品質的方法,以及如何透過後續的維護改善模型

來自讀者的讚譽

  "蘊含了MLOps的精華"
  "詳細介紹了如何開發在商業環境中應用機器學習的系統"
  "資訊豐富,是開發大型系統極佳的參考資料"

 
深入理解现代软件架构与实践的基石:高级数据库设计与性能调优 书籍概述: 本书并非关注于人工智能或机器学习的特定算法,而是将视角投向支撑所有现代复杂应用系统的核心——数据管理与持久化层。随着数据量的爆炸式增长和对实时性要求的不断提高,传统的关系型数据库和新兴的NoSQL解决方案都面临着前所未有的设计和优化挑战。《高级数据库设计与性能调优》旨在为系统架构师、资深开发人员以及数据库管理员提供一套全面、深入且极具实践指导意义的知识体系,以构建高性能、高可用、可扩展的数据基础设施。 全书分为四个核心部分,层层递进,从理论基础到实战应用,确保读者不仅理解“如何做”,更能理解“为何要这样做”。 --- 第一部分:数据建模的哲学与进阶范式(Foundations of Advanced Data Modeling) 本部分将彻底超越基础的第三范式(3NF)教学,着重探讨在特定业务场景下,如何选择并应用更适合的建模范式。 1. 关系型数据库的超越与反范式化的艺术: 详细解析了数据冗余在特定读密集型场景下的性能优势,探讨了何时、何地、以及如何安全地实施反范式化(Denormalization)。内容包括冗余数据管理策略、数据一致性的权衡(CAP理论在关系模型中的具体体现),以及使用物化视图(Materialized Views)作为性能优化手段的深度解析。 2. 维度建模与数据仓库基础: 深入讲解了 Ralph Kimball 和 Bill Inmon 两种主要数据仓库设计思想的差异。重点剖析了事实表(Fact Tables)和维度表(Dimension Tables)的设计细节,特别是如何处理缓慢变化维度(SCD Type 1, 2, 3)的复杂逻辑,这对构建高效的商业智能(BI)查询层至关重要。 3. 图数据库与关系模型的界限: 讨论了当数据关系复杂到超出关系模型处理能力时,图数据库(如Neo4j)的优势。内容涵盖了属性图模型(Property Graph Model)的核心概念,以及使用Gremlin或Cypher语言进行复杂路径查询的实践技巧。这部分将明确指出,哪些业务问题(如社交网络、推荐引擎的中间层)应使用图模型,而非试图在关系型数据库中模拟图结构。 4. 混合持久化策略(Polyglot Persistence): 阐述了现代微服务架构下,选择“最合适的工具做最合适的事”的原则。如何根据服务的具体需求(事务性、查询模式、写入速率)来决定使用RDBMS、Document Store(MongoDB)、Key-Value Store(Redis)或Time-Series Database的决策树。 --- 第二部分:事务处理与高可用性架构(Transaction Integrity and High Availability) 本部分聚焦于如何确保数据在多用户、分布式环境下的正确性、一致性和不间断服务能力。 1. 事务隔离级别的精细控制: 不仅仅是介绍READ UNCOMMITTED, READ COMMITTED, REPEATABLE READ, SERIALIZABLE这四种标准级别。本书深入探讨了PostgreSQL或Oracle中提供的特定隔离机制(如MVCC——多版本并发控制)是如何在不牺牲过多性能的前提下实现接近于SERIALIZABLE的性能优化。解析了幻读(Phantom Reads)和不可重复读(Non-Repeatable Reads)在具体数据库引擎下的实现机制。 2. 分布式事务与两阶段提交(2PC)的局限性: 详尽分析了在跨数据库系统的分布式事务中,两阶段提交协议(2PC)的性能瓶颈和单点故障风险。随后,重点介绍并对比了Saga模式和TCC(Try-Confirm-Cancel)模式在微服务架构中实现最终一致性(Eventual Consistency)的替代方案,以及如何管理补偿事务。 3. 复制策略的深度解析: 对比了同步复制(Synchronous Replication)和异步复制(Asynchronous Replication)的延迟与一致性权衡。深入研究了主从(Master-Slave)、主主(Master-Master)以及基于日志的复制(如MySQL的Binlog或PostgreSQL的WAL)的内部工作原理。探讨了如何利用流复制(Streaming Replication)实现接近零停机时间的故障转移(Failover)和故障恢复(Failback)流程。 4. 读写分离与数据分片(Sharding): 详细介绍了垂直分片(按功能拆分)和水平分片(按数据范围或哈希值拆分)的设计原则。重点讲解了一致性哈希(Consistent Hashing)在动态增减节点时如何最小化数据迁移的必要性,以及分片键(Shard Key)选择对查询性能的决定性影响。 --- 第三部分:查询优化与执行引擎剖析(Query Optimization and Execution Engine Deep Dive) 这是本书实践性最强的一部分,旨在教会读者如何阅读和理解数据库的“黑匣子”——查询执行计划。 1. 执行计划的“读心术”: 教授如何使用`EXPLAIN ANALYZE`(或等效命令)来准确解读查询计划。重点分析索引扫描(Index Scan)、顺序扫描(Sequential Scan)、嵌套循环连接(Nested Loop Join)、哈希连接(Hash Join)和合并连接(Merge Join)的成本模型。识别并解决常见的性能陷阱,例如错误的连接顺序和不必要的全表扫描。 2. 索引结构的精细化管理: 不仅仅停留在B-Tree索引。本书详细介绍了复合索引(Composite Indexes)的最佳列顺序原则(左前缀原则的精确应用)、部分索引(Partial Indexes)的使用场景,以及PostgreSQL中的GIN/GiST索引在全文检索和地理空间数据查询中的优化应用。讨论了索引维护的成本与收益平衡。 3. 统计信息与优化器偏差: 解释了数据库优化器(Optimizer)如何依赖统计信息(Statistics)来估算成本。探讨了当统计信息过时或数据分布高度倾斜时,优化器可能产生的错误决策,以及如何通过手动收集统计信息或使用优化器提示(Hints)来干预执行路径。 4. 高级聚合与窗口函数: 演示如何利用数据库内置的窗口函数(Window Functions,如RANK(), ROW_NUMBER(), LAG/LEAD)来替代低效的自连接或子查询,从而在数据库层级完成复杂的报告生成和时间序列分析,极大地提升聚合查询的性能。 --- 第四部分:性能瓶颈诊断与系统级调优(Troubleshooting and System Tuning) 本部分将数据库视为一个复杂的操作系统级应用,从操作系统、连接池到内存配置进行全面审查。 1. I/O系统与存储层优化: 分析了数据库的I/O模式(随机读写 vs 顺序读写),并指导读者如何根据数据库类型选择最佳的存储硬件(SSD类型、RAID配置)。探讨了数据库缓存层(如OS Cache和Buffer Pool)与物理存储之间的协同工作机制。 2. 连接池与并发控制的艺术: 解释了应用层连接池(如HikariCP, PgBouncer)的配置策略,如最大连接数、超时设置和预热机制。分析了过度连接导致的上下文切换开销,以及如何使用连接代理来管理大量短生命周期连接。 3. 内存参数的精细调优: 深入解析关键内存配置项(如MySQL的`innodb_buffer_pool_size`或PostgreSQL的`shared_buffers`和`work_mem`)对性能的影响。提供了一套基于工作负载测试的内存分配方法论,以最大化缓存命中率并减少磁盘溢写。 4. 锁争用与死锁分析: 教授如何监控和诊断锁等待(Lock Contention)。区分行级锁、表级锁以及元数据锁的特性。重点在于分析数据库的锁监控视图,精确识别导致系统变慢的特定长事务,并设计流程来安全地终止或优化这些事务。 通过对以上四个维度的全面覆盖,本书为构建面向未来的、健壮的、响应迅速的应用程序数据层提供了坚实的技术蓝图。它强调的不是特定AI框架下的数据管道,而是所有高性能软件系统不可或缺的底层数据工程智慧。

著者信息

作者簡介

澁井雄介

 
  MLOps工程師、基礎架構工程師、AR工程師、擁有兩隻貓咪的飼主。家裡有四張貓咪專用的吊床。本業是以Kubernetes開發自動化的MLOps架構,興趣則是將AR與Edge AI組在一起玩。過去曾在系統整合、軟體創投公司、新創企業主持專案並擔任大規模系統維護小組負責人。

  GitHub:github.com/shibuiwilliam

图书目录

Part I|機器學習與MLOps
CHAPTER 1 何謂機器學習系統?

1.1 機器學習、MLOps、系統
1.2 目標是打造方便使用者的機器學習
1.3 機器學習系統所需的東西
1.4 讓機器學習系統模式化
1.5 本書的編排方式

Part II|建立機器學習系統
CHAPTER 2 建置模型

2.1 建置模型
2.2 反面模式|Only me 模式
2.3 專案、模型與版本管理
2.4 管線學習模式
2.5 批次學習模式
2.6 反面模式|複雜管線模式

CHAPTER 3 發佈模型
3.1 學習環境與推論環境
3.2 反面模式|版本不一致模式
3.3 模型的發行與推論器的運作
3.4.1 用例
3.5 Model loader 模式
3.6 模型的發行與水平擴充

CHAPTER 4 建立推論系統
4.1 為什麼要建立系統
4.2 Web Single 模式
4.3 同步推論模式
4.4 非同步推論模式
4.5 批次推論模式
4.6 前置處理推論模式
4.7 微服務串聯模式
4.8 微服務並聯模式
4.9 時間差推論模式
4.10 推論快取模式
4.11 資料快取模式
4.12 推論器範本模式
4.13 Edge AI模式
4.14 反面模式|Online Big Size 模式
4.15 反面模式|All in One 模式

Part III|品質、維護、管理
CHAPTER 5 維護機器學習系統

5.1 機器學習的應用
5.2 推論日誌模式
5.3 推論監控模式
5.4 反面模式|無日誌資料模式
5.5 反面模式|孤兒模式

CHAPTER 6 維持機器學習系統的品質
6.1 機器學習系統的品質與維護
6.2 機器學習系統的正常性評估指標
6.3 負載測試模式
6.4 推論斷路器模式
6.5 Shadow A/B測試模式
6.6 線上A/B測試模式
6.7 參數基礎推論模式
6.8 條件分歧推論模式
6.9 反面模式|純離線模式

CHAPTER 7 End-to-End 的 MLOps 系統設計
7.1 課題與手法
7.2 需求預測系統的範例
7.3 內容上傳服務的範例
7.4 總結

 

图书序言

  • ISBN:9786263242036
  • EISBN:9786263243613
  • 規格:普通級 / 初版
  • 出版地:台灣
  • 檔案格式:EPUB固定版型
  • 建議閱讀裝置:平板
  • TTS語音朗讀功能:無
  • 檔案大小:50.8MB

图书试读



  真的非常感謝大家!

  不管是線上商店還是在馬路行駛的自動駕駛系統,都是非常複雜的環境,而要在這個海量資料不斷交換的世界做出合理的判斷,以及對使用者與商業有所貢獻,機器學習絕對是不可或缺的技術。若要透過機器學習增加線上商店的業績,或是偵測馬路上的紅綠燈,除了收集資料以及建立優秀的模型之外,當然也得建立優良的系統以及維護系統的流程。

  本書除了說明將機器學習植入系統的祕訣之外,還會說明一些課題、架構與實例。與其說本書的內容是機器學習,不如說是以軟體開發工程與系統開發工程為主。如果本書能讓知道該如何建立機器學習模型,卻不知道該怎麼於商業應用機器學習的資料科學家、機器學習工程師,或是負責將機器學習植入系統的後台工程師與產品負責人,知道該怎麼透過機器學習對社會產生貢獻的話,那將是筆者的榮幸。

用户评价

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 ttbooks.qciss.net All Rights Reserved. 小特书站 版权所有