實戰大數據——MATLAB資料探勘詳解與實踐 (電子書)

實戰大數據——MATLAB資料探勘詳解與實踐 (電子書) pdf epub mobi txt 電子書 下載 2025

許國根
圖書標籤:
  • MATLAB
  • 數據挖掘
  • 大數據
  • 實戰
  • 數據分析
  • 機器學習
  • 電子書
  • 技術
  • 編程
  • 案例
  • 算法
想要找書就要到 小特書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

大數據時代,我們需要對各種海量數據進行篩選、清洗、挖掘,在這個過程中,獲取有效數據的方式方法和模型算法成為瞭整個資料探勘過程的重點,MATLAB作為一個資料探勘工具,如何正確和準確地使用它成為瞭重中之重。
針對實際應用資料探勘技術的要求,本書既介紹資料探勘的基礎理論和技術,又較為詳細地說明各種算法以及MATLAB程式。本書共分四篇,分別解說資料探勘的基本概念、技術與算法以及應用實例。期望透過大量的實例分析幫助廣大讀者掌握資料探勘技術,並應用於實際的研究中,提高對海量數據訊息的處理及挖掘能力。本書針對性和實用性強,具有較高的理論和實用價值。
本書作者就職於部隊高校,專攻資料探勘,並應用於大量實際項目,同時得到中國著名資料探勘公司的技術支持,很多案例來自實際項目。
本書可作為高等院校電腦工程、訊息工程、生物醫學工程、化學、環境、經濟、管理等學科的研究生、本科生的教材或教學參考書,亦可作為企事業單位管理者、訊息分析人員、市場營銷人員和研究與開發人員的參考資料。

數位時代下的數據洞察與決策:一套全麵的數據科學與機器學習實戰指南 書籍簡介 在當今這個由數據驅動的世界中,無論是學術研究、產業創新還是日常決策製定,數據科學與機器學習已成為不可或缺的核心技能。本書旨在為讀者提供一個從基礎理論到高階應用的完整學習路徑,重點聚焦於如何有效地從海量數據中提取有價值的知識,並將這些知識轉化為實際的業務洞察與自動化決策能力。我們將跨越傳統的統計學框架,深入探討當代數據科學領域最前沿的技術與工具。 第一部分:數據科學的基石與思維框架 本部分將為讀者建立堅實的理論基礎,理解數據科學在當代社會中的角色與價值。我們不僅會探討數據的生命週期管理(從採集、清洗到儲存與處理),更著重於培養讀者具備「數據思維」——即如何將複雜的業務問題轉化為可量化的數據模型。 數據的本質與結構: 深入解析不同類型數據(結構化、半結構化、非結構化)的特性,以及它們對建模選擇的影響。介紹數據治理與數據品質管理的重要性,強調「垃圾進,垃圾齣」(Garbage In, Garbage Out)的原則。 探索性數據分析(EDA)的藝術與科學: EDA 不僅是視覺化,更是一種深入理解數據分佈、識別異常值、發現潛在關係的關鍵步驟。本書將詳細介紹多變量分析技術,指導讀者如何使用圖形化工具高效地揭示數據背後的敘事。 概率論與統計推斷的現代應用: 迴顧核心的統計學概念,如假設檢驗、信賴區間,並將這些概念無縫銜接到機器學習模型的評估標準中。討論貝葉斯方法在處理不確定性決策中的獨特優勢。 第二部分:核心機器學習算法的深入剖析與實戰 本部分是本書的核心,涵蓋瞭從經典到最新的機器學習算法。我們將避免純粹的數學推導,轉而著重於算法的直觀理解、適用場景、參數調優(Hyperparameter Tuning)以及性能評估的實務技巧。 監督式學習:預測的藝術: 迴歸分析的深化: 從線性模型到非線性模型(如廣義加性模型 GAMs),探討過度擬閤與欠擬閤的處理策略,如正則化(Lasso, Ridge, Elastic Net)。 分類模型的多樣性: 詳解決策樹、隨機森林(Random Forest)、梯度提升機(GBM,包括 XGBoost, LightGBM, CatBoost)的工作原理。特別關注提升(Boosting)技術如何通過迭代優化來提升模型精度。 非監督式學習:發現隱藏的結構: 聚類分析的實務應用: 深入比較 K-Means、DBSCAN 和層次聚類,並探討如何客觀評估聚類結果的有效性(如輪廓係數 Silhouetted Score)。 降維技術的必要性: 主成分分析(PCA)的基礎及其在高維數據可視化中的應用,以及t-SNE和UMAP在複雜數據集流形學習中的錶現。 模型評估與選擇的嚴謹性: 詳述混淆矩陣的各個指標(精確率、召迴率、F1 Score、ROC麯線與AUC),並討論如何在不同業務場景(如醫療診斷或金融欺詐檢測)下選擇最閤適的評估標準。探討交叉驗證(Cross-Validation)的各種策略。 第三部分:深度學習與神經網絡的實戰入門 隨著計算能力的提升,深度學習已成為解決複雜模式識別問題的關鍵。本部分將以實用的角度引入深度學習的基礎架構與主流模型。 神經網絡的基本構建塊: 理解激活函數、前嚮傳播與反嚮傳播(Backpropagation)的機製。探討優化器(如 Adam, RMSprop)如何影響訓練速度和穩定性。 捲積神經網絡(CNN)在圖像處理中的應用: 介紹 CNN 的核心概念,如捲積層、池化層,並展示如何使用預訓練模型(如 ResNet, VGG)進行遷移學習(Transfer Learning)來解決資源受限的圖像分類任務。 循環神經網絡(RNN)與序列數據: 探討處理時間序列和自然語言數據的基礎模型,重點關注 LSTM(長短期記憶網絡)和 GRU 在序列預測和文本生成中的應用。 第四部分:數據工程、模型部署與倫理考量 數據科學的價值體現於其應用性。本部分將涵蓋將實驗室模型轉化為生產係統的關鍵環節,並討論數據科學傢必須麵對的社會責任。 高效的數據管道(Pipelines): 介紹如何使用現代工具鏈(如容器化技術 Docker)來確保模型在不同環境下的可復現性(Reproducibility)。探討特徵工程(Feature Engineering)在提升模型性能中的決定性作用。 模型可解釋性(XAI): 在決策越來越依賴 AI 的時代,理解模型做齣決策的原因至關重要。詳細介紹 LIME 和 SHAP 等技術,幫助讀者打開「黑箱」,建立決策的信任基礎。 倫理、偏見與公平性: 深入探討數據集內在的偏見如何導緻模型產生歧視性結果。討論如何主動檢測和減輕模型中的公平性問題,確保技術的負責任應用。 適用對象 本書適閤所有希望深入掌握現代數據分析與機器學習技術的專業人士、高等院校的相關專業學生、數據分析師、統計學傢,以及渴望將數據驅動決策引入自身領域的技術經理人。無須具備深厚的編程基礎,但對邏輯推理和數學概念有基本的接受度將有助於更快的吸收與實踐。本書強調的是實用性與解決實際問題的能力,引導讀者真正成為數據洪流中的領航者。

著者信息

圖書目錄

版權訊息
內容簡介
前言
第1篇 關於資料探勘
第1章 緒論
1.1 資料探勘概述
1.2 資料探勘的分類
1.根據資料庫類型分類
2.根據資料探勘對象分類
3.根據資料探勘任務分類
4.根據資料探勘方法分類
5.根據資料探勘技術分類
6.根據資料探勘應用分類
1.3 資料探勘的過程
1.4 資料探勘的任務
1.概念描述
2.關聯分析
3.時間序列分析
4.分類分析
5.聚類分析
6.離群點檢測
7.預測
1.5 資料探勘的對象
1.5.1 資料庫
1.關係資料庫
2.資料倉儲
3.事務資料庫
4.物件導嚮資料庫
5.關係對象資料庫
6.空間資料庫
7.時態資料庫和時間序列資料庫
1.5.2 文本
1.5.3 圖像與影片數據
1.5.4 Web數據
1.異構資料整閤和挖掘
2.半結構化數據模型抽取
1.6 資料探勘建模方法
1.6.1 業務理解
1.6.2 數據理解
1.6.3 數據準備
1.6.4 建模
1.預測模型的時間範圍
2.模型的使用有效期
3.建立模型的假設
1.6.5 評估
1.6.6 部署
1.7 資料探勘的應用
1.7.1 在金融領域中的應用
1.7.2 在零售業中的應用
1.7.3 在電信業中的應用
1.7.4 在管理中的應用
1.7.5 在化學研究領域中的應用
1.7.6 在材料研究、生產方麵的應用
1.7.7 在機械故障診斷與監測中的應用
1.7.8 在醫療領域中的應用
第2篇 資料探勘算法
第2章 決策樹算法
2.1 決策樹算法概述
2.2 決策樹基本算法
2.3 ID3算法
2.4 C4.5算法
2.5 CART算法
2.6 決策樹的評價標準
1.正確性
2.過學習
3.有效性
4.交叉有效性
5.餘一有效性
6.複雜度
2.7 決策樹的剪枝及優化
1.預剪枝
2.後剪枝
2.8 基於MATLAB的決策樹分析
第3章 人工神經網路算法
3.1 人工神經網路概述
3.2 人工神經網路的基本模型
3.2.1 神經元
3.2.2 傳遞函數
3.2.3 人工神經網路的分類
3.3 BP神經網路
3.3.1 BP人工神經網路結構
3.3.2 BP人工神經網路的學習算法
3.4 RBF神經網路
3.4.1 RBF網路結構
3.4.2 RBF人工神經網路的學習算法
3.5 SOM神經網路
3.5.1 SOM神經網路結構
3.5.2 SOM神經網路學習算法
3.6 反饋型神經網路(Hopfield)
3.6.1 Hopfield網路的拓撲結構
3.6.2 Hopfield網路的學習算法
3.7 基於MATLAB的神經網路方法
3.7.1 訊息錶達方式
3.7.2 網路模型選擇
3.7.3 網路參數選擇
3.7.4 學習訓練算法選擇
3.7.5 係統仿真的性能對比
第4章 進化算法
4.1 概述
4.2 進化算法的基本原理
4.2.1 編碼
1.二進位編碼
2.符號編碼
3.浮點數編碼
4.格雷編碼
4.2.2 適應度函數
4.2.3 遺傳算子
1.選擇算子
2.交叉算子
3.變異算子
4.2.4 基因算法的特點
4.3 基因算法的主要步驟
4.4 基本遺傳算法
4.4.1 遺傳算法的基本流程
4.4.2 控製參數選擇
1.串長l
2.群體大小n
3.交叉機率pc
4.變異機率pm
4.5 進化規劃算法
4.5.1 變異算子
4.5.2 選擇算子
4.6 進化策略計算
4.6.1 進化策略算法的基本流程
4.6.2 算法的構成要素
1.染色體構造
2.進化策略的算子
4.7 量子遺傳算法
4.7.1 基本概念
1.量子比特
2.量子染色體
4.7.2 量子遺傳算法流程
4.7.3 量子算法中的控製參數
1.量子染色體
2.量子鏇轉門
3.量子非門操作
4.8 人工免疫算法
4.8.1 人工免疫算法的生物學基礎
1.生物免疫係統
4.8.2 生物免疫基本原理
4.8.3 人工免疫算法的基本概念
1.人工免疫係統的定義
2.免疫算法的基本思想
4.8.4 免疫算子
1.提取疫苗算子
2.接種疫苗算子
3.免疫檢測算子
4.免疫平衡算子
5.免疫選擇算子
6.複製算子
4.8.5 免疫算法與免疫係統的對應
4.8.6 人工免疫算法與遺傳算法的比較
4.9 基於MATLAB的進化算法
1.命令行方法
2.GUI方法
第5章 統計分析方法
5.1 假設檢驗
5.1.1 隨機誤差的判斷
1.χ2檢驗
2.F檢驗
5.1.2 係統誤差的檢驗
1.平均值與給定值比較
2.兩個平均值的比較
3.成對數據的比較
5.2 迴歸分析
5.2.1 一元線性迴歸分析
1.一元線性迴歸的數學模型
2.迴歸方程的顯著性檢驗
3.利用迴歸方程進行預測
5.2.2 多元線性迴歸分析
1.多元線性迴歸模型
2.迴歸方程顯著性檢驗
3.迴歸係數顯著性檢驗
4.擬閤檢驗
5.Y的預測區間
5.2.3 非線性迴歸分析
1.常用的可轉化為一元線性迴歸的模型
2.一元多項式迴歸
5.2.4 虛擬及離散變量迴歸模型
5.2.5 異常點、高槓桿點和強影響觀測值
5.2.6 迴歸假設檢驗
5.3 二項邏輯(logistic)迴歸
5.3.1 二項邏輯迴歸模型
5.3.2 顯著性檢驗
1.迴歸係數的顯著性檢驗
2.線性關係的顯著性檢驗
5.3.3 迴歸方程的擬閤優度檢驗
1.基於Cox & Snell R2統計量的優度檢驗
2.基於Nagelkerke R2統計量的優度檢驗
5.4 方差分析
5.4.1 單因素試驗的方差分析
5.4.2 雙因素試驗的方差分析
1.雙因素無重複試驗的方差分析
2.雙因素重複試驗的方差分析
5.5 主成分分析
5.5.1 主成分分析的數字模型
5.5.2 主成分計算步驟
5.5.3 主成分估計
5.5.4 主成分篩選
5.6 因子分析
5.6.1 因子分析的一般數學模型
5.6.2 因子模型中公共因子、因子載荷和變量共同度的統計意義
1.因子載荷的統計意義
2.變量共同度的統計意義
3.公共因子的方差貢獻的統計意義
5.6.3 因子分析與主成分分析的聯繫與區別
5.6.4 Q型和R型因子分析
5.7 基於MATLAB的統計分析方法
第6章 貝葉斯網路方法
6.1 貝葉斯定理、先驗和後驗
6.2 貝葉斯網路
6.3 貝葉斯網路學習
6.3.1 貝葉斯網路的結構學習
6.3.2 貝葉斯網路的參數學習
1.基於完整數據的貝葉斯網路參數學習
2.不完整數據下的貝葉斯網路參數學習
6.4 主要貝葉斯網路模型
6.4.1 樸素貝葉斯網路
6.4.2 TAN貝葉斯網路
6.4.3 無約束貝葉斯網路
6.5 基於MATLAB的貝葉斯網路方法
第7章 支持嚮量機
7.1 支持嚮量機概述
7.2 核函數
7.3 基於MATLAB的支持嚮量機方法
第8章 關聯分析
8.1 概述
8.1.1 關聯規則的主要概念
8.1.2 關聯規則的種類
8.1.3 關聯規則的價值衡量的方法
1.係統客觀層麵
2.用戶主觀層麵
8.2 Apriori關聯規則算法
8.3 基於分類搜尋的關聯規則算法
8.3.1 基於分類搜尋的關聯規則算法特點
1.分類特點
2.搜尋特點
3.存儲特點
8.3.2 算法流程與實現
8.3.3 數據更新實現
8.4 時序關聯規則算法
8.5 多值屬性關聯規則算法
8.5.1 靜態離散屬性關聯規則
8.5.2 動態離散關聯規則
8.5.3 基於距離的關聯規則
8.6 增量關聯規則算法
8.7 基於關聯規則的分類算法
8.8 模糊關聯分類算法
8.8.1 屬性的模糊劃分
8.8.2 模糊關聯的定義
8.9 關聯規則的評價
8.9.1 支持度—置信度框架
8.9.2 基於主觀因素的主觀度量
8.10 辛普森悖論
8.11 基於MATLAB的關聯規則分析
第9章 其他資料探勘方法
9.1 近鄰法
9.2 K-means聚類
9.3 基於MATLAB的近鄰法及K-means聚類法
第3篇 資料探勘相關技術
第10章 資料倉儲
10.1 概述
10.1.1 資料倉儲重要特性
1.麵嚮主題性
2.資料整閤性
3.數據的時變性
4.數據的非易失性
5.數據的集閤性
6.支持決策作用
10.1.2 資料倉儲中幾個重要概念
1.維
2.數據立方體
3.聚集
4.數據顆粒度
5.元數據
10.2 資料倉儲設計
10.2.1 資料倉儲的總體結構
10.2.2 資料倉儲的基本功能層
10.2.3 資料倉儲技術
10.2.4 資料倉儲設計
10.2.5 資料倉儲設計步驟
1.概念模型的設計
2.邏輯模型的設計
3.物理模型的設計
10.3 資料倉儲的開發應用
10.3.1 資料倉儲概念模型設計與開發
1.概念模型的需求調查
2.概念模型的定義
3.概念模型的分析
4.概念模型的設計
10.3.2 資料倉儲的邏輯模型設計
1.分析主題域
2.粒度層次的劃分
3.確定數據分割策略
4.關係模型定義
5.資料倉儲的實體定義
6.數據抽取模型
10.3.3 資料倉儲物理模型的設計
1.資料倉儲設計的規範
2.確定數據結構的類型
3.確定索引策略
4.確定數據存放位置
5.確定存儲分配
10.4 資料倉儲的技術管理
1.數據加載的一些問題
2.故障恢復管理
3.訪問控製與安全管理
4.數據增長的管理
10.5 OLAP技術
10.5.1 基本概念
1.維成員
2.多維數據集
3.數據單元
4.多維數據集的度量值
10.5.2 多維分析
1.多維的切片
2.多維的切塊
3.鏇轉
4.其他OLAP操作
10.5.3 維的層次關係
10.5.4 維的類關係
10.5.5 OLAP與資料倉儲的關係
10.6 基於MATLAB的資料倉儲開發技術
10.6.1 資料庫工具箱
1.VQB
2.資料庫工具箱涵數
3.建立資料庫連接
4.資料庫函數
10.6.2 視覺查詢產生器
1.建立數據源
2.啟動與關閉VQB
3.建立並執行輸入數據的查詢
4.為讀取數據建立查詢並執行
5.保存和編輯查詢
6.為NULLS、數據格式和錯誤處理指定優先權
7.瀏覽查詢結果
8.精細查詢
9.MATLAB的邏輯型數(Boolean Data)
10.6.3 數據的存取類型
1.結構數組
2.單元數組
3.多維數組、單元數組或結構數組
10.6.4 數據輸入和輸齣
1.保存和加載MAT文件
2.輸入文本數據
3.輸入帶有文本頭的數據
4.輸入/輸齣電子錶數據
5.低級文件輸入/輸齣函數
第11章 模糊集理論
11.1 模糊集閤
11.1.1 隸屬度函數
11.1.2 模糊集運算
1.交集(邏輯與)
2.閤集(邏輯或)
3.補集(邏輯非)
4.模糊集的基
11.1.3 λ截集
11.2 模糊關係
1.最大隸屬度原則
2.閾值原則
11.3 模糊聚類
11.3.1 數據標準化
1.標準差標準化
2.極差標準化
11.3.2 相似係數和距離
1.數量積法
2.夾角餘弦法
3.相關係數法
4.最大最小法
5.算術平均法
6.當,可以採用幾何平均最小法
7.絕對值指數法
8.指數相似係數法
9.絕對值倒數法
10.絕對值減數法
11.貼近法
11.3.3 模糊聚類分析
1.建立模糊相似矩陣
2.將模糊相似關係變換為模糊等價關係
3.模糊聚類
11.3.4 模糊K-均值聚類
11.4 基於MATLAB的模糊集處理技術
第12章 粗糙集技術
12.1 粗糙集理論的基本概念
12.1.1 知識錶達係統和決策錶
12.1.2 等價關係
12.1.3 等價劃分
12.1.4 上近似集和下近似集
1.下近似定義
2.上近似定義
3.正域、負域和邊界的定義
12.1.5 粗糙集
12.1.6 粗糙集的非確定性的精確度αA(Y)和粗糙度ρA(Y)
12.2 分類規則的形成
12.3 知識的約簡
12.3.1 決策錶的一緻性
12.3.2 屬性約簡
12.3.3 分辨矩陣與分辨函數
12.4 模糊集與粗糙集
12.5 基於MATLAB的粗糙集處理方法
第13章 目標優化技術
13.1 目標優化概述
13.2 極值問題
1.連續情況
2.離散情況
13.3 無約束非線性規劃
13.3.1 梯度下降法
13.3.2 共軛梯度法
13.3.3 牛頓法
13.4 有約束非線性規劃
13.5 大規模優化問題的分解算法
13.5.1 問題的描述
13.5.2 目標協調法
13.5.3 模型協調法
13.5.4 混閤協調法
13.6 其他優化方法
13.7 基於MATLAB的目標優化方法
第14章 視覺化技術
14.1 視覺化技術概述
14.2 視覺化技術分類
14.2.1 數據視覺化
14.2.2 科學計算視覺化
14.2.3 訊息視覺化
14.2.4 知識視覺化
14.3 多維數據視覺化
14.3.1 平行坐標錶示法
14.3.2 雷達圖
14.3.3 樹形圖
14.3.4 三角多項式圖
14.3.5 散佈圖
1.直角散佈圖
2.散佈圖矩陣
3.三角形散佈圖
14.3.6 星座圖
14.3.7 基於像素的高維數據的視覺化
14.3.8 基於非線性變換的圖錶示優化
1.指數函數
2.多項式函數
3.分段函數
14.3.9 高維數據降維
1.主成分分析
2.因子分析
3.基於特徵選取思想的降維方法
14.4 圖形的特徵分析
14.4.1 平行坐標下的聚簇分析
14.4.2 雷達圖的圖形特徵方法
1.麵積圖形特徵
2.重心圖形特徵
14.4.3 圖形特徵提取中的特徵排序問題
14.5 基於多元圖的圖形分類方法
14.5.1 單原型圖形分類器
14.5.2 基於平行坐標的平行篩視覺化分類方法
14.5.3 基於平行坐標的貝葉斯視覺化分類方法
14.6 基於色度學空間的多元圖錶示
14.7 基於MATLAB的數據視覺化技術
第15章 公式發現
15.1 公式發現概述
15.2 公式發現係統中的知識
15.2.1 規則一(函數規則)
1.發現常數
2.兩變量的初等運算組閤
3.變量取初等函數
4.兩變量取初等函數的線性組閤
5.某變量取某一初等函數與另一變量的線性組閤
6.對某一變量xj取初等函數
7.建立新變量(啟髮式1)
8.建立某變量的某種初等函數為新變量(啟髮式2)
15.2.2 規則二(導數規則)
1.差分發現常數
2.差商發現常數
3.特殊函數形式導數函數
4.兩變量的導數運算組閤
5.兩變量取導數運算的線性組閤
15.2.3 多維函數擴展規則
1.擴展到三維函數公式的啟髮式規則
2.擴展到四維函數公式的啟髮式規則
3.多維函數的擴展
15.2.4 規則三
1.函數規則
2.函數嵌套規則
3.誤差規則
4.終止規則
15.3 基於MATLAB的公式發現
第16章 多媒體資料探勘技術
16.1 多媒體資料探勘技術概述
16.1.1 數據類型
16.1.2 多媒體資料庫管理係統(MM-DBMS)
1.數據操作
2.事務管理
3.元數據管理
4.存儲管理
5.保證數據的完整性和安全性
6.其他功能
16.2 文本挖掘
16.2.1 基於關鍵字的關聯分析
16.2.2 文檔分類分析
1.文檔預處理
2.文檔的錶示
3.常用文本分類模型
4.文本分類器學習、測試和評價
16.3 圖像挖掘
16.4 影片挖掘
16.4.1 結構挖掘
16.4.2 運動挖掘
16.4.3 趨勢挖掘
16.5 音頻挖掘
16.6 復閤類型數據的挖掘
第17章 Web資料探勘技術
17.1 Web資料探勘技術概述
17.2 Web內容挖掘
17.2.1 爬蟲
17.2.2 虛擬Web視圖
17.2.3 個性化
17.3 Web結構挖掘
17.3.1 PageRank
17.3.2 Clever
17.4 Web使用挖掘
17.4.1 預處理
17.4.2 數據結構
17.4.3 模式發現
17.4.4 模式發現
17.4.5 基於組織協同進化的Web日誌挖掘算法
第4篇 資料探勘應用實戰
第18章 數據統計特性
18.1 數據關係發現
18.2 頻率和眾數
18.3 百分位數(percentile)
18.4 中心度量
18.5 散佈程度度量
18.6 數據的分佈描述
1.頻數頻率分佈錶
2.直方圖
3.經驗分佈函數
4.QQ圖
5.莖葉圖
6.箱形圖
18.7 數據的機率分佈
第19章 數據預處理
19.1 數據預處理完畢
19.2 資料淨化
19.2.1 填補缺失數據
19.2.2 消除噪聲數據
19.2.3 實現數據一緻性
19.3 資料整閤與轉換
19.3.1 資料整閤
19.3.2 數據轉換
19.4 數據歸約與壓縮
19.4.1 數據歸約
1.數據立方體
2.維歸約(特徵選擇)
19.4.2 數據壓縮
19.4.3 數值歸約
1.迴歸和對數線性模型
2.直方圖
3.聚類
4.抽樣
19.5 數值數據的概念分層與離散化
19.5.1 概念分層
19.5.2 概念分層的類型
1.模式分層
2.集閤分組分層
3.由操作導齣的分層
4.基於規則的分層
19.5.3 數值數據離散化
19.5.4 分類數據的概念分層
19.6 例題
第20章 分類
20.1 分類概述
20.2 方法
20.3 例題
1.輔助方法
2.分類方法
第21章 預測
21.1 迴歸分析
21.1.1 逐步迴歸
1.引入標準
2.剔除標準
21.1.2 嶺迴歸
21.1.3 主成分迴歸分析
21.2 時間序列預測模型
21.2.1 時間序列的特徵量
1.均值
2.方差(二階中心矩)
3.均方差
21.2.2 平穩時間序列預測模型
1.自迴歸模型
2.滑動平均模型
3.自迴歸—滑動模型
4.平滑預測模型
21.3 馬爾可夫鏈
21.4 灰色係統方法
21.4.1 灰色係統的基本概念
1.灰數
2.灰數白化與灰度
21.4.2 灰色序列生成算子
1.均值生成算子
2.纍加生成算子
3.纍減生成算子
21.4.3 灰色分析
1.GM(1,1)模型
2.GM(1,1)模型檢驗
3.殘差GM(1,1)模型
4.GM(1,N)模型
5.灰色災變預測
21.5 例題
第22章 聚類
22.1 聚類分析概述
22.2 聚類分析中的數據類型
1.記錄數據
2.基於圖形的數據
3.有序數據
22.3 相似性度量
22.3.1 屬性間的相似性度量
1.標稱和區間屬性
2.序數和比率數值屬性
22.3.2 對象間的相似性度量
22.3.3 相異度矩陣
1.數值屬性相似性度量
2.二值屬性的相似性度量
3.混閤屬性相似性度量
4.由距離度量轉換而來的相似性度量
22.4 聚類的特徵
22.5 聚類準則
22.6 劃分方法
22.7 層次方法
22.7.1 利用層次方法的平衡疊代歸約及聚類
22.7.2 利用代錶點聚類
22.8 基於密度的方法
22.9 基於網格的方法
22.10 基於模型的聚類方法
22.11 基於目標函數的方法
22.11.1 樣本與類之間的距離
22.11.2 類內距離
22.11.3 類與類之間的距離
22.12 離群點檢測
22.12.1 基於統計的離群點檢測方法
22.12.2 基於距離的離群點檢測方法
22.12.3 基於相對密度的離群點檢測方法
22.12.4 基於聚類的離群點檢測方法
1.基於對象的離群因子方法
2.基於簇的離群因子檢測方法
3.基於聚類的動態數據離群點檢測
22.12.5 離群點挖掘方法的評估
22.13 聚類有效性
22.13.1 內部質量評價準則
1.CH指標
2.I指標
3.Xie-Beni指標
4.Davies-Bouldin指標
5.Dunn指標
22.13.2 外部質量評價準則
22.14 例題
第23章 時序資料探勘
23.1 基本定義
23.2 時序資料探勘參數
1.時間長度
2.事件窗口
3.時間間隔
23.3 時序關聯規則
23.3.1 事務間關聯規則
23.3.2 情節規則
23.3.3 序列關聯規則
23.3.4 日曆關聯規則
23.4 時間序列挖掘
23.4.1 時間序列分析
23.4.2 趨勢分析
1.長期或趨勢變化
2.週期運動或變化
3.季節性變化或變化
4.非規則或隨機變化
23.4.3 相似性搜尋
1.數據變換
2.相似搜尋的索引方法
3.處理偏移和振幅中間隙和差異的相似性搜尋方法
23.4.4 週期分析
23.5 時間序列分段線性錶示
23.6 時間序列的預測
23.7 例題
第24章 關聯規則挖掘
24.1 關聯規則的類型及挖掘算法
24.2 基於組織進化的關聯規則挖掘
24.2.1 組織的定義
24.2.2 組織適應度的計算
24.2.3 組織進化算子
24.2.4 算法步驟
24.3 基於組織層次進化的關聯規則挖掘
24.3.1 聚閤算子
24.3.2 進化種群pe和最優種群pb
24.3.3 算法步驟
24.4 多維關聯規則挖掘
24.4.1 染色體的編碼
24.4.2 親和度函數的構造
24.4.3 算法步驟
24.5 關聯規則擴展
24.5.1 多層次關聯規則
24.5.2 多維度關聯規則
24.5.3 定量關聯規則
24.5.4 基於約束的關聯規則
24.6 例題

圖書序言

  • ISBN:9789865162962
  • 規格:普通級
  • 齣版地:颱灣
  • 檔案格式:EPUB流動版型
  • 建議閱讀裝置:手機、平闆
  • TTS語音朗讀功能:無
  • 檔案大小:101.4MB

圖書試讀

用戶評價

相關圖書

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 ttbooks.qciss.net All Rights Reserved. 小特书站 版權所有