版權訊息
內容簡介
前言
第1篇 關於資料探勘
第1章 緒論
1.1 資料探勘概述
1.2 資料探勘的分類
1.根據資料庫類型分類
2.根據資料探勘對象分類
3.根據資料探勘任務分類
4.根據資料探勘方法分類
5.根據資料探勘技術分類
6.根據資料探勘應用分類
1.3 資料探勘的過程
1.4 資料探勘的任務
1.概念描述
2.關聯分析
3.時間序列分析
4.分類分析
5.聚類分析
6.離群點檢測
7.預測
1.5 資料探勘的對象
1.5.1 資料庫
1.關係資料庫
2.資料倉儲
3.事務資料庫
4.物件導嚮資料庫
5.關係對象資料庫
6.空間資料庫
7.時態資料庫和時間序列資料庫
1.5.2 文本
1.5.3 圖像與影片數據
1.5.4 Web數據
1.異構資料整閤和挖掘
2.半結構化數據模型抽取
1.6 資料探勘建模方法
1.6.1 業務理解
1.6.2 數據理解
1.6.3 數據準備
1.6.4 建模
1.預測模型的時間範圍
2.模型的使用有效期
3.建立模型的假設
1.6.5 評估
1.6.6 部署
1.7 資料探勘的應用
1.7.1 在金融領域中的應用
1.7.2 在零售業中的應用
1.7.3 在電信業中的應用
1.7.4 在管理中的應用
1.7.5 在化學研究領域中的應用
1.7.6 在材料研究、生產方麵的應用
1.7.7 在機械故障診斷與監測中的應用
1.7.8 在醫療領域中的應用
第2篇 資料探勘算法
第2章 決策樹算法
2.1 決策樹算法概述
2.2 決策樹基本算法
2.3 ID3算法
2.4 C4.5算法
2.5 CART算法
2.6 決策樹的評價標準
1.正確性
2.過學習
3.有效性
4.交叉有效性
5.餘一有效性
6.複雜度
2.7 決策樹的剪枝及優化
1.預剪枝
2.後剪枝
2.8 基於MATLAB的決策樹分析
第3章 人工神經網路算法
3.1 人工神經網路概述
3.2 人工神經網路的基本模型
3.2.1 神經元
3.2.2 傳遞函數
3.2.3 人工神經網路的分類
3.3 BP神經網路
3.3.1 BP人工神經網路結構
3.3.2 BP人工神經網路的學習算法
3.4 RBF神經網路
3.4.1 RBF網路結構
3.4.2 RBF人工神經網路的學習算法
3.5 SOM神經網路
3.5.1 SOM神經網路結構
3.5.2 SOM神經網路學習算法
3.6 反饋型神經網路(Hopfield)
3.6.1 Hopfield網路的拓撲結構
3.6.2 Hopfield網路的學習算法
3.7 基於MATLAB的神經網路方法
3.7.1 訊息錶達方式
3.7.2 網路模型選擇
3.7.3 網路參數選擇
3.7.4 學習訓練算法選擇
3.7.5 係統仿真的性能對比
第4章 進化算法
4.1 概述
4.2 進化算法的基本原理
4.2.1 編碼
1.二進位編碼
2.符號編碼
3.浮點數編碼
4.格雷編碼
4.2.2 適應度函數
4.2.3 遺傳算子
1.選擇算子
2.交叉算子
3.變異算子
4.2.4 基因算法的特點
4.3 基因算法的主要步驟
4.4 基本遺傳算法
4.4.1 遺傳算法的基本流程
4.4.2 控製參數選擇
1.串長l
2.群體大小n
3.交叉機率pc
4.變異機率pm
4.5 進化規劃算法
4.5.1 變異算子
4.5.2 選擇算子
4.6 進化策略計算
4.6.1 進化策略算法的基本流程
4.6.2 算法的構成要素
1.染色體構造
2.進化策略的算子
4.7 量子遺傳算法
4.7.1 基本概念
1.量子比特
2.量子染色體
4.7.2 量子遺傳算法流程
4.7.3 量子算法中的控製參數
1.量子染色體
2.量子鏇轉門
3.量子非門操作
4.8 人工免疫算法
4.8.1 人工免疫算法的生物學基礎
1.生物免疫係統
4.8.2 生物免疫基本原理
4.8.3 人工免疫算法的基本概念
1.人工免疫係統的定義
2.免疫算法的基本思想
4.8.4 免疫算子
1.提取疫苗算子
2.接種疫苗算子
3.免疫檢測算子
4.免疫平衡算子
5.免疫選擇算子
6.複製算子
4.8.5 免疫算法與免疫係統的對應
4.8.6 人工免疫算法與遺傳算法的比較
4.9 基於MATLAB的進化算法
1.命令行方法
2.GUI方法
第5章 統計分析方法
5.1 假設檢驗
5.1.1 隨機誤差的判斷
1.χ2檢驗
2.F檢驗
5.1.2 係統誤差的檢驗
1.平均值與給定值比較
2.兩個平均值的比較
3.成對數據的比較
5.2 迴歸分析
5.2.1 一元線性迴歸分析
1.一元線性迴歸的數學模型
2.迴歸方程的顯著性檢驗
3.利用迴歸方程進行預測
5.2.2 多元線性迴歸分析
1.多元線性迴歸模型
2.迴歸方程顯著性檢驗
3.迴歸係數顯著性檢驗
4.擬閤檢驗
5.Y的預測區間
5.2.3 非線性迴歸分析
1.常用的可轉化為一元線性迴歸的模型
2.一元多項式迴歸
5.2.4 虛擬及離散變量迴歸模型
5.2.5 異常點、高槓桿點和強影響觀測值
5.2.6 迴歸假設檢驗
5.3 二項邏輯(logistic)迴歸
5.3.1 二項邏輯迴歸模型
5.3.2 顯著性檢驗
1.迴歸係數的顯著性檢驗
2.線性關係的顯著性檢驗
5.3.3 迴歸方程的擬閤優度檢驗
1.基於Cox & Snell R2統計量的優度檢驗
2.基於Nagelkerke R2統計量的優度檢驗
5.4 方差分析
5.4.1 單因素試驗的方差分析
5.4.2 雙因素試驗的方差分析
1.雙因素無重複試驗的方差分析
2.雙因素重複試驗的方差分析
5.5 主成分分析
5.5.1 主成分分析的數字模型
5.5.2 主成分計算步驟
5.5.3 主成分估計
5.5.4 主成分篩選
5.6 因子分析
5.6.1 因子分析的一般數學模型
5.6.2 因子模型中公共因子、因子載荷和變量共同度的統計意義
1.因子載荷的統計意義
2.變量共同度的統計意義
3.公共因子的方差貢獻的統計意義
5.6.3 因子分析與主成分分析的聯繫與區別
5.6.4 Q型和R型因子分析
5.7 基於MATLAB的統計分析方法
第6章 貝葉斯網路方法
6.1 貝葉斯定理、先驗和後驗
6.2 貝葉斯網路
6.3 貝葉斯網路學習
6.3.1 貝葉斯網路的結構學習
6.3.2 貝葉斯網路的參數學習
1.基於完整數據的貝葉斯網路參數學習
2.不完整數據下的貝葉斯網路參數學習
6.4 主要貝葉斯網路模型
6.4.1 樸素貝葉斯網路
6.4.2 TAN貝葉斯網路
6.4.3 無約束貝葉斯網路
6.5 基於MATLAB的貝葉斯網路方法
第7章 支持嚮量機
7.1 支持嚮量機概述
7.2 核函數
7.3 基於MATLAB的支持嚮量機方法
第8章 關聯分析
8.1 概述
8.1.1 關聯規則的主要概念
8.1.2 關聯規則的種類
8.1.3 關聯規則的價值衡量的方法
1.係統客觀層麵
2.用戶主觀層麵
8.2 Apriori關聯規則算法
8.3 基於分類搜尋的關聯規則算法
8.3.1 基於分類搜尋的關聯規則算法特點
1.分類特點
2.搜尋特點
3.存儲特點
8.3.2 算法流程與實現
8.3.3 數據更新實現
8.4 時序關聯規則算法
8.5 多值屬性關聯規則算法
8.5.1 靜態離散屬性關聯規則
8.5.2 動態離散關聯規則
8.5.3 基於距離的關聯規則
8.6 增量關聯規則算法
8.7 基於關聯規則的分類算法
8.8 模糊關聯分類算法
8.8.1 屬性的模糊劃分
8.8.2 模糊關聯的定義
8.9 關聯規則的評價
8.9.1 支持度—置信度框架
8.9.2 基於主觀因素的主觀度量
8.10 辛普森悖論
8.11 基於MATLAB的關聯規則分析
第9章 其他資料探勘方法
9.1 近鄰法
9.2 K-means聚類
9.3 基於MATLAB的近鄰法及K-means聚類法
第3篇 資料探勘相關技術
第10章 資料倉儲
10.1 概述
10.1.1 資料倉儲重要特性
1.麵嚮主題性
2.資料整閤性
3.數據的時變性
4.數據的非易失性
5.數據的集閤性
6.支持決策作用
10.1.2 資料倉儲中幾個重要概念
1.維
2.數據立方體
3.聚集
4.數據顆粒度
5.元數據
10.2 資料倉儲設計
10.2.1 資料倉儲的總體結構
10.2.2 資料倉儲的基本功能層
10.2.3 資料倉儲技術
10.2.4 資料倉儲設計
10.2.5 資料倉儲設計步驟
1.概念模型的設計
2.邏輯模型的設計
3.物理模型的設計
10.3 資料倉儲的開發應用
10.3.1 資料倉儲概念模型設計與開發
1.概念模型的需求調查
2.概念模型的定義
3.概念模型的分析
4.概念模型的設計
10.3.2 資料倉儲的邏輯模型設計
1.分析主題域
2.粒度層次的劃分
3.確定數據分割策略
4.關係模型定義
5.資料倉儲的實體定義
6.數據抽取模型
10.3.3 資料倉儲物理模型的設計
1.資料倉儲設計的規範
2.確定數據結構的類型
3.確定索引策略
4.確定數據存放位置
5.確定存儲分配
10.4 資料倉儲的技術管理
1.數據加載的一些問題
2.故障恢復管理
3.訪問控製與安全管理
4.數據增長的管理
10.5 OLAP技術
10.5.1 基本概念
1.維成員
2.多維數據集
3.數據單元
4.多維數據集的度量值
10.5.2 多維分析
1.多維的切片
2.多維的切塊
3.鏇轉
4.其他OLAP操作
10.5.3 維的層次關係
10.5.4 維的類關係
10.5.5 OLAP與資料倉儲的關係
10.6 基於MATLAB的資料倉儲開發技術
10.6.1 資料庫工具箱
1.VQB
2.資料庫工具箱涵數
3.建立資料庫連接
4.資料庫函數
10.6.2 視覺查詢產生器
1.建立數據源
2.啟動與關閉VQB
3.建立並執行輸入數據的查詢
4.為讀取數據建立查詢並執行
5.保存和編輯查詢
6.為NULLS、數據格式和錯誤處理指定優先權
7.瀏覽查詢結果
8.精細查詢
9.MATLAB的邏輯型數(Boolean Data)
10.6.3 數據的存取類型
1.結構數組
2.單元數組
3.多維數組、單元數組或結構數組
10.6.4 數據輸入和輸齣
1.保存和加載MAT文件
2.輸入文本數據
3.輸入帶有文本頭的數據
4.輸入/輸齣電子錶數據
5.低級文件輸入/輸齣函數
第11章 模糊集理論
11.1 模糊集閤
11.1.1 隸屬度函數
11.1.2 模糊集運算
1.交集(邏輯與)
2.閤集(邏輯或)
3.補集(邏輯非)
4.模糊集的基
11.1.3 λ截集
11.2 模糊關係
1.最大隸屬度原則
2.閾值原則
11.3 模糊聚類
11.3.1 數據標準化
1.標準差標準化
2.極差標準化
11.3.2 相似係數和距離
1.數量積法
2.夾角餘弦法
3.相關係數法
4.最大最小法
5.算術平均法
6.當,可以採用幾何平均最小法
7.絕對值指數法
8.指數相似係數法
9.絕對值倒數法
10.絕對值減數法
11.貼近法
11.3.3 模糊聚類分析
1.建立模糊相似矩陣
2.將模糊相似關係變換為模糊等價關係
3.模糊聚類
11.3.4 模糊K-均值聚類
11.4 基於MATLAB的模糊集處理技術
第12章 粗糙集技術
12.1 粗糙集理論的基本概念
12.1.1 知識錶達係統和決策錶
12.1.2 等價關係
12.1.3 等價劃分
12.1.4 上近似集和下近似集
1.下近似定義
2.上近似定義
3.正域、負域和邊界的定義
12.1.5 粗糙集
12.1.6 粗糙集的非確定性的精確度αA(Y)和粗糙度ρA(Y)
12.2 分類規則的形成
12.3 知識的約簡
12.3.1 決策錶的一緻性
12.3.2 屬性約簡
12.3.3 分辨矩陣與分辨函數
12.4 模糊集與粗糙集
12.5 基於MATLAB的粗糙集處理方法
第13章 目標優化技術
13.1 目標優化概述
13.2 極值問題
1.連續情況
2.離散情況
13.3 無約束非線性規劃
13.3.1 梯度下降法
13.3.2 共軛梯度法
13.3.3 牛頓法
13.4 有約束非線性規劃
13.5 大規模優化問題的分解算法
13.5.1 問題的描述
13.5.2 目標協調法
13.5.3 模型協調法
13.5.4 混閤協調法
13.6 其他優化方法
13.7 基於MATLAB的目標優化方法
第14章 視覺化技術
14.1 視覺化技術概述
14.2 視覺化技術分類
14.2.1 數據視覺化
14.2.2 科學計算視覺化
14.2.3 訊息視覺化
14.2.4 知識視覺化
14.3 多維數據視覺化
14.3.1 平行坐標錶示法
14.3.2 雷達圖
14.3.3 樹形圖
14.3.4 三角多項式圖
14.3.5 散佈圖
1.直角散佈圖
2.散佈圖矩陣
3.三角形散佈圖
14.3.6 星座圖
14.3.7 基於像素的高維數據的視覺化
14.3.8 基於非線性變換的圖錶示優化
1.指數函數
2.多項式函數
3.分段函數
14.3.9 高維數據降維
1.主成分分析
2.因子分析
3.基於特徵選取思想的降維方法
14.4 圖形的特徵分析
14.4.1 平行坐標下的聚簇分析
14.4.2 雷達圖的圖形特徵方法
1.麵積圖形特徵
2.重心圖形特徵
14.4.3 圖形特徵提取中的特徵排序問題
14.5 基於多元圖的圖形分類方法
14.5.1 單原型圖形分類器
14.5.2 基於平行坐標的平行篩視覺化分類方法
14.5.3 基於平行坐標的貝葉斯視覺化分類方法
14.6 基於色度學空間的多元圖錶示
14.7 基於MATLAB的數據視覺化技術
第15章 公式發現
15.1 公式發現概述
15.2 公式發現係統中的知識
15.2.1 規則一(函數規則)
1.發現常數
2.兩變量的初等運算組閤
3.變量取初等函數
4.兩變量取初等函數的線性組閤
5.某變量取某一初等函數與另一變量的線性組閤
6.對某一變量xj取初等函數
7.建立新變量(啟髮式1)
8.建立某變量的某種初等函數為新變量(啟髮式2)
15.2.2 規則二(導數規則)
1.差分發現常數
2.差商發現常數
3.特殊函數形式導數函數
4.兩變量的導數運算組閤
5.兩變量取導數運算的線性組閤
15.2.3 多維函數擴展規則
1.擴展到三維函數公式的啟髮式規則
2.擴展到四維函數公式的啟髮式規則
3.多維函數的擴展
15.2.4 規則三
1.函數規則
2.函數嵌套規則
3.誤差規則
4.終止規則
15.3 基於MATLAB的公式發現
第16章 多媒體資料探勘技術
16.1 多媒體資料探勘技術概述
16.1.1 數據類型
16.1.2 多媒體資料庫管理係統(MM-DBMS)
1.數據操作
2.事務管理
3.元數據管理
4.存儲管理
5.保證數據的完整性和安全性
6.其他功能
16.2 文本挖掘
16.2.1 基於關鍵字的關聯分析
16.2.2 文檔分類分析
1.文檔預處理
2.文檔的錶示
3.常用文本分類模型
4.文本分類器學習、測試和評價
16.3 圖像挖掘
16.4 影片挖掘
16.4.1 結構挖掘
16.4.2 運動挖掘
16.4.3 趨勢挖掘
16.5 音頻挖掘
16.6 復閤類型數據的挖掘
第17章 Web資料探勘技術
17.1 Web資料探勘技術概述
17.2 Web內容挖掘
17.2.1 爬蟲
17.2.2 虛擬Web視圖
17.2.3 個性化
17.3 Web結構挖掘
17.3.1 PageRank
17.3.2 Clever
17.4 Web使用挖掘
17.4.1 預處理
17.4.2 數據結構
17.4.3 模式發現
17.4.4 模式發現
17.4.5 基於組織協同進化的Web日誌挖掘算法
第4篇 資料探勘應用實戰
第18章 數據統計特性
18.1 數據關係發現
18.2 頻率和眾數
18.3 百分位數(percentile)
18.4 中心度量
18.5 散佈程度度量
18.6 數據的分佈描述
1.頻數頻率分佈錶
2.直方圖
3.經驗分佈函數
4.QQ圖
5.莖葉圖
6.箱形圖
18.7 數據的機率分佈
第19章 數據預處理
19.1 數據預處理完畢
19.2 資料淨化
19.2.1 填補缺失數據
19.2.2 消除噪聲數據
19.2.3 實現數據一緻性
19.3 資料整閤與轉換
19.3.1 資料整閤
19.3.2 數據轉換
19.4 數據歸約與壓縮
19.4.1 數據歸約
1.數據立方體
2.維歸約(特徵選擇)
19.4.2 數據壓縮
19.4.3 數值歸約
1.迴歸和對數線性模型
2.直方圖
3.聚類
4.抽樣
19.5 數值數據的概念分層與離散化
19.5.1 概念分層
19.5.2 概念分層的類型
1.模式分層
2.集閤分組分層
3.由操作導齣的分層
4.基於規則的分層
19.5.3 數值數據離散化
19.5.4 分類數據的概念分層
19.6 例題
第20章 分類
20.1 分類概述
20.2 方法
20.3 例題
1.輔助方法
2.分類方法
第21章 預測
21.1 迴歸分析
21.1.1 逐步迴歸
1.引入標準
2.剔除標準
21.1.2 嶺迴歸
21.1.3 主成分迴歸分析
21.2 時間序列預測模型
21.2.1 時間序列的特徵量
1.均值
2.方差(二階中心矩)
3.均方差
21.2.2 平穩時間序列預測模型
1.自迴歸模型
2.滑動平均模型
3.自迴歸—滑動模型
4.平滑預測模型
21.3 馬爾可夫鏈
21.4 灰色係統方法
21.4.1 灰色係統的基本概念
1.灰數
2.灰數白化與灰度
21.4.2 灰色序列生成算子
1.均值生成算子
2.纍加生成算子
3.纍減生成算子
21.4.3 灰色分析
1.GM(1,1)模型
2.GM(1,1)模型檢驗
3.殘差GM(1,1)模型
4.GM(1,N)模型
5.灰色災變預測
21.5 例題
第22章 聚類
22.1 聚類分析概述
22.2 聚類分析中的數據類型
1.記錄數據
2.基於圖形的數據
3.有序數據
22.3 相似性度量
22.3.1 屬性間的相似性度量
1.標稱和區間屬性
2.序數和比率數值屬性
22.3.2 對象間的相似性度量
22.3.3 相異度矩陣
1.數值屬性相似性度量
2.二值屬性的相似性度量
3.混閤屬性相似性度量
4.由距離度量轉換而來的相似性度量
22.4 聚類的特徵
22.5 聚類準則
22.6 劃分方法
22.7 層次方法
22.7.1 利用層次方法的平衡疊代歸約及聚類
22.7.2 利用代錶點聚類
22.8 基於密度的方法
22.9 基於網格的方法
22.10 基於模型的聚類方法
22.11 基於目標函數的方法
22.11.1 樣本與類之間的距離
22.11.2 類內距離
22.11.3 類與類之間的距離
22.12 離群點檢測
22.12.1 基於統計的離群點檢測方法
22.12.2 基於距離的離群點檢測方法
22.12.3 基於相對密度的離群點檢測方法
22.12.4 基於聚類的離群點檢測方法
1.基於對象的離群因子方法
2.基於簇的離群因子檢測方法
3.基於聚類的動態數據離群點檢測
22.12.5 離群點挖掘方法的評估
22.13 聚類有效性
22.13.1 內部質量評價準則
1.CH指標
2.I指標
3.Xie-Beni指標
4.Davies-Bouldin指標
5.Dunn指標
22.13.2 外部質量評價準則
22.14 例題
第23章 時序資料探勘
23.1 基本定義
23.2 時序資料探勘參數
1.時間長度
2.事件窗口
3.時間間隔
23.3 時序關聯規則
23.3.1 事務間關聯規則
23.3.2 情節規則
23.3.3 序列關聯規則
23.3.4 日曆關聯規則
23.4 時間序列挖掘
23.4.1 時間序列分析
23.4.2 趨勢分析
1.長期或趨勢變化
2.週期運動或變化
3.季節性變化或變化
4.非規則或隨機變化
23.4.3 相似性搜尋
1.數據變換
2.相似搜尋的索引方法
3.處理偏移和振幅中間隙和差異的相似性搜尋方法
23.4.4 週期分析
23.5 時間序列分段線性錶示
23.6 時間序列的預測
23.7 例題
第24章 關聯規則挖掘
24.1 關聯規則的類型及挖掘算法
24.2 基於組織進化的關聯規則挖掘
24.2.1 組織的定義
24.2.2 組織適應度的計算
24.2.3 組織進化算子
24.2.4 算法步驟
24.3 基於組織層次進化的關聯規則挖掘
24.3.1 聚閤算子
24.3.2 進化種群pe和最優種群pb
24.3.3 算法步驟
24.4 多維關聯規則挖掘
24.4.1 染色體的編碼
24.4.2 親和度函數的構造
24.4.3 算法步驟
24.5 關聯規則擴展
24.5.1 多層次關聯規則
24.5.2 多維度關聯規則
24.5.3 定量關聯規則
24.5.4 基於約束的關聯規則
24.6 例題