第 1 章 機器與深度學習常用的數學基礎
1.1 數值資料表示方式
1.1.1 純量 (scalar)
1.1.2 向量 (vector)
1.1.3 矩陣 (matrix)
1.1.4 張量 (tensor)
1.2 向量與矩陣運算
1.2.1 向量和純量相乘
1.2.2 向量相乘
1.2.3 矩陣相乘
1.2.4 Hadamard 乘積
1.2.5 逆矩陣 (反矩陣)
1.3 矩陣分解
1.3.1 特徵分解 (Eigenvalue decomposition)
1.3.2 奇異值分解 (SVD)
第 2 章 機器學習相關機率論
2.1 集合
2.2 隨機試驗與樣本空間
2.2.1 隨機試驗範例
2.2.2 隨機試驗與公正與否
2.3 事件
2.3.1 基本事件與複合事件
2.3.2 事件空間
2.4 事件的機率
2.4.1 事件機率三大公理
2.4.2 事件機率相同的例子
2.4.3 事件機率不同的例子
2.4.4 事件機率運算規則
2.5 條件機率與貝氏定理
2.5.1 條件機率
2.5.2 貝氏定理
2.5.3 統計獨立
2.6 隨機變數
2.6.1 隨機變數的類型
2.6.2 多維隨機變數
2.7 機率分布與機率密度函數
2.7.1 機率分布
2.7.2 數位化都是離散型的隨機變數
2.7.3 一維機率密度函數
2.7.4 多維機率密度函數 (聯合機率密度函數)
2.7.5 邊際機率密度函數
2.8 機器學習常用到的統計機率模型
2.8.1 伯努利分布 (Bernoulli Distribution)
2.8.2 二項分布 (Binomial Distribution)
2.8.3 均勻分布 (Uniform Distribution)
2.8.4 常態分布 (Normal Distribution)
第 3 章 機器學習常用的統計學 (一)
3.1 資料結構分類
3.1.1 「正確的資料」與「好品質的資料」
3.1.2 結構化資料
3.1.3 非結構化資料
3.1.4 半結構化資料
3.2 將統計量作為資料的特徵表徵
3.2.1 期望值
3.2.2 各階中心動差
3.2.3 相關係數與共變異數
3.2.4 共變異數矩陣
第 4 章 機器學習常用的統計學 (二)
4.1 母體與樣本估計
4.1.1 樣本統計量與抽樣分布
4.1.2 樣本平均數的期望值等於母體平均數
4.1.3 樣本變異數的期望值等於母體變異數
4.1.4 小結
4.2 信賴區間
4.2.1 信賴區間與顯著水準、信心水準的關係
4.3 母體為常態分布的區間估計
4.31 常態分布的特性
4.3.2 將常態分布標準化:z-score
4.3.3 標準常態分布平均值的區間估計
4.3.4 每次抽樣都有不同的信賴區間
4.3.5 信賴區間的用途
4.4 自由度 (Degree of Freedom)
4.5 t-分布 (t-distribution)
4.5.1 t 值 (t-score):母體為常態,但標準差未知的情況
4.5.2 t 值與 z 值的關係
4.5.3 t-分布:隨機變數 t 的機率分布
4.6 抽樣數的選擇
4.6.1 母體數有無限個的情況
4.6.2 有限母體數的修正
4.7 假設檢定
4.7.1 假設檢定的預備知識
4.7.2 虛無假設、對立假設
4.7.3 檢定虛無假設成立的機率
4.7.4 計算橫軸上的 t 值
4.7.5 計算 p 值
第 5 章 機器學習常用的資料處理方式
5.1 資料標準化
5.1.1 Z 值標準化
5.1.2 Min-max 正規化
5.2 資料縮放
5.3 非線性轉換
5.3.1 對數函數能將數值範圍縮小
5.3.2 指數函數將數值轉換到特定範圍
5.3.3 非線性轉換較少用於資料前處理的原因
5.4 類別變數編碼
5.4.1 One-hot encoding
5.4.2 目標編碼 Target encoding
第 6 章 機器與深度學習常用到的基礎理論
6.1 機器、深度學習與統計學的關係
6.1.1 統計學與機器學習 (深度學習) 的差異
6.1.2 機器學習和深度學習的差異
6.2 監督式學習與非監督式學習
62.1 監督式學習 (Supervised Learning)
6.2.2 非監督式學習 (Unsupervised Learning)
6.3 最大概似估計
6.3.1 概似函數 (likelihood function)
6.3.2 範例:伯努利抽紅白球的機率
6.3.3 範例:常態分布找出平均值與變異數
6.4 貝氏法則理論與最大後驗機率
6.41 貝氏法則理論
6.4.2 最大後驗機率法
6.4.3 最大後驗機率法範例
6.5 常用到的距離和相似度計算方式
6.5.1 曼哈頓距離 (Manhattan Distance)
6.5.2 歐幾里得距離 (Euclidean Distance),歐氏距離
6.5.3 明可夫斯基距離 (Minkowski distance)
6.5.4 餘弦相似度 (Cosine similarity)
6.5.5 馬氏距離 (Mahalanobis Distance)
6.5.6 雅卡爾相似度係數 (Jaccard similarity coefficient)
6.6 損失函數
6.6.1 迴歸常用的損失函數:均方誤差、平均絕對值誤差
6.6.2 迴歸常用的損失函數:Huber 損失函數
6.6.3 分類常用的損失函數:交叉熵
6.6.4 交叉熵與相對熵、最大概似估計的關係
第 7 章 迴歸分析 Regression
7.1 簡單線性迴歸分析
7.1.1 用最小平方法找迴歸方程式
7.1.2 用最大概似函數估計法找迴歸方程式
7.2 多元線性迴歸分析
7.2.1 多元迴歸用向量與矩陣表示
7.2.2 用最小平方法求參數向量
7.3 非線性迴歸分析
第8章 分類 Classification
8.1 單純貝氏分類器 (Naive Bayes Classifier)
8.1.1 單純貝氏分類器的公式
8.1.2 高斯單純貝氏分類器
8.1.3 單純貝氏分類器的缺點與優點
8.2 線性區別分析 (LDA)
8.2.1 LDA 的概似函數
8.2.2 LDA 分類器公式
8.2.3 二分類的 LDA
8.3 羅吉斯迴歸 (Logistic Regression)
8.3.1 羅吉斯迴歸用 Sigmoid 函數限制值域
8.3.2 羅吉斯迴歸求參數的方法
第 9 章 統計降維法 Dimension Reduction
9.1 特徵數過多的問題
9.2 特徵選取法
9.2.1 刪除變異量最小的特徵資料
9.2.2 單一變數特徵選擇:迴歸任務
9.23 單一變數特徵選擇:分類任務
9.2.4 順序特徵選取
9.3 特徵萃取法
9.3.1 向量做投影空間轉換
9.3.2 PCA 主成分分析
9.3.3 LDA 線性區別分析
9.3.4 主成分分析 (PCA) 和線性區別分析 (LDA) 的差異
第 10 章 類神經網路 Artificial Neural Network
10.1 感知機神經網路 (Perceptron Neural Network)
10.1.1 常用的激活函數 (Activation function)
10.1.2 感知機神經網路運作範例
10.2 多層感知機神經網路 (Multilayer perceptron,MLP)
10.2.1 多層感知機神經網路與深度學習的區別
10.2.2 透過激活函數做到特徵非線性轉換
10.3 神經網路的前向傳遞
10.3.1 輸入層到隱藏層的前向傳遞
10.3.2 隱藏層到輸出層的前向傳遞
第 11 章 梯度下降法 Gradient Descent
11.1 梯度是微分的觀念
11.1.1 用微分找函數的極小值
11.1.2 離散資料用逼近的方式求解
11.1.3 梯度與梯度方向
11.2 梯度下降法的作法
11.2.1 梯度下降法的運算方式
11.2.2 學習率過大會無法收斂
11.2.3 學習率過小有可能只找到局部低點
第 12 章 倒傳遞學習法 Backpropagation
12.1 最小化損失函數以找出權重參數
12.2 隱藏層到輸出層的梯度
12.3 輸入層到隱藏層的梯度
12.4 前向傳遞與倒傳遞範例實作
12.4.1 前向傳遞計算預測值
12.4.2 用倒傳遞學習法反推以更新權重
12.4.3 用更新後的權重參數再做前向傳遞
12.5 梯度消失與梯度爆炸
第 13 章 參數常規化 Parameter Regularization
13.1 訓練擬合 (fitting) 的問題
13.2 損失函數加上懲罰項可避免過擬合
13.2.1 損失函數未加入懲罰項的範例
13.2.2 加入懲罰項做參數常規化的範例
13.2.3 λ 值對於常規化的影響
13.3 用懲罰項限制損失函數的求解範圍
13.4 常規化實際的解空間
第 14 章 模型評估 Model Validation
14.1 二元分類模型評估指標
14.1.1 二元分類的混淆矩陣
14.1.2 評估指標-正確率
14.1.3 評估指標-靈敏度、特異度
14.1.4 評估指標-偽陰性率、偽陽性率
14.1.5 評估指標-陽性預測值、陰性預測值
14.1.6 評估指標-陽性概似比、陰性概似比
14.1.7 評估指標-F1score 與 F(beta)score
14.1.8 評估指標-G-mean
14.1.9 算出所有的評估指標
14.1.10 ROC 曲線
14.2 多元分類評估指標
14.2.1 評估指標說明
14.2.2 多元評估指標範例
14.3 迴歸模型評估指標 (Regression Metrics)
14.3.1 三種評估指標-MSE、MAE、MSLE
14.3.2 MSLE 的優勢
14.4 交叉驗證:如何選取模型與模型評估
14.4.1 Resubstitution
14.4.2 Holdout CV
14.4.3 k-fold CV
14.4.4 Leave-one-out CV