周志華 機器學習 讀書筆記

2021-08-26 23:50:24 字數 4262 閱讀 2442

分類(classification): **的是離散值, 比如「好瓜」 「壞瓜」。

回歸(regression): **的是連續值, 例如西瓜成熟度「0.79", "0.95"。

泛化(generalization): 學得模型適用於新樣本的能力,稱為"泛化" (generalization)能力.

資料探勘(data mining): 從海量資料中發掘知識. ,資料庫領域的研究為資料探勘提供資料管理技術, 而機器學習和統計學的研究為資料探勘提供資料分析技術.

通過對 資料集d 進行適當的處理,從中產生出訓練集 s 和測試集 t 的方法:

1. 留出法(hold-out): 直接將資料集 d 劃分為兩個互斥的集合, 其中乙個集合作為訓練集 s,另乙個作為測試集 t。訓練/測試集的劃分要盡可能保持資料分布的一致性,避免因資料劃分過程引入額外的偏差而對最終結果產生影響, 例如可以採用分層取樣的方法。常見做法是將大約 2/3 rv 4/5 的樣本用於訓練,剩餘樣本用於測試.

2. 交叉驗證法(cross validation): 先將資料集 d 劃分為 k 個大小相似的互斥子集, 即 d = d1 u d2υ... u d k, di n dj = ø (í 手 j ) . 每個子集 di 都盡可能保持資料分布的一致性,即從 d 中 通過分層取樣得到. 然後,每次用k-1 個子集的並集作為訓練集, 餘下的那個子集作為測試集;這樣就可獲得 k 組訓練/測試集,從而可進行 k 次訓練和測試.  最終返回的是這 k 個測試結果的均值.

自助法在資料集較小、難以有效劃分訓練/測試集時很有用;此外,自助法能從初始資料集中產生多個不同的訓練集,這對整合學習等方法有很大的好處. 然而,自助法產生的資料集改變了初始資料集的分布,這會引入估計偏差. 因此,在初始資料量足夠時,留出法和交叉驗證法更常用一些.

模型評估與選擇中用於評估測試的資料集常稱為"驗證集" (validation set).

錯誤率精度是分類任務中最常用的兩種效能度量,既適用於二分類任務,也適用於多分類任務.錯誤率是分類錯誤的樣本數佔樣本總數的比例,精度則是分類正確的樣本數佔樣本總數的比例.

偏差度量了學習演算法的期望**與真實結果的偏離程度,即刻畫了學習演算法本身的擬合能力;方差度量了同樣大小的訓練集的變動所導致的學習效能的變化,即刻畫了資料擾動所造成的影響;雜訊則表達了在當前任務上任何學習演算法所能達到的期望泛化誤

差的下界,即刻畫了學習問題本身的難度.偏差一方差分解說明,泛化效能是由學習演算法的能力、資料的充分性以及學習任務本身的難度所共同決定的.

線性判別分析 (linear discriminant analysis,簡稱 lda)是一種經典的線性學習方法,給定訓練樣例集, 設法將樣例投影到一條直 線上,使得同類樣例的投影點盡可能接近、異類樣例的投影點盡可能遠離;在對新樣本進行分類時,將其投影到 同樣的這條直線上,再根據投影點的位置來確定新樣本的類別. 

編碼: 對 n 個類別做 m 次劃分, 每次劃分將一部分類別劃為正類,一部分劃為反類,從而形成乙個二分類訓練集;這樣一共產生 m 個訓練集,可訓練出 m 個分類器.

解碼: m 個分類器分別對測試樣本進行**,這些**標記組成乙個編碼.將這個**編碼與每個類別各自的編碼進行比較,返回其中距離最小的類別作為最終**結果.

類別不平衡問題:再縮放(rescaling)

第一類是直接對訓練集裡的反類樣例進行"欠取樣" (undersampling) ,即去除一些反倒使得正、反例數日接近, 然後再進行學習;

第二類是對訓練集裡的正類樣例進行"過來樣" (oversampling) ,即增加一些正例使得正、反例數目接近,然後再進行學習;

第三類則是直接基於原始訓練集進行學習,但在用訓練好的分類器進行**時,將式y'/1-y' = y/1-y x m-/m+嵌入到其決策過程中,稱為"閾值移動" (threshold-moving)

"再縮放"也是"代價敏感學習" (cost-sensitive learning)的基礎.在代價敏感學習中將式中的 m-/m+ 用 cost+ /cost-代替即可,其中 cost+ 是將正例誤分為反倒的代價, cost- 是將反例誤分為正例的代價.

bp 演算法的工作流程: 先將輸入示例提供給輸入層神經元, 然後逐層將訊號前傳, 直到產生輸出層的結果; 然後計算輸出層的誤差,再將誤差逆向傳播至隱層神經元,最後根據隱層神經元的誤差來對連線權和閾值進行調整. 該迭代過程迴圈進行,直到達到某些停止條件為止,例如訓練誤差己達到乙個很小的值.

兩策略常用來緩解bp網路的過擬合:

1.early stopping(早停): 將資料分成訓練集和驗證集,訓練集用

來計算梯度、更新連線權和閾值, 驗證集用來估計誤差,若訓練集誤差降低但驗證集誤差公升高, 則停止訓練,同時返回具有最小驗證集誤差的連線權和閾值.

2.regularization(正則化): 其基本思想是在誤差目標函式中增加乙個用於描述網路複雜度的部分, 例如連線權與閾值的平方和.

第七章 貝葉斯分類器(還需再看)

貝葉斯決策論在機器學習、模式識別等諸多關注資料分析的領域都有極為重要的地位.

第八章 整合學習

整合學習的一般結構:先產生一組"個體學習器" (individual learner) ,再用某種策略將它們結合起來。

目前的整合學習方法大致可分為兩大類:

1. 個體學習器間存在強依賴關係、必須序列生成的序列化方法:boosting

boosting 族演算法最著名的代表是 adaboost .

2. 個體學習器間不存在強依賴關係、可同時生成的並行化方法: bagging 和"隨機森林" (random forest).

bagging是並行式整合學習方法最著名的代表. 它直接基於自助取樣法 (bootstrap sampling).給定包含 m 個樣本的資料集,我們先隨機取出乙個樣本放入取樣集中,再把該樣本放回初始資料集,使得下次取樣時該樣本仍有可能被選中,這樣,經過 m

次隨機取樣操作,我們得到含 m 個樣本的取樣集,初始訓練集中有的樣本在取樣集裡多次出現,有的則從未出現.

隨機森林(random forest,簡稱 rf)是 bagging的乙個擴充套件變體.盯在以決策樹為基學習器構建 bagging 整合的基礎上,進一步在決策樹的訓練過程中引入了隨機屬性選擇.具體來說,傳統決策樹在選擇劃分屬性時是在當前結點的屬性集合(假定有 d 個屬性)中選擇乙個最優屬性;而在rf 中,對基決策樹的每個結點,先從該結點的屬性集合中隨機選擇乙個包含 k個屬性的子集,然後再從這個子集中選擇乙個最優屬性用於劃分.

第九章 聚類

原型聚類:

幾種著名的原型聚類演算法:

1. k均值演算法

2. 學習向量量化: 與 k 均值演算法類似,"學習向量量化" (learning vector quantization,簡稱 lvq)也是試圖找到一組原型向量來刻畫聚類結構, 但與一般聚類演算法不同的是,  lvq 假設資料樣本帶有類別標記,學習過程利用樣本的這些監督資訊來輔助聚類.

3. 高斯混合聚類: 與 k 均值、 lvq 用原型向量來刻畫聚類結構不同,高斯混合 (mixture-oιgaussian)聚類採用概率模型來表達聚類原型.

密度聚類:dbscan

密度聚類亦稱"基於密度的聚類" (density-based clustering) ,此類演算法假設聚類結構能通過樣本分佈的緊密程度確定.通常情形下,密度聚類演算法從樣本密度的角度來考察樣本之間的可連線性,並基於可連線樣本不斷擴充套件聚類簇以獲得最終的聚類結果.

層次聚類:agnes

層次聚類(hierarchical clustering)試圖在不同層次對資料集進行劃分,從而形成樹形的聚類結構 . 資料集的劃分可採用"自 底向上 "的聚合策略,也可採用 "自頂向下" 的分拆策略.

第十章 降維與度量學習

《機器學習》周志華讀書筆記(一)緒論

什麼是機器學習?mitchell,1997 假設用p來評估電腦程式在某任務類t上的效能,若乙個程式通過利用經驗e在t中任務上獲得了效能改善,則我們就說關於t和p,該程式對e進行了學習。全文第1章緒論部分重點介紹了機器學習中的基本術語 假設空間 歸納偏好 發展歷程與現狀 基本術語 以一批西瓜為例 估計...

《機器學習》周志華 讀書筆記二補充(原創)

第2章 模型評估與選擇 p24 p51 2017 2 24 fri model selection模型選擇 選用哪種學習演算法 使用哪種引數配置 理想的解決方案 對候選模型的泛化誤差進行評估,再選擇泛化誤差最小的那個模型 通過實驗來對學習器的泛化誤差進行評估並進而做出選擇 hold out留出法 將...

周志華機器學習第二章讀書筆記(二)

1 roc receiver operating characteristic 受試者工作特徵 研究學習器泛化能力 根據學習器的 結果對樣例進行排序,按此順序逐個把樣本作為正例進行 每次計算出兩個重要量的值,得到roc曲線。roc的橫軸是假正例率,縱軸是真正例率。如果乙個學習器的roc曲線被另乙個的...