學習小筆記機器學習

看書的時候做點筆記，偶爾翻出來看看才能真正掌握；否則很快就遺忘了（艾賓浩斯遺忘曲線）。

1 整合學習bagging基於自助取樣法；給定包含 m 個樣本的資料集，我們先隨機取出乙個樣本放入取樣集中，再把該樣本放回初始資料集，使得下次取樣時該樣本仍有可能被選中，這樣，經過 m次隨機取樣操作，我們得到含 m 個樣本的取樣集，初始訓練集中有的樣本在取樣集裡多次出現，有的則從未出現.由式 (2.1)可知，初始訓練集中約有 63.2%的樣本出現在來樣集中.

照這樣，我們可取樣出 t 個含 m 個訓練樣本的取樣集，然後基於每個取樣集訓練出乙個基學習器，再將這些基學習器進行結合.這就是 bagging 的基本流程.在對**輸出進行結合時， bagging 通常對分類任務使用簡單投票法，對回歸任務使用簡單平均法。

自助取樣過程還給 bagging 帶來了另乙個優點:由於每個基學習器只使用了初始訓練集中約 63.2% 的樣本，剩下約 36.8% 的樣本可用作驗證集來對泛化效能進行"包外估計" 。

隨機森林(random forest，簡稱 rf)是 bagging的乙個擴充套件變體.在以決策樹為基學習器構建 bagging 整合的基礎上，進一步在決策樹的訓練過程中引入了隨機屬性選擇.具體來說，傳統決策樹在選擇劃分屬性時是在當前結點的屬性集合(假定有 d 個屬性)中選擇乙個最優屬性;而在rf 中，對基決策樹的每個結點，先從該結點的屬性集合中隨機選擇乙個包含 k 個屬性的子集，然後再從這個子集中選擇乙個最優屬性用於劃分. 這裡的引數k 控制了隨機性的引入程度 ;若令 k = d ，則基決策樹的構建與傳統決策樹相同;若令 k = 1 ，則是隨機選擇乙個屬性用於劃分 ; 一般情況下，推薦值 k = log2 d[breiman, 2001].

隨機森林中基學習器的多樣性不僅來自樣本擾動，還來自屬性擾動，這就使得最終整合的泛化效能可通過個體學習器之間差異度的增加而進一步提公升。

2, 如何進行多樣性增強？

在整合學習中需有效地生成多樣性大的個體學習器 . 與簡單地直接用初始資料訓練出個體學習器相比，如何增強多樣性呢?一般思路是在學習過程中引入隨機性，常見做法主要是對資料樣本、輸入屬性、輸出表示、演算法引數進行

擾動。

3,特徵選擇

作用：1，現實任務中常遇到維數災難問題，若能選擇出重要的特徵，僅在一部分特徵上構造模型，則維數災難問題可大為減輕；

2，去除不相關的特徵往往會降低學習任務的難度，就像偵探破案一樣，若將紛繁複雜的因素抽絲剝繭，只留下關鍵因素，則真相往往更易看清。

3，減少涉及的計算和儲存開銷

選擇過程：子集搜尋 + 子集評價（可用資訊熵增益）

4 l1正規化與l2正規化

總的來說，l1與l2正規化都可以降低過擬合風險，但l1更容易獲得稀疏解。

5 強化學習（reinforcement learning）簡介

強化學習是機器學習中的乙個領域，強調如何基於環境而行動，以取得最大化的預期利益。其靈感**於心理學中的行為主義理論，即有機體如何在環境給予的獎勵或懲罰的刺激下，逐步形成對刺激的預期，產生能獲得最大利益的習慣性行為。（得到一種策略）

強化學習任務通常用馬爾可夫決策過程 (markov decision process，簡稱 mdp)來描述:機器處於環境 e 中，狀態空間為 x，其中每個狀態 x 屬於x ，是機器感知到的環境的描述，如在種瓜任務上這就是當前瓜苗長勢的描述;機器能採取的動作構成了動作空間 a ，如種瓜過程中有澆水、施不同的肥、使用不同的農藥等多種可供選擇的動作;若某個動作 a屬於a 作用在當前狀態 x上，則潛在的轉移函式 p 將使得環境從當前狀態按某種概率轉移到另 a個狀態，如瓜苗狀態為缺水，若選擇動作澆水，則瓜苗長勢會發生變化，瓜苗有一定的概率恢復健康,也有一定的概率無法恢復;在轉移到另乙個狀態的同時，環境會根據潛在的"獎賞" (reward) 函式 r 反饋給機器乙個獎賞，如保持瓜苗健康對應獎賞 +1，瓜苗凋零對應獎賞-10，最終種出了好瓜對應獎賞 +100. 綜合起來，強化學習任務對應了四元組 e = (x,a,p,r),其中 p:x×a×x -->r 指定了狀態轉移概率， r:x×a×x -->r 指定了獎賞;在有的應用中，獎賞函式可能僅與狀態轉移有關，即 r:x×x -->r .

需注意"機器"與"環境"的界限，例如在種西瓜任務中，環境是因瓜生長的自然世界;在人棋對弈中，環境是棋盤與對手;在機械人控制中，環境是機械人的軀體與物理世界.總之，在環境中狀態的轉移、獎賞的返回是不受機器控制的，機器只能通過選擇要執行的動作來影響環境，也只能通過觀察轉移後的狀態和返回的獎賞來感知環境。

機器要做的是通過在環境中不斷地嘗試而學得乙個"策略" (policy) π，根

據這個策略，在狀態 z 下就能得知要執行的動作 α= π(x) ，例如看到瓜苗狀態是缺水時，能返回動作"澆水"策略有兩種表示方法:二種是將策略表示為函式π :x -->a ，確定性策略常用這種表示;另一種是概率表示汀 :x×a–>r.，

隨機性策略常用這種表示.π(x ,α) 為狀態 x下選擇動作 α 的概率;這裡必須有∑π(x ,α)= 1 ；

強化學習在某種意義上可看作具有"延遲標記資訊"的監督學習問題.

「k-搖臂賭博機」可以看做是乙個單步強化學習的例項。

在強化學習的經典任務設定中，機器所能獲得的反饋資訊僅有多步決策後的累積獎賞，但在現實任務中，往往能得到人類專家的決策過程範例，例如在種瓜任務上能得到農業專家的種植過程範例.從這樣的範例中學習，稱為"模仿學習" (imitation learning) 。

深度強化學習全稱是 deep reinforcement learning（drl），其所帶來的推理能力是智慧型的乙個關鍵特徵衡量，真正的讓機器有了自我學習、自我思考的能力。深度強化學習(deep reinforcement learning，drl)本質上屬於採用神經網路作為值函式估計器的一類方法，其主要優勢在於它能夠利用深度神經網路對狀態特徵進行自動抽取，避免了人工定義狀態特徵帶來的不準確性，使得智慧型體agent能夠在更原始的狀態上進行學習。

6 基於梯度的學習

線性模型和神經網路的最大區別，在於神經網路的非線性導致大多數我們感興趣的損失函式都成為了非凸的。這意味著神經網路的訓練通常使用的迭代的、基於梯度的優化，僅僅使得代價函式達到乙個非常小的值；而不是像用於訓練線性回歸模型的線性方程求解器，或者用於訓練邏輯回歸或svm的凸優化演算法那樣具有全域性的收斂保證。凸優化從任何一種初始引數出發都會收斂（理論上如此——在實踐中也很魯棒但可能會遇到數值問題）。用於非凸損失函式的隨機梯度下降沒有這種收斂性保證，並且對引數的初始值很敏感。對於前饋神經網路，將所有的權重值初始化為小隨機數是很重要的。偏置可以初始化為零或者小的正值。訓

練演算法幾乎總是基於使用梯度來使得代價函式下降的各種方法即可。一些特別的演算法是對梯度下降思想的改進和提純。

深度神經網路設計中的乙個重要方面是代價函式的選擇。

貫穿神經網路的乙個主題是代價函式的梯度必須足夠的大和具有足夠的**性，來為學習演算法提供乙個好的指引。飽和（變得非常平）的函式破壞了這一目標，因為它們把梯度變得非常小。這在很多情況下都會發生，因為用於產生隱藏單元或者輸出單元的輸出的啟用函式會飽和。負的對數似然幫助我們在很多模型中避免這個問題。很多輸出單元都會包含乙個指數函式，這在它的變數取絕對值非常大的負值時會造成飽和。負對數似然代價函式中的對數函式消除了某些輸出單元中的指數效果。

學習小筆記機器學習

機器學習學習筆記

機器學習學習筆記

機器學習學習筆記

學習小筆記 機器學習

機器學習學習筆記

機器學習 學習筆記

機器學習 學習筆記

相關推薦

學習小筆記機器學習

機器學習學習筆記

機器學習學習筆記