《Python 機器學習》筆記（一）

涵蓋：1.機器學習的一般概念

2.機器學習方法的三種型別和基本術語

3.成功構建機器學習系統所需的模組

1.監督學習

2.無監督學習

3.強化學習

監督學習的主要目的是使用有類標的訓練資料構建模型，我們可以使用訓練得到的模型對未來資料進行**。此外，術語監督是指訓練資料集中的每個樣本均有乙個已知的輸出項（類標label）

1.利用分類對類標進行**

分類是監督學習的乙個子類，其目的是基於對過往類標已知示例的觀測與學習，實現對新樣本類標的**。這些類標是離散的、無序的值，他們可以視為樣本的組別資訊。

2.使用回歸**連續輸出值

強化學習的目標是構建乙個系統（agent）,在與環境（environment）互動的過程中提高系統的效能。環境的當前狀態資訊中通常包含乙個反饋(reward)訊號，我們可以將強化學習視為與監督學習相關的乙個領域。然而，在強化學習中，這個反饋值不是乙個確定的類標或者連續型別的值，而是乙個通過反饋函式產生的對當前系統行為的評價。通過與環境的互動，agent可以通過強化學習來得到一系列行為，通過探索性的試錯或者借助精心設計的激勵系統使得正向反饋最大化。

1.通過聚類發現資料的子群

2.資料壓縮中的降維

1.資料預處理

為了盡可能發揮機器學習演算法的效能，往往對原始資料的格式等有一些特定的要求，但原始資料很少能達到此標準。因此，資料預處理是機器學習應用過程中必不可少的重要步驟之一。

某些屬性間可能存在較高的關聯，因此存在一定的資料冗餘。在此情況下，使用資料降維技術將資料壓縮到相對低維度的子空間是非常有用的。資料降維不僅能夠使得所需的儲存空間更小，而且還能夠使學習演算法執行得更快。

2.選擇**模型型別並進行訓練

目前已經有多種不同大的機器學習演算法用來解決不同的問題。「天下沒有免費的午餐」中，我們可以總結出重要的一點：我們無法真正免費使用學習演算法。舉例來說：任何分類演算法都有其內在的侷限性，如果我們不對分類任務預先做一些設定，沒有任何乙個分類模型會比其他模型更具優勢。

3.模型驗證與使用未知資料及進行**

在使用訓練資料集構建出乙個模型之後，可以採用測試資料集對模型進行測試，**該模型在未知資料上的表現並對模型的泛化誤差進行評估。如果我們對模型的評估結果表示滿意，就可以使用此模型對以後新的未知資料進行**。有一點需要注意，之前所提到的特徵縮放、降維等步驟中所需的引數，只可以從訓練資料集中獲取，並能夠應用於測試資料集及新的資料樣本，但僅在測試集上對模型進行效能評估或許無法偵測模型是否被過度優化。

《Python 機器學習》筆記（一）

Python機器學習筆記一

機器學習筆記（一）了解機器學習

機器學習筆記（一）

《Python 機器學習》筆記（一）

Python機器學習筆記一

機器學習筆記（一） 了解機器學習

機器學習筆記（一）

相關推薦

機器學習筆記（一）了解機器學習