ML 初識機器學習

arthur samual（1959）：在沒有明確設定的情況下，使計算機具有學習能力的研究領域。

機器學習是研究使計算機完成複雜任務並且無須對其進行明確程式設計的科學學科，機器學習中的演算法將學習如何解決給定的任務，這些演算法包括來自統計學、概率論和資訊理論的方法和技術。

機器學習專案由多個步驟組成，通常可以分為以下幾個步驟。

（1）收集資料。首先需要從各種**收集資料，可以是日誌檔案、資料庫記錄、感測器訊號等。

（2）清理和準備資料。資料並不總是適用於機器學習的結構化形式（文字、影象、聲音、二進位制資料等），因此需要設計一種方法將這些資料轉換成數學特徵。還需要處理缺失資料，代表著同一含義卻有不同形式的的資料（如一家公司的全稱和縮寫）等等。也需要適當進行縮放，以便所有維度都處在可比較的範圍。

（3）分析資料和提取功能。通過分析資料來得出資料相關性並將其視覺化。對資料進行降維，選擇合適的機器學習演算法並把資料集劃分為訓練集、測試集和校驗集。

（4）訓練模型

（5）評估模型。將模型用於驗證資料集，並根據某些條件評估其效能。

（6）使用模型。

使用了樣本標籤的學習過程

沒有使用樣本標籤的學習過程

監督學習和無監督學習的結合方法。樣本中存在有標籤資料和無標籤資料，半監督學習使用有標籤的資料對無標籤的資料「打標籤」。

強化學習過程通過不斷跟環境進行互動來達到更好的效果。對每次訓練的結果進行評估，效果好的情形下對其進行「獎勵」，否則進行「懲罰」。

在最優化的問題當中，我們想得到全域性的最優點，所以我們在設計目標函式時，會盡可能把它們轉換成凹凸函式，這個過程稱為「凸優化」。凸優化的定義為：約束條件為凸集，目標函式是凸函式。非凸優化問題轉化為凸優化問題的方法是：修改目標函式，將其轉化為凸函式，此外拋棄一些約束條件，使可行域為凸集，這個可行域包含了原有的集合。

神經網路中使用的代價函式稱為損失函式，損失函式衡量了評分函式的**與真實樣本標籤的吻合度，loss的值都會設定為和吻合程度負相關。

「梯度下降」顧名思義，就是針對目標函式的loss函式，在訓練的過程中每次更新權重，以求得更小的loss函式值。

訓練過程使用了所有的訓練資料。這種方法在資料量比較大的情況下，會導致權重更新比較慢。

每次更新權重時只考慮乙個樣本點，這種方法在權重更新時雖然比較快，但是只能到達極小值點，並且對雜訊樣本點敏感。

隨機使用一部分資料進行權重的更新，解決了「批量梯度下降」權重更新慢，和「隨機梯度下降」雜訊敏感的問題。

ML 初識機器學習

機器學習ML策略

ML 機器學習基礎

機器學習 ML分類

ML 初識機器學習

機器學習ML策略

ML 機器學習基礎

機器學習 ML分類

相關推薦