機器學習（一）機器學習入門常識

機器學習常常劃分為三個方面：

分類問題：因為有了標籤值，根據演算法，將樣本歸於哪一類。（邏輯回歸，決策樹，隨機森林，svm）

回歸問題：是乙個連續值，根據樣本上的一些特徵，**連續值結果。

聚類問題：因為沒有標籤以及明顯的劃分標準，根據樣本的相似性或者關聯關係，把類似的歸於一類

常用的一些術語：

對於結構化資料，每行叫做樣本，每列叫做特徵或者屬性，所謂的百萬資料量，也就是有百萬的行

整個機器學習完整的流程包括：

資料 + 演算法 -->應用於工業問題

資料還包括：訓練集(訓練模型)，驗證集（調整超引數），測試集（評估模型效果）。

驗證集的選取：留出法（hold_out:因為工業界資料量夠大，常用於工業界），交叉驗證法(cross validation：由於比賽資料集較小，常用於比賽)，自助法(bootstrap：用的比較少)

（2）損失函式：對模型的好壞進行評估。（交插熵，mse,hingloss等）

（3）優化：對資料進行調整，達到最優的效果。（梯度下降，牛頓法等）

對於機器學習當中常見的訓練集，驗證集，測試集當中，其中驗證集和測試集經常被人混用。

在有監督的學習中，驗證集常被分成2-3個，即：訓練集（train set),驗證集（validation set），測試集（test set）

劃分驗證集和測試集的原因：防止過擬合

如果全部的資料用於訓練，那麼訓練出來的模型在測試集上表現良好，但是泛化能力不好。換乙個新的資料集，模型的效果可能就比較差。

參考：北島知寒 - 開源愛好者

一般情況下，我們在未知的樣本下進行測試，來評估模型的效能如何。

但是在手上沒有未知的樣本的情況下，怎樣進行可靠的評估？

常見的評估方法：

1 機器學習過程解釋我們首先會通過樣本的規律尋找合適的模型，再用樣本資料訓練模型訓練時通常會將樣本分為兩部分，一部分用來訓練，另一部分用來檢驗訓練後模型的正確率，以評估模型的好壞之後我們就可以通過訓練好的模型進行新資料的了。其實機器學習學到的東西就是我們所謂的經驗或者規律，機器學習會把這些學...

分類和回歸均為過程，其中分類是對離散值的回歸是對連續值的監督學習和無監督學習就看輸入資料是否有標籤 label 輸入資料有標籤，則為有監督學習，沒標籤則為無監督學習聚類監督學習就是給輸入的無標籤資料新增標籤的過程。資料集的劃分方法 1.留出法，即把資料集分為兩部分一般來說是8 2，8...

年後又開始新一輪的學習了。今天我來複習跟鞏固機器學習的基礎概念。我們將機器學習系統按他們的特點分類是否在人類監督下訓練。例如有監督學習，無監督學習，半監督學習，強化學習。是否簡單地將新的資料點和已知的資料點進行匹配，還是像科學家一樣，對訓練資料進行模式檢測然後建立乙個模型。例如基於例項的學習...

機器學習（一） 機器學習入門常識