機器學習(一) 機器學習入門常識

2021-09-12 08:20:47 字數 1004 閱讀 3410

機器學習常常劃分為三個方面:

分類問題:因為有了標籤值,根據演算法,將樣本歸於哪一類。(邏輯回歸,決策樹,隨機森林,svm)

回歸問題:是乙個連續值,根據樣本上的一些特徵,**連續值結果。

聚類問題:因為沒有標籤以及明顯的劃分標準,根據樣本的相似性或者關聯關係,把類似的歸於一類

常用的一些術語:

對於結構化資料,每行叫做樣本,每列叫做特徵或者屬性,所謂的百萬資料量,也就是有百萬的行

整個機器學習完整的流程包括:

資料 + 演算法 -->應用於工業問題

資料還包括:訓練集(訓練模型),驗證集(調整超引數),測試集(評估模型效果)。

驗證集的選取:留出法(hold_out:因為工業界資料量夠大,常用於工業界),交叉驗證法(cross validation:由於比賽資料集較小,常用於比賽),自助法(bootstrap:用的比較少)

(2)損失函式:對模型的好壞進行評估。(交插熵,mse,hingloss等)

(3)優化:對資料進行調整,達到最優的效果。(梯度下降,牛頓法等)

對於機器學習當中常見的訓練集,驗證集,測試集當中,其中驗證集和測試集經常被人混用。

在有監督的學習中,驗證集常被分成2-3個,即:訓練集(train set),驗證集(validation set),測試集(test set)

劃分驗證集和測試集的原因:防止過擬合

如果全部的資料用於訓練,那麼訓練出來的模型在測試集上表現良好,但是泛化能力不好。換乙個新的資料集,模型的效果可能就比較差。

參考:北島知寒 - 開源愛好者  

一般情況下,我們在未知的樣本下進行測試,來評估模型的效能如何。

但是在手上沒有未知的樣本的情況下,怎樣進行可靠的評估?

常見的評估方法:

機器學習常識

1 機器學習過程解釋 我們首先會通過樣本的規律尋找合適的模型,再用樣本資料訓練模型 訓練時通常會將樣本分為兩部分,一部分用來訓練,另一部分用來檢驗訓練後模型的正確率,以評估模型的好壞 之後我們就可以通過訓練好的模型進行新資料的 了。其實機器學習學到的東西就是我們所謂的經驗或者規律,機器學習會把這些學...

機器學習入門(一)

分類和回歸 均為 過程,其中分類是對離散值的 回歸是對連續值的 監督學習和無監督學習 就看輸入資料是否有標籤 label 輸入資料有標籤,則為有監督學習,沒標籤則為無監督學習 聚類 監督學習就是給輸入的無標籤資料新增標籤的過程。資料集的劃分方法 1.留出法,即把資料集分為兩部分 一般來說是8 2,8...

機器學習入門 一)

年後又開始新一輪的學習了。今天我來複習跟鞏固機器學習的基礎概念。我們將機器學習系統按他們的特點分類 是否在人類監督下訓練。例如 有監督學習,無監督學習,半監督學習,強化學習。是否簡單地將新的資料點和已知的資料點進行匹配,還是像科學家一樣,對訓練資料進行模式檢測然後建立乙個 模型。例如 基於例項的學習...