機器學習的一些常用概念

2022-06-05 03:51:09 字數 3207 閱讀 8953

1.引數模型(parametric models)與非引數模型(non-parametric models)

模型是否有固定數目的引數?若是則為引數模型,若引數數目隨著訓練資料集增大而增加則為非引數模型。一般而言,引數模型更快,然而卻對資料分布特性進行了更強的假設。非引數模型則更加靈活,但是對於大資料集的計算量較大,難以處理。

非引數模型的例子:knn演算法。對於knn演算法的測試資料點x,需要計算x與訓練集中每個點的距離。計算量隨著訓練集增大。

2.生成模型(generative)與判別模型(discriminative) 

生成方法基於資料學習得到聯合概率分布p(y,x), 然後計算p(y|x) = p(y,x)/ p(x),並以此作為**。典型的生成模型有樸素貝葉斯,隱馬爾可夫模型。由於模型給出了對於輸入x,對於可能輸出y的生成關係,所以叫做生成模型。

判別模型直接學習得到決策函式f(x),或者得到條件概率p(y|x)。該模型僅關注對於輸入x,應該**什麼樣的輸出y。k近鄰演算法、感知機、決策樹、邏輯回歸、最大熵模型、svm、boosting與條件隨機場等都是典型的判別模型。

3. 無免費午餐定理(no free lunch theorem)

all models are wrong, but some models are useful  --george box

沒有適用於所有問題的最好模型。原因在於,在乙個領域內的假設極可能不適用於其它的領域。因此,對於來自現實世界的不同的資料,我們需要選擇不同的模型來解決需求。

4.精確率(precision)與召回率(recall)

對於兩分類問題,精確率與召回率是常用的評價指標。舉個例子,我們想通過王二以前在**的瀏覽行為(點選、收藏、加入購物車等)來**下個月王二會買哪些商品。對於**上的商品,王二要麼買,要麼就是不買,這就是個兩分類問題。

我們把「買」作為正類,「不買」作為負類。我們可以把**結果分成四種情況:

a. **買的商品,王二確實買了(true positive,簡稱tp)

b. **買的商品,王二實際沒買(fause positive, 簡稱fp)

c. **沒買的,王二實際買了(fause negtive, fn)

d. **沒買的,王二確實沒買(true negtive, tn)

圖中右邊圓代表我們**「買」的商品( predict = tp+fp),左邊圓代表王二實際購買的商品(positive = tp+fn)。中間交集即為我們**「買」的正確的部分(tp)。那麼精確率等於我們**「買」的商品中正確的,除以我們**「買」的商品, 即precision = tp/predict 。召回率是**買的正確的部分,佔王二實際購買商品的比率,即recall = tp/positive 。

這個**的例子是從阿里巴巴大資料競賽來的靈感,有興趣的可以去看看它這裡對precision與recall的具體定義。有人可能會問,示例圖里怎麼沒有tn呢?這個就留給大家思考吧: )

擴充套件:對於分類器的評價,有個常用的標準,受試者工作特徵曲線(receiver operating characteristic curve, roc)。roc曲線的橫座標為fpr( false positive rate),縱座標為tpr( true positve rate)。計算公式如下:

tpr = tp/postive = tp/( tp + fn)

fpr = fp/negtive = fp/(fp + tn)

roc曲線關鍵點的解釋: 

( tpr=0,fpr=0 ) 把每個例項都**為負類的模型 

( tpr=1,fpr=1 ) 把每個例項都**為正類的模型 

( tpr=1,fpr=0 ) 代表理想模型

分類模型越好則其對應的roc曲線越接近左上角,而乙個隨機猜測模型應位於連線點(tpr=0,fpr=0)和(tpr=1,fpr=1)的主對角線上。 

roc曲線下方的面積(auc)提供了評價模型平均效能的另一種方法。(tpr=1,fpr=0)的理想模型aug = 1;如果模型是個簡單的隨機猜測模型,那麼它的aug = 0.5,如果乙個模型好於另乙個,則它的曲線下方面積相對較大。

5.維度災難(the curse of dimensionality)

在高維空間中資料變的非常稀疏。比如對於knn演算法,假設訓練樣本均勻分布在d維空間的邊長為1的立方體中。為了**x的類別,若我們想使用整個資料集中10%的資料點對x的類別進行投票,則需要乙個邊長為0.8的立方體,才能夠囊括足夠的資料點;如果我們只使用1%的樣本點投票呢?我們需要的小立方體的邊長為0.63。可以看到這時我們的演算法已經不是基於區域性的了,更別說所謂「最近鄰」了。

高維空間的資料稀疏性將導致一系列困難:

a. 需要更多的取樣的樣本點

b. 在組織和搜尋資料時有賴於檢測物件區域,這些區域中的物件通過相似度屬性而形成分組。然而在高維空間中,所有的資料都很稀疏,從很多角度看都不相似,因而平常使用的資料組織策略變得極其低效。

c. 距離在高維度下失去意義

在某種意義上,幾乎所有的高維空間都遠離其中心,或者從另乙個角度來看,高維單元空間可以說是幾乎完全由超立方體的「邊角」所組成的,沒有「中部」。一維正態分佈有68%的值落於正負標準差之間,而在十維空間上只有0.02%。這對於理解卡方分布是很重要的直覺理解。

卡方分布:若n個隨機變數服從標準正態分佈,那麼它們的平方和(注意在計算歐氏距離時就要用到各個變數的平方和)構成的新的變數服從卡方分布,n是自由度。

然而,由於本徵維度的存在,其概念是指任意低維資料空間可簡單地通過增加空餘(如複製)或隨機維將其轉換至更高維空間中,相反地,許多高維空間中的資料集也可削減至低維空間資料,而不必丟失重要資訊。這一點也通過眾多降維方法的有效性反映出來,如應用廣泛的主成分分析方法。針對距離函式和最近鄰搜尋,當前的研究也表明除非其中存在太多不相關的維度,帶有維數災難特色的資料集依然可以處理,因為相關維度實際上可使得許多問題(如聚類分析)變得更加容易。另外,一些如馬爾可夫蒙特卡羅或共享最近鄰搜尋方法,經常在其他方法因為維數過高而處理棘手的資料集上表現得很好。

6.核函式(kernels)

7.過擬合(over fitting)

reference:

[1] <>

[2] <>

[3] 《統計學習方法》 - 李航

[4] curse of dimensionality 維數災難

關於機器學習的一些概念

在連線主義學習中,把學習演算法分為三種型別,即非監督學習 unsupervised learning 監督學習 supervised leaning 和強化學習。強化學習 所謂強化學習就是智慧型系統從環境到行為對映的學習,以使獎勵訊號 強化訊號 函式值最大,強化學習不同於連線主義學習中的監督學習,主...

機器學習整理的一些概念

機器學習整理的一些概念 監管學習 所謂監管學習就是給定一堆樣本,每個樣本都有一組屬性和乙個類別,這些類別是事先確定的,那麼通過學習得到乙個分類器,這個分類器能夠對新出現的物件給出正確的分類。這樣的機器學習就被稱之為監督學習。熵是資訊不確定性的乙個測度,熵越大則表示資訊的不確定程度越高 舉個例子 明天...

一些與機器學習有關的概念

有監督學習是從標籤化訓練資料集中推斷出函式的機器學習任務。訓練資料由一組訓練例項組成。其基本思想是,我們資料集中的每個樣本都有相應的 正確答案 再根據這些樣本作出 就像房子和腫瘤的例子中做的那樣。我們還介紹了回歸問題,即通過回歸來推出乙個連續的輸出,之後我們介紹了分類問題,其目標是推出一組離散的結果...