機器學習之多元分類(機器學習基石)

2021-08-15 11:49:24 字數 1354 閱讀 4821

如上圖所示我們要使用一些線性模型來分割這四種不同的圖案,利用以前學過的二元分類我們可以將某乙個種類分別從整體中分離出來。比如將圖通是方塊和不是方塊的做二元分類,是三角形的和不是三角形的進行分類等等,然後我們得到下圖:

如上圖所示我們在單獨的分割中可以分別將我們想要的目標圖案分割出來,但是我們將這些圖示片綜合起來看得到下圖:

在圖中帶有標號的區域就是公共區域,在公共區域內的判斷是矛盾的也就是說它在乙個疊加的區域內比如說④區既屬於方塊分類也屬於五角星分類,那麼我們遇到了麻煩。我們就需要使用其它的方法。

針對上面的問題我們不在使用簡單的二元分類而是使用logistic regression來對資料進行軟性分割。在軟性分割之後不再出現絕對的公共區域。舉個例子在某乙個點有0.7的機率為■,0.2的機率為◆,0.1的機率為▲那麼我們就判定當前這個點為■。在數學上的決策為:

這種演算法稱之為ova演算法(one-versus-all),同時也指出由於θ也為單調增函式所以在上式中不考慮θ函式直接比大小也是可以的。

對於ova演算法的評價

優點:非常的有效,能夠用logisticregression或與其類似的演算法來解決多元分類問題。

缺點:當乙個類別所佔的比例很小的時候(種類太多的時候)會logisticregression會出現判斷誤差。比如:有100種類別,我們如果只選擇一種的話其他的99種都會是其它類,也就是其它類的概率是99%,若做乙個大體上的估計logisticregression會估計100%都是其它類。

額外的:沒有考慮到更為複雜的條件,比如說機率之和等於1之類的條件。

ovo演算法的思路不再是1v多而是1v1。分別拿出兩個類別來進行二元分類,在將所有的組合都遍歷以後我們想要判斷的點被判定在哪個區域的次數最多我們就**它屬於那個區域。

如上圖所示,我們要判斷黃色螢光區域所屬的類別,在所有的分類中有3次判為■,1次◆,0次▲,2次★所以我們最後判定它為■。

ovo演算法的評價

優點:一次使用的資料量相對ova來說較小,能夠用所有解決二元分類的問題來解決它。

機器學習之多元線性回歸

多元線性回歸概念 在回歸分析中,如果有兩個或兩個以上的自變數,就稱為多元回歸。社會經濟現象的變化往往受到多個因素的影響,例如,家庭消費支出,除了受家庭可支配收入的影響外,還受諸如家庭所有的財富 物價水平 金融機構存款利息等多種因素的影響。因此,一般要進行多元回歸分析,我們把包括兩個或兩個以上自變數的...

機器學習 連續域分類 機器學習 分類和聚類

機器學習 分類和聚類 分類和回歸 邏輯回歸和knn 1 分類 使用已知的資料集 訓練集 得到相應的模型,通過這個模型可以劃分未知資料。分類涉及到的資料集通常是帶有標籤的資料集,分類是有監督學習。一般分為兩步,訓練資料得到模型,通過模型劃分未知資料。2.聚類 直接使用聚類演算法將未知資料分為兩類或者多...

c 分類 機器學習 聽說你要用C 做機器學習

修改program.cs內容 using microsoft.ml using microsoft.ml.data using microsoft.ml.legacy using microsoft.ml.trainers using microsoft.ml.transforms using mi...