機器學習演算法面試口述(7) 分類小結

2021-07-04 21:04:25 字數 2615 閱讀 7792

這個系列是為了應對找工作面試時面試官問的演算法問題,所以只是也謝演算法的簡要介紹,後期會陸續補充關於此

演算法的常見面問題。

分類的概念就說了,分類一般分為兩個階段:學習階段以及分類階段;

常用的分類方法有:

決策樹不需要任何領域的知識或者引數的設定,其可以處理高維資料,簡單快速。

若分類的資料是連續的,則需要插入**點將資料離散化;樹建立的過程中,需要按照一定的

規則選擇**的屬性,可以有資訊的增益、增益率、基尼指數等等,不同的規則對應的決策樹,

如前面三種分別對應id3、c4.5、cart。

樹的建立過程中或則建立後可能需要對樹進行剪枝;樹的剪枝分為先剪枝和後剪枝,先剪枝是

提前停止書的構造,而後剪枝是將完全生長的樹減去子樹。

以上的幾種方法都只能適用於能貯存於記憶體的資料,若是資料量過大,這幾種方法都不行

(可以考慮rainforest)!具體關於決策樹可以見前面的博文。

這個方法前面博文中已經寫得很詳細了,可以參考下。其實也就是乙個貝葉斯公式。。。

兩種常用的組合分類方法:裝袋與提公升

裝袋:比如投票,每一票的權重都是相同的;

提公升:與裝袋不同的是其每一票的權重是不同的,比如adaboost;

當然還有就是也比較出名的隨機森林(這個還沒看,這個之後補上)!

覆蓋率與準確率

資料集d,規則r覆蓋的元祖數ncovers,其中正確的為ncorrect則

coverage(r) = ncovers / |d|, accuracy(r) = ncorrect / ncovers

當多個規則同時觸發時,可以使用下面兩個方式決定哪個規則先響應

1.規模序:選擇條件最苛刻的(一般為條件最多的);

2.規則序:事先定義了優先順序。

從樹的跟到葉節點的路徑建立乙個規則,這樣的規則是互斥(不存在衝突)以及窮舉

的(存在所有的規則)。

規則集的修改:不能提高規則的估計準確率的任何條件都應該被剪掉。

一般的策略是:一次學習乙個規則,每學習乙個規則就刪除該規則覆蓋的元組,並在剩下

的元組中重該過程。

可以參考決策樹;

k-折交叉驗證:將資料分組,每次留出一組作為驗證集

留一:每次使用乙個樣本作為驗證集

有放回的均勻抽樣,常用的有。632自助法(資料的63.2%出現在自助樣本中)

神經網路是一組連線的輸入/輸出單元,其中每個連線與乙個權重相關聯,通過調整權重, 預

測輸入元組的類別。其優點是抗噪效能好,分類能力比較強,缺點是知識的表示比較不容易。

輸入層 + 隱藏層 + 輸出層(沒有乙個反向傳播的過程)。

理論上:給足夠多的訓練樣本以及隱藏單元,可以逼近任意函式。

比前饋網路多了乙個後向傳播的過程;整體步驟如下

1、初始化權重; 2、前向傳播; 3、後向傳播誤差,更新資料;

演算法結束的終止條件:1、週期內所有權重的更新值小於某一值;

2、迭代次數達到某一預先設定好的值;

這個可以參考前面的博文

或則網上有個svm的三重境界寫的蠻詳細,可以看看;

1,、關聯分析; 2、基於有區別力的頻繁模式分類; -> 這兩個現在不寫了,後面的文章會

詳細寫這兩個

以上的這些方法都是急切學習法,也就是說在分類資料前,已經建立好了模型,主要的工作

是在模型的建立上面;下面說一下惰性學習法;

計算所有資料與給定標號點的距離,離哪個近則歸於哪一類(計算量太大);

首先檢查是否存在同樣的訓練案例,如存在則直接返回對應的結果;

若是找不到,則搜尋具有雷士的新案例和組合解的合適方法;

交叉、變異、最合適的規則及後代

上近似以及下近似的概念;

允許處理模糊的、不精確的事實,是一種軟分類

對於多分類的問題可以組合幾個二分類!

使用有標號的資料與無標號的資料構造分類器;

假設存在資料:

有標號的資料xl = ;

無標號的資料xu = ;

先使用有標號的資料構造分類器,將構造好的分類器對無標號的資料進行分類,將分類結果中

最有把握的分類資料及其分類標號加入到有標號的資料中,重複訓練與分類;

可能會強化錯誤,這是其乙個缺點;

兩個或則多個分類器互相教學;

對資料xl,定義兩個不重疊的特徵集,訓練兩個不同的分類器,f1,f2,使用這兩個分類器對xu

進行分類,將最有把握的(x,f1(x))新增到f2中的有標號的資料中,將最有把我的(x,f2(x))

新增到f1中的有標號的資料中;重複整個過程;

適用於資料豐富,但是類標號稀缺或則獲取昂貴的情況。

設d為小子集的有標號的資料集,這個小子集定義為l,從l開始為初始訓練集,之後使用乙個

查詢函式從(d-l)中精心選擇乙個或者多個樣本像一位智者詢問其標號,之後加入到l中去;

這個方法的問題在於如何選擇被詢問的元,可以使用不確定抽樣、決策論等方面的知識。

從乙個或則多個源任務提取知識,並將這種知識用於目標任務(分類器的構造需要較少的訓練

資料和較少的訓練時間);

假定老資料大部分有用,通過自動調整賦予訓練原組的權重,過濾掉與新資料很不相同的老數

據的影響;

遷移學習的難點在於負遷移的情況的出現(負遷移是指新分類器的效能比完全不遷

移的效果還差)!

機器學習3 分類演算法

機器學習一般的資料集會劃分為兩個部分 劃分比例 想一下之前做的特徵工程的步驟?我們把特徵工程的介面稱之為轉換器,其中轉換器呼叫有這麼幾種形式 在sklearn中,估計器 estimator 是乙個重要的角色,是一類實現了演算法的api 2 用於回歸的估計器 3 用於無監督學習的估計器 如果乙個樣本在...

機器學習(2) 分類問題

參考部落格 根據一些 feature 進行分類,每個節點提乙個問題,通過判斷,將資料分為兩類,再繼續提問。這些問題是根據已有資料學習出來的,再投入新資料的時候,就可以根據這棵樹上的問題,將資料劃分到合適的葉子上。個人總結 不能保證正確 一組資料的特徵用向量表示,比如 x1,x2,x3,x4 有4個特...

機器學習(二) 分類演算法之k 近鄰演算法

優點 精度高,對異常值不敏感,無資料輸入假定 缺點 計算複雜度高,空間複雜度高 使用資料範圍 數值型和標稱型 存在乙個樣本資料集合,也叫做訓練樣本集,並且樣本集中的每個資料都存在標籤,即我們知道樣本集中每個資料屬於什麼類別。輸入沒有標籤的新資料後,將新資料對每個特徵與樣本集中對應的特徵進行比較,然後...