機器學習理論基礎 常用演算法思想要點

2022-06-30 03:12:13 字數 3447 閱讀 4198

一、

什麼是機器學習?簡述機器學習的一般過程。

機器學習是通過演算法使得機器從大量歷史資料中學習規律,從而對新樣本做分類或者**。

乙個機器學習過程主要分為三個階段:

(1)訓練階段,訓練階段的主要工作是根據訓練資料建立模型。

(2)測試階段,測試階段的主要工作是利用驗證集對模型評估與選擇

(3)工作階段,工作階段的主要工作是利用建立好的模型對新的資料進行**與分類。

二、簡述 k 折交叉驗證與留一法的基本思想及其特點。

基本思想:

k 折交叉驗證:將資料 d 劃分為 k 個大小相等的互斥子集;然後用其中的 k-1 個子集作為訓練集,餘下的那個子集作為測試集;這樣就可以得到 k 組訓練集/測試集,這樣就可以進行 k 次訓練和測試,最終返回的是這 k 個測試結果的平均值。

留一法:k 折交叉驗證的一種特例,每次取乙個樣本作為測試集,其餘的樣本組成的集合作為訓練集,訓練和測試的次數等於樣本的個數。

特點:

k 折交叉驗證:其穩定性和保真性在很大程度上取決於 k 的取值。

留一法:留一法的評估結果往往被認為是比較準確的,其最大的缺陷是當資料集較大時,模型的開銷非常大。

三、簡述什麼是欠擬合和過擬合、產生的原因以及如何解決。

欠擬合:模型在訓練集上的誤差較高。原因:模型過於簡單,沒有很好的捕捉到資料特徵,不能很好的擬合資料。解決方法:模型複雜化、增加更多的特徵,使輸入資料具有更強的表達能力等。

過擬合:在訓練集上誤差低,測試集上誤差高。原因:模型把資料學習的太徹底,以至於把雜訊資料的特徵也學習到了,這樣就會導致在後期測試的時候不能夠很好地識別資料,模型泛化能力太差。解決方法:降維、增加訓練資料、正則約束等。

四、簡述線性回歸與邏輯回歸的區別。

1)任務不同:回歸模型是對連續的量進行**;分類模型是對離散值/類別進行;

2)輸出不同:回歸模型的輸出是乙個連續的量,範圍在[-∞,+∞],分類模型的輸出是資料屬於某種類別的概率,範圍在[0,1]之間;

3)引數估計方法不同:線性回歸中使用的是最小化平方誤差損失函式,對偏離真實值越遠的資料懲罰越嚴重;邏輯回歸使用對數似然函式進行引數估計,使用交叉熵作為損失函式,對**錯誤的懲罰是隨著輸出的增大,逐漸逼近乙個常數。

五、簡述剪枝的目的以及常用的兩種剪枝方式的基本過程。

目的:剪枝是決策樹學習演算法對付「過擬合」的主要手段,通過主動去掉一些分支來降低過擬合的風險。決策樹剪枝的基本策略有「預剪枝」和「後剪枝」。

「預剪枝」對每個結點劃分前先進行估計,若當前結點的劃分不能帶來決策樹的泛化效能的提公升,則停止劃分,並標記為葉結點。

「後剪枝」:先從訓練集生成一棵完整的決策樹,然後自底向上對非葉子結點進行考察,若該結點對應的子樹用葉結點能帶來決策樹泛化效能的提公升,則將該子樹替換為葉結點

六、簡述k均值聚類演算法的流程。

假設有 m 條資料,n 個特性,則 k 均值聚類演算法的流程如下:

1)隨機選取 k 個點作為起始中心(k 行 n 列的矩陣,每個特徵都有自己的中心;

2)遍歷資料集中的每一條資料,計算它與每個中心的距離;

3)將資料分配到距離最近的中心所在的簇;

4)使用每個簇中的資料的均值作為新的簇中心;

5)如果簇的組成點發生變化,則跳轉執行第 2 步;否則,結束聚類。

七、簡述什麼是降維以及pca演算法的流程。

降維是通過某種數學變換將原始高維屬性空間轉變為乙個低維子空間,保留重要性比較高的特徵維度,去除冗餘的特徵。

主元成分分析 pca 使用最廣泛的資料降維演算法,其一般流程如下:

(1)樣本零均值化;

(2)計算資料的協方差矩陣;

(3)計算協方差矩陣的特徵值與特徵向量;

(4)按照特徵值,將特徵向量從大到小進行排序;

(5)選取前 k 個特徵向量作為轉換矩陣;

(6)零均值化後的資料與轉換矩陣做矩陣乘法獲得降維後的資料。

八、簡述貝葉斯網的組成,貝葉斯網中結點的三種連線方式,並分析它們的獨立性

乙個貝葉斯網 b 由結構 g 和引數ɵ組成。

g是乙個有向無環圖,其中每個結點對應於乙個屬性,若兩個屬性由直接依賴關係,則它們由一條邊連線起來。

引數ɵ包含了每個屬性的條件概率表,定量描述這種依賴關係。

(1)同父結構,c已知的情況下,a,b獨立。

(2)v型結構,c未知情況下,a,b獨立。

(3)順序結構,c已知情況下,a,b獨立。

九、簡述卷積神經網路與傳統的神經網路的區別。

傳統的神經網路是一種層級結構,由輸入層,隱藏層,輸出層構成,每層神經元與下層神經元完全互連,神經元之間不存在同層連線,也不存在跨層連線。

卷積神經網路相較於傳統神經網路的特殊性在於權值共享和區域性連線兩個方面:

(1)區域性連線:每個神經元只與上一層的部分神經元相連,只感知區域性

, 而不是整幅影象.;

(2)權值共享:每乙個神經元都可以看作乙個濾波器,同乙個神經元使用乙個固定的卷積核去卷積整個影象

, 可以認為乙個神經元只關注乙個特徵

. 而不同的神經元關注多個不同的特徵。

十、簡述基於核函式的非線性支援向量機的基本思想。

核函式不顯示定義對映函式,在原始樣本空間中通過計算核函式的值來代替特徵空間中的內積。基於核函式的非線性支援向量機的基本思想就是通過非線性變換將輸入空間對應到乙個特徵空間上,使得輸入空間中的超曲面模型對應於特徵空間上的乙個超平面模型也就是支援向量機,問題轉化為在特徵空間中求解支援向量機。

深度學習理論基礎1 Numpy

夜夢,語文老師勒令我寫一篇 深度學習入門 基於python的理論與實現 讀後感。我不敢懈怠,立即翻出我的膝上型電腦,開始寫作文。numpy 簡介 是乙個python第三方模組 處理陣列,矩陣,多維陣列十分便捷 底層用c語言實現,高效 numpy陣列的加減乘除運算 np arr np.array 1,...

深度學習理論基礎14 數值微分

先來看乙個導數的公式 其中h是趨近無限小的數。導數表示x方向的微小變化導致f x 的值在多大程度發生變化。如果用 幫助你的理解,這個 是這樣的 def numerical diff f,x h 10e 50 return f x h f x h 現在你大約了解了導數是怎麼回事 學渣才不知道的吧,喂!...

深度學習理論基礎11 輸出層的設計

首先,繼續上節的話題。softmax 函式。這只就是softmax函式了。其中a代表輸出層的輸入資料,ak代表第k個輸入。如果你覺得又難理解又難記,其實可以拆成3步來理解 1.把所有的輸入計算成序列 e a1 e a2 e a3 e an 用np的廣播功能一行就能搞定 2.計算得到上面的結果之和su...