機器學習十講第八講學習總結

維度災難：隨著維度（如特徵或自由度）的增多，問題的複雜性（或計算算代價）呈指數級增長的現象。

高維空間的反直覺示例：單位球體積：

一維，二維，三維的長度/面積/體積都有公式計算，而高維的計算公式是這樣的：

d維空間半徑為r的球體體積公式：

單位球體積與維度之間的關係圖示：

在高維空間中，球體內部的體積與表面積處的體積相比可以忽略不計，大部分體積都是分布在邊界的：

高維空間中的歐式距離：d維空間樣本x1和x2的歐式距離為：

隨著維數增加，單個維度對距離的影響越來越小，任意樣本間的距離趨於相同：

由於距離在高維空間中不再有效，因此一些基於距離的機器學習模型就會收到影響。

基於距離的機器學習模型：k近鄰（樣本間距離），支援向量機（樣本到決策面距離），k-means（樣本到聚類中心距離），層次聚類（不同簇之間的距離），推薦系統（商品或使用者相似度），資訊檢索（查詢和文件之前的相似度）。

稀疏性與過度擬合：

過度擬合：模型對已知資料擬合較好，新的資料擬合較差。極端例子：訓練集準確率越來越高，而使用測試集測試模型準確率依然維持在0.5左右。

稀疏性：高維空間中樣本變得極度稀疏，容易會造成過度擬合問題。

hughes現象：隨著維度增大，分類器效能不斷提公升直到達到最佳維度，繼續增加維度分類器效能會下降。

高維空間計算複雜度指數增長，因此只能近似求解，得到區域性最優解而非全域性最優解。

舉例——決策樹：選擇切分點對空間進行劃分。每個特徵m個取值，候選劃分數量m^d（維度災難）

舉例——樸素貝葉斯：

應對維度災難：特徵選擇和降維

特徵選擇：選取特徵子集。

降維：使用一定變換，將高維資料轉換為低維資料，pca，流形學習，t-sne等。

正則化：減少泛化誤差而不是訓練誤差

核技巧：

判斷機器學習模型是否存在維度災難問題：

不存在維度災難問題的模型：隨機特徵模型，兩層神經網路，殘差神經網路等

C 1 3講學習總結

重新回顧複習了c 最基礎的語法的理論知識，對c 又有了乙個重新的認識，之前的學習的著重點都在實際的完成，現在發現對這些知識還和不熟悉。比如知道之前繼承這個概念但確實我之前很少用它，還有後面教程的對xml的處理與多執行緒的東西都沒接觸過。通過對那個銀行的類處理對類的理解也更深刻了。提交記錄截圖任務成...

Mysql實戰45講第4，5 講學習筆記

二.innodb的索引模型三.常見問題及答案優點雜湊表以key value 儲存，這種結構適合等值查詢的場景，比如memached以及其他的nosql 引擎。缺點做區間查詢，需要全部掃瞄有序陣列只適用於靜態儲存引擎，比如儲存一些不會修改的資料優點有序陣列在等值查詢和區間查詢的時候表現...

視覺slam14講學習筆記（第1講）

學習需具備的知識高等數學線性代數概率論 c 語言基礎 linux基礎指搭載特定感測器的主體，在沒有環境先驗資訊的情況下，於運動過程中建立環境模型，同時估計自己的運動。如果這裡的感測器為相機，則成為視覺slam 解決定位與地圖構建這兩個問題，即需要估計感測器自身的位置還要建立周圍環境模型當相...

機器學習十講 第八講學習總結

C 1 3講學習總結

Mysql實戰45講第4，5 講學習筆記

視覺slam14講學習筆記 （第1講）

相關推薦

機器學習十講第八講學習總結

視覺slam14講學習筆記（第1講）