機器學習演算法

from

這裡，主要說一下，機器學習演算法的思想和應用！為了以後的應用總結一下！參考王斌譯的機器學習實戰一書。

1、svd（奇異值分解）

svd可以簡化資料，去除雜訊！對於簡化資料，使用svd，可以用小得多的資料集表示原有資料集。這樣實際上是去除了雜訊和冗餘資訊。

比如有乙個32*32的影象，通過svd的公式分解。假如分解為32*2 2*2 2*32的三個矩陣。那麼我們得到的總數字數目就從1024降

到了64+4+64=130.降了大約十倍。應用於影象壓縮，就是將影象壓縮了近十倍！

還有svd應用於推薦系統，推薦系統將物品推薦給使用者，協同過濾是一種基於使用者喜好或行為資料的推薦的實現方法。協同過濾的核心是相似度計算方法，有很多

相似度計算方法都可以用於計算物品或使用者之間的相似度。通過在低維空間下計算相似度，svd提高了推薦系統的效果。

2、pca（主成分分析）

通過降維來簡化資料。簡化資料有很多好處，如：使得資料集更易使用；降低很多演算法的計算開銷；去除雜訊；使得結果易懂。

關於降維過程另一篇部落格有。主要是運用特徵值和特徵向量的知識。

主要應用於需要減少資料量的需要情況下。

3、apriori演算法

用於進行關聯分析，從大規模資料集中尋找物品間的隱含關係被稱作關聯分析（association analysis）。這些關係有兩種形式：頻繁項集或者關聯規則。

頻繁項集：是經常出現在一塊的物品的集合。

關聯規則：暗示兩種物品之間可能存在很強的關係。《尿布和啤酒的故事》

那麼對於頻繁項集，何為頻繁。這裡又涉及到支援度和可信度的概念（具體可以參看機器學習這本書，不詳細敘述）。

支援度（support）：被定義為資料集中包含該項集的記錄所佔的比例。

apriori原理：如果某個項集時頻繁的，那麼它所有的子集也是頻繁的，例如有四件商品，如果是頻繁的。那麼，也一定是頻繁的。這個原理

直觀上沒有什麼幫助，但是如果反過來就有用了，也就是說如果乙個項集是非頻繁集，那麼它的所有超集也是非頻繁的。比如：為非頻繁集，那麼、

，均為非頻繁集。這樣就大大降低了計算時間。不要小看這裡的計算時間，可以計算一下，假如有100種商品，組合數目為2的100次方減1等於1.26*10的30次方種組合。

有了頻繁項集，我們要從頻繁項集中挖掘關聯規則。，前面我們定義頻繁項集用到了支援度，對於關聯規則，我們的量化指標為可信度。一條規則p-->h的可信度定義

為support（p | h）/support（p），p | h是指所有出現在集合p或者集合h中的元素，前面計算了所有頻繁項集支援度，現在計算可信度，只需要取出那些支援度做一

次除法運算。同樣，類似於頻繁項集的生成，如果，某條規則並不滿足最小可信度要求，那麼該規則的所有子集也不會滿足最小可信度要求。如下圖陰影所示，

0,1,2-->3不滿足最小可信度要求，那麼就知道任何左部為子集的規則也不會滿足最小可信度要求。

應用：購物**、搜尋引擎中的查詢詞

4、k-近鄰演算法（k-nearest neighbour，knn）

分類演算法，用來進行分類。

演算法原理：假如存在乙個樣本集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，也就是我們知道樣本集中每個資料與所屬分類的對應關係。輸入沒有標籤的

資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較，然後演算法提取樣本集中特徵最相似的分類標籤。

那麼k又是什麼意思呢?

k就是一般我們只選擇樣本資料中前k個最相似的資料來判斷未知資料的分類結果。

優點：精度高，對異常值不敏感，無資料輸入假定。

缺點：計算複雜度高、空間複雜度高。

舉例：假如訓練資料有10個，我們選擇的k值為5.將未知資料的各個特徵和訓練資料中的對應特徵進行比較（判斷方法自己定義，如：歐式距離等），然後取比較最接

近的前5個作為標準用於對未知資料的判斷。

用途：手寫數字識別系統

機器學習演算法

1.c4.5演算法。c4.5 演算法與id3 演算法一樣，都是數學分類演算法，c4.5 演算法是id3 演算法的乙個改進。id3演算法採用資訊增益進行決策判斷，而 c4.5 採用的是增益率。2.cart演算法。cart 演算法的全稱是分類回歸樹演算法，他是乙個二元分類，採用的是類似於熵的基尼指數作為...

機器學習演算法

最近在學習機器學習。看的是機器學習實戰先簡單記錄一下，其實看似高階的理論或演算法，有些在我們平時生活中也有應用，比如機器學習中常用的k 近鄰演算法 knn 最大期望值演算法等在機器學習中常用的演算法包括決策樹，k 均值 k mean 支援向量機 svn k 近鄰演算法 knn 最大期望值演算...

機器學習演算法

監督學習的線性回歸演算法採取測量不同特徵之間的距離方法進行分類計算未知的資料a與所有已知樣本s n 的距離，按照距離遞增排序，找到k個距離a最近的樣本s1 k 按照s1 k 的型別來判斷a的型別監督分類演算法 1.劃分資料集 2.遞迴構建決策樹 3.使用決策樹進行分類例如根據水生和陸生初步...

機器學習演算法

機器學習演算法

機器學習演算法

機器學習演算法

相關推薦