機器學習演算法

2021-07-07 07:42:11 字數 1883 閱讀 4997

from 

這裡,主要說一下,機器學習演算法的思想和應用!為了以後的應用總結一下!參考王斌譯的機器學習實戰一書。

1、svd(奇異值分解)

svd可以簡化資料,去除雜訊!  對於簡化資料,使用svd,可以用小得多的資料集表示原有資料集。這樣實際上是去除了雜訊和冗餘資訊。

比如有乙個32*32的影象,通過svd的公式分解。假如分解為32*2   2*2  2*32的三個矩陣。那麼我們得到的總數字數目就從1024降

到了64+4+64=130.降了大約十倍。應用於影象壓縮,就是將影象壓縮了近十倍!

還有svd應用於推薦系統,推薦系統將物品推薦給使用者,協同過濾是一種基於使用者喜好或行為資料的推薦的實現方法。協同過濾的核心是相似度計算方法,有很多

相似度計算方法都可以用於計算物品或使用者之間的相似度。通過在低維空間下計算相似度,svd提高了推薦系統的效果。

2、pca(主成分分析)

通過降維來簡化資料。簡化資料有很多好處,如:使得資料集更易使用;降低很多演算法的計算開銷;去除雜訊;使得結果易懂。

關於降維過程另一篇部落格有。主要是運用特徵值和特徵向量的知識。

主要應用於需要減少資料量的需要情況下。

3、apriori演算法

用於進行關聯分析,從大規模資料集中尋找物品間的隱含關係被稱作關聯分析(association analysis)。這些關係有兩種形式:頻繁項集或者關聯規則。

頻繁項集:是經常出現在一塊的物品的集合。

關聯規則:暗示兩種物品之間可能存在很強的關係。《尿布和啤酒的故事》

那麼對於頻繁項集,何為頻繁。這裡又涉及到支援度和可信度的概念(具體可以參看機器學習這本書,不詳細敘述)。

支援度(support):被定義為資料集中包含該項集的記錄所佔的比例。

apriori原理:如果某個項集時頻繁的,那麼它所有的子集也是頻繁的,例如有四件商品,如果是頻繁的。那麼,也一定是頻繁的。這個原理

直觀上沒有什麼幫助,但是如果反過來就有用了,也就是說如果乙個項集是非頻繁集,那麼它的所有超集也是非頻繁的。比如:為非頻繁集,那麼、

,均為非頻繁集。這樣就大大降低了計算時間。不要小看這裡的計算時間,可以計算一下,假如有100種商品,組合數目為2的100次方減1等於1.26*10的30次方種組合。

有了頻繁項集,我們要從頻繁項集中挖掘關聯規則。,前面我們定義頻繁項集用到了支援度,對於關聯規則,我們的量化指標為可信度。一條規則p-->h的可信度定義

為support(p | h)/support(p),p | h是指所有出現在集合p或者集合h中的元素,前面計算了所有頻繁項集支援度,現在計算可信度,只需要取出那些支援度做一

次除法運算。同樣,類似於頻繁項集的生成,如果,某條規則並不滿足最小可信度要求,那麼該規則的所有子集也不會滿足最小可信度要求。如下圖陰影所示,

0,1,2-->3不滿足最小可信度要求,那麼就知道任何左部為子集的規則也不會滿足最小可信度要求。

應用:購物**、搜尋引擎中的查詢詞

4、k-近鄰演算法(k-nearest neighbour,knn)

分類演算法,用來進行分類。

演算法原理:假如存在乙個樣本集合,也稱作訓練樣本集,並且樣本集中每個資料都存在標籤,也就是我們知道樣本集中每個資料與所屬分類的對應關係。輸入沒有標籤的

資料後,將新資料的每個特徵與樣本集中資料對應的特徵進行比較,然後演算法提取樣本集中特徵最相似的分類標籤。

那麼k又是什麼意思呢?

k就是一般我們只選擇樣本資料中前k個最相似的資料來判斷未知資料的分類結果。

優點:精度高,對異常值不敏感,無資料輸入假定。

缺點:計算複雜度高、空間複雜度高。

舉例:假如訓練資料有10個,我們選擇的k值為5.將未知資料的各個特徵和訓練資料中的對應特徵進行比較(判斷方法自己定義,如:歐式距離等),然後取比較最接

近的前5個作為標準用於對未知資料的判斷。

用途:手寫數字識別系統

機器學習演算法

1.c4.5演算法。c4.5 演算法與id3 演算法一樣,都是數學分類演算法,c4.5 演算法是id3 演算法的乙個改進。id3演算法採用資訊增益進行決策判斷,而 c4.5 採用的是增益率。2.cart演算法。cart 演算法的全稱是分類回歸樹演算法,他是乙個二元分類,採用的是類似於熵的基尼指數作為...

機器學習演算法

最近在學習機器學習。看的是 機器學習實戰 先簡單記錄一下,其實看似高階的理論或演算法,有些在我們平時生活中也有應用,比如機器學習中常用的k 近鄰演算法 knn 最大期望值演算法等 在機器學習中常用的演算法包括 決策樹,k 均值 k mean 支援向量機 svn k 近鄰演算法 knn 最大期望值演算...

機器學習演算法

監督學習的線性回歸演算法 採取測量不同特徵之間的距離方法進行分類 計算未知的資料a與所有已知樣本s n 的距離,按照距離遞增排序,找到k個距離a最近的樣本s1 k 按照s1 k 的型別來判斷a的型別 監督分類演算法 1.劃分資料集 2.遞迴構建決策樹 3.使用決策樹進行分類 例如 根據水生和陸生初步...