機器學習流行演算法一覽

這篇文章介紹幾個最流行的機器學習演算法。現在有很多機器學習演算法，困難的是進行方法歸類，這裡我們介紹兩種方法進行思考和分類這些演算法。第一組演算法是學習風格，第二組是在形式和功能上類似。乙個演算法基於問題建模有不同的方法，無論這個問題是基於經驗或環境的互動，或者是基於我們需要輸入的資料，學習風格是機器學習首先必須考慮的問題。

下面我們看看一些演算法的主要學習風格或者稱為學習模型。

當為了商業決策建模而處理資料時，你通常使用監督和無監督學習方法。目前的乙個熱點話題是影象分類等領域的半監督學習，很少有標記的例子大型資料集的方法。強化學習是更容易在機械人控制與其他控制系統等領域有應用。

分類是找出資料庫中的一組資料物件的共同特點並按照分類模式將其劃分為不同的類，其目的是通過分類模型，將資料庫中的資料項對映到摸個給定的類別中。可以應用到涉及到應用分類、趨勢**中，如**商鋪將使用者在一段時間內的購買情況劃分成不同的類，根據情況向使用者推薦關聯類的商品，從而增加商鋪的銷售量。

空間覆蓋演算法－基於球鄰域的空間劃分

空間覆蓋演算法－仿生模式識別

空間覆蓋演算法－視覺分類方法

vca把資料看作一幅影象，核心是基於尺度空間理論，選擇合適的尺度使得同類樣本區域融合在一起。

分類超曲面演算法hsc

設訓練樣本所在空間為一封閉維方體區域，將此區域按照一定細分規則劃分成若干小區域，使每個小區域只包含同一類樣本點，並用樣本點的類別標定該區域，合併相鄰同類區域邊界，獲得若干超平面片封閉組成的分類超曲面。輸入新樣本點，根據分類判別定理判斷樣本點所在的類別。

特點：通過特徵區域細化直接解決非線性分類問題,不需要考慮使用何種函式，不需要公升維變換。

通用可操作的分類超曲面構造法，基於分類超曲面的方法通過區域合併計算獲得分類超曲面對空間進行劃分

獨特、簡便、易行的分類判別方法,基於分類超曲面的方法是基於jordan定理的分類判斷演算法,使得基於非凸的超曲面的分類判別變得簡便、易行。

覆蓋型分類演算法的極小覆蓋子集——對特定的訓練樣本集，若其子樣本集訓練後得到的分類模型與與原樣本集訓練後得到的分類模型相同，則稱子樣本集是原樣本集的乙個覆蓋。在乙個樣本集的所有覆蓋中，包含樣本個數最少的覆蓋稱為樣本集的極小覆蓋子集。

(1)計算極小覆蓋子集的基本步驟:

用乙個方形區域覆蓋所有樣本點;將該區域劃分成一系列小區域 (單元格)，直到每個小區域內包含的樣本點都屬於同一類別;將落在同一小區域內的樣本點中選擇且僅選擇乙個樣本構成極小覆蓋子集。

(2)取樣受限於極小覆蓋子集

全樣本空間必然包含極小覆蓋子集,任意乙個資料集未必包含完整的極小覆蓋子集。大資料環境下，極小覆蓋子集中的樣本更多地包含在大資料中，較多的資料可以戰勝較好的演算法、再多的資料亦不會超過極小覆蓋子集的代表性、再好的提公升手段亦不會超過極小覆蓋子集確定的精度。

演算法通常在功能或形式上呈現一定相似度。例如，基於樹的方法和神經網路方法的啟發。這是乙個有用的分組方法，但它是不完美的。仍然有一些演算法容易地融入多個類別，如學習向量量化learning vector quantization，它既是乙個神經網路的啟發方法又是乙個基於例項的方法的演算法。

也有一些描述問題域和演算法類別上有相同名稱的演算法，如回歸分析和聚合。因此，像機器學習演算法本身一樣，沒有完美的模型，只有適合的模型。

下面我們陳列出一些流行的機器學習演算法。

回歸是關注變數之間關係的建模，利用模型**誤差測量進行反覆提煉。回歸方法是統計工作，已納入統計機器學習。這可能是令人困惑，因為我們可以用回歸來引用各類的問題及各類演算法。回歸其實是乙個過程。

在市場營銷中，回歸分析可以被應用到各個方面。如通過對本季度銷售的回歸分析，對下一季度的銷售趨勢作出**並做出針對性的營銷改變。

一些示例演算法是：

基於例項的學習模型是使用那些對於模型很重要訓練資料，這類方法通常使用基於示例資料的資料庫，用新資料和資料庫資料以一種相似度方式從中找到最佳匹配，從而作出**。出於這個原因，基於例項的方法也被稱為贏家通吃所有的方法和基於記憶的學習。重點放在儲存例項之間的相似性度量表現上。

正則化方法是其他演算法(回歸演算法)的延伸，根據演算法的複雜度對演算法進行調整。正則化方法通常對簡單模型予以獎勵而對複雜演算法予以懲罰。基於正則化方法的擴充套件 (典型是基於regression回歸方法) 可能比較複雜，越簡單可能會利於推廣，下面列出的正則化方法是因為它們比較流行強大簡單。

決策樹方法是建立一種基於資料的實際屬性值的決策模型。決策使用樹型結構直至基於乙個給定記錄的**決策得到。決策樹的訓練是在分類和回歸兩方面的資料上進行的。

貝葉斯方法是明確使用貝葉斯定理進行分類和回歸：

kernel methods最有名的流行的支援向量機的方法， kernel methods更關注將資料對映到高維空間向量，在那裡可以進行一些分類或回歸問題的建模。

clustering聚類方法, 類似回歸，是屬於描述問題和方法的類別，聚集方法通常被建模於基於幾何中心centroid-based和層次組織等系統。所有的方法都是有關使用資料中固有的結構，這樣以便更好將資料組織為存在最大共性的分組。

聚類類似於分類，但與分類的目的不同，是針對資料的相似性和差異性將一組資料分為幾個類別。屬於同一類別的資料間的相似性很大，但不同類別之間資料的相似性很小，跨類的資料關聯性很低。

關聯規則的學習方法是提取那些能解釋觀察到的變數之間的資料關係的規則。這些規則可以用於在大型多維資料集裡，以便能發現重要的和商業上對某個組織或公司有用的的關聯。

關聯規則的挖掘過程主要包括兩個階段：第一階段為從海量原始資料中找出所有的高頻專案組;第二極端為從這些高頻專案組產生關聯規則。關聯規則挖掘技術已經被廣泛應用於金融行業企業中用以**客戶的需求，各銀行在自己的atm 機上通過**客戶可能感興趣的資訊供使用者了解並獲取相應資訊來改善自身的營銷。

人工神經網路模型的靈感來自於生物神經網路的結構和功能。他們是一類的模式匹配，常用於回歸和分類問題。

神經網路作為一種先進的人工智慧技術，因其自身自行處理、分布儲存和高度容錯等特性非常適合處理非線性的以及那些以模糊、不完整、不嚴密的知識或資料為特徵的處理問題，它的這一特點十分適合解決資料探勘的問題。典型的神經網路模型主要分為三大類：第一類是以用於分類**和模式識別的前饋式神經網路模型，其主要代表為函式型網路、感知機;第二類是用於聯想記憶和優化演算法的反饋式神經網路模型，以hopfield 的離散模型和連續模型為代表。第三類是用於聚類的自組織對映方法，以art 模型為代表。雖然神經網路有多種模型及演算法，但在特定領域的資料探勘中使用何種模型及演算法並沒有統一的規則，而且人們很難理解網路的學習及決策過程

因為各種各樣的問題型別有數百種分支的演算法。一些經典的流行的方法：

深度學習方法是乙個現代的人工神經網路方法公升級版，利用豐富而又廉價的計算，建立更大和更複雜的神經網路，許多方法都是涉及半監督學習（大型資料中包含很少有標記的資料）。

類似群集clustering方法, 降維是尋求和利用資料的內在結構，但在這種情況下，使用無監督的方式只能較少的資訊總結或描述資料。以監督方式使用是有用的，能形成視覺化的三維資料或簡化資料。

弱者是灰色的，組合**是紅色的。具體顯示的是溫度/臭氧資料.

機器學習流行演算法一覽

機器學習演算法一覽表附opencv機器學習模組

排序演算法一覽

AI 演算法崗工資一覽

機器學習流行演算法一覽

機器學習演算法一覽表附opencv機器學習模組

排序演算法一覽

AI 演算法崗工資一覽

相關推薦