Spark MLlib 簡單介紹

1.機器學習介紹

機器學習(machine learning, ml)是一門多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的效能。

機器學習演算法是從資料中自動分析獲得規律，並利用規律對未知資料進行**的演算法。

機器學習可分為以下幾種類別

• 監督學習：輸入資料被稱為訓練資料，它們有已知的標籤和結果。常見的演算法包括回歸分析和統計分類

• 無監督學習：輸入資料不帶標籤或者沒有乙個已知的結果。常見演算法有聚類

• 半監督學習：輸入資料由帶標籤和不帶標籤組成。有分類和回歸

• 強化學習：輸入資料作為作為來自環境的激勵供給模型，且模型做出反應。反饋作為環境的懲罰或獎賞。包括q學習，時序差分學習。

常見演算法

• 分類和回歸-----線性回歸、邏輯回歸、貝葉斯分類、決策樹分類等

• 聚類----kmeans聚類、lda主題、knn等

• 關聯規則-----apriori、fpgrowth等

• 推薦-----協同過濾、als等

• 神經網路-----bp、rbf、 svm等

• 深度神經網路等

2.spark介紹

引用官網一句話：apache spark™ is a unified analytics engine for large-scale data processing.

spark，是一種"one stack to rule them all"的大資料計算框架，期望使用乙個技術堆疊就完美地解決大資料領域的各種計算任務。spark使用spark rdd、 spark sql、 spark streaming、 mllib、 graphx成功解決了大數據領域中，離線批處理、互動式查詢、實時流計算、機器學習與圖計算等最重要的任務和問題。

• spark core用於離線計算

• spark sql用於互動式查詢

• spark streaming用於實時流式計算

• spark mllib用於機器學習

• spark graphx用於圖計算

3.spark mllib介紹

spark mllib 是spark中可以擴充套件的機器學習庫，它有一系列的機器學習演算法和實用程式組成。包括分類、回歸、聚類、協同過濾、等，還包含一些底層優化的方法

• 機器學習演算法：常規機器學習演算法包括分類、回歸、聚類和協同過濾。

• 特徵工程：特徵提取、特徵轉換、特徵選擇以及降維。

• 管道：構造、評估和調整的管道的工具。

• 儲存：儲存和載入演算法、模型及管道

• 實用工具：線性代數，統計，資料處理等。

Spark MLlib 簡單介紹

Spark MLlib 偽逆演算法

Spark mllib 保序回歸

Spark MLlib例項決策樹

Spark MLlib 簡單介紹

Spark MLlib 偽逆演算法

Spark mllib 保序回歸

Spark MLlib例項 決策樹

相關推薦

Spark MLlib例項決策樹