Mahout和Hadoop 機器學習的基本原理

2021-07-10 05:56:44 字數 2335 閱讀 7658

計算技術通常用來分析資料,而理解資料則依賴於機器學習。多年來,對於大多數開發者來說,機器學習卻是非常遙遠、一直是難以企及的。

這可能是現在收益最高,也是最受歡迎的一項技術之一。毫無疑問——作為開發人員,機器學習是乙個能夠大展身手的舞台。

圖1:機器學習的構成

機器學習是簡單資料檢索與儲存的合理擴充套件。通過開發各種元件,使計算機更加智慧型學習和發生行為。

機器學習依賴資料進行決策。直覺雖然重要,但卻也很難超越經驗資料。

機器學習的各個方面

一旦你開始深入探索機器學習,你會遇到以下幾個問題:

1. 有監督與無監督的學習

2. 分類

3. 馬爾科夫模型、貝葉斯網路等

mahout和hadoop

apache mahout專案的目的是建立乙個可擴充套件的機器學習庫。

大資料分析與hadoop之間存在一定程度的重疊

mahout內建聚類、分類以及協同過濾等演算法。除此之外還有:

1. 基於矩陣分解的推薦系統

2. k-均值,模糊k-均值聚類演算法

3. 隱含狄利克雷分配演算法

4. 奇異值分解

5. 邏輯回歸分類器

6. (互補)樸素貝葉斯分類器

7. 隨機森林分類器

我去過加利福尼亞大學伯克利分校,發現他們有很多不錯的課程。

azure是民主化的機器學習

機器學習曾經需要複雜的軟體與高階的計算機,以及資料科學家。。而對於現在的機器學習,即**分析來講,所需要的是乙個全管理的雲服務。

歡迎使用ml studio

通過使用拖拽(drag-and-drop)與一些資料流圖就可以進行一些實驗,就如寫**一般利用起高大上的演算法。

資料科學家用r編寫**

對於統計與資料探勘的來說,r是乙個很受歡迎的開源專案。好訊息是r能夠很容易的整合到ml studio中。我有很多朋友在使用機器學習的功能語言,如f#。但是很顯然的,r在此領域仍佔統治地位。

資料探勘的測驗與調查顯示,近年來r受歡迎的程度逐漸增強。r是由紐澤西的auckland大學的ross ihaka 與robert gentleman發明的,目前由r核心開發組(r development core team)負責研發,其中chambers也是開發成員之一。r的命名主要是根據前兩個r作者名字的首字母。r是乙個gnu專案,主要是用c語言與 fortran寫的。

資料分析

以下框架提供了理解機器學習**的方法。總的來說就是當涉及到如何使用有限的資源,為增加收益或限制成本提供決策支援。包括**消費模型、優化**鏈等。

如何進行資料分析

理解機器學習的最好方法就是將分析分解為3個問題:

1. 發生了什麼?

a) 從歷史角度去看

2. 將發生什麼?

a) **未來

3. 下一步應該怎麼做?

a) 規範與指引

分析過程中大家扮演什麼角色

1. 資訊工作者

a) 通常使用自助服務工具power bi:office 365的power bi是一種自我服務的事務智慧型解決途徑,能夠通過bi excel 與office 365給資訊工作者提供資料分析與鑑別資料深層事務**視覺化的能力。

2. it專家

a) 涉及資料轉換、資料倉儲、建立資料分析立方體及資料建模

3. 資料科學家

a) 深層次的技術與技能,包括編碼、數學、統計以及概率

b) 能夠通過一系列技術將概率用於**(如未來18小時內****的概率為42%)

c) 如蒙特卡羅(monte carlo)模擬,模型引數化

d) 資料科學家應具備的素質

i. 領域知識

ii. 對於科學方法的清晰理解:目標、假設、驗證、透明度

iii. 擅長數學與統計學

iv. 求知慾與極強的思考能力

v. 圖形化描述與溝通能力

vi. 高階計算與資料管理能力

學術背景

如果你想進入學校,通過學習成為乙個資料科學家,可選擇的課程如下:

1. 應用數學

2. 電腦科學

3. 經濟學

4. 統計學

5. 工程學

從資料科學中受益的行業包括:

1. 金融服務業

2. 電信業

3. 資訊科技

4. 製造業

5. 公共事業

6. 公共衛生

7. 市場

from:

Mahout 機器學習

wget tar xzvf mahout distribution 0.8.tar.gz cd mahout distribution 0.8 sudo vi etc profile 增加 export path path home ysc mahout distribution 0.8 bin s...

147 Mahout執行在Hadoop集群

hadoop 執行指令碼 hadoop jar mahout examples 0.9 job.jar org.apache.mahout.cf.taste.hadoop.item.recommenderjob input sanbox movie 10m.txt output sanbox mov...

Mahout 0 3 機器學習開源專案

有關機器學習的開源專案apache mahout三月份的時候推 出了它的0.3版本,這個新版本在之前的基礎上新增了一些新功能,比之前的版本更為穩定,效能也有相應的提公升。infoq採訪了apache mahout專案的開發者grant ingersoll和ted dunning,其中grant in...