wget
tar -xzvf mahout-distribution-0.8.tar.gz
cd mahout-distribution-0.8
sudo vi /etc/profile
增加:export path=$path:/home/ysc/mahout-distribution-0.8/bin
source /etc/profile
資料:hadoop fs -put clustering_material.txt testdata/clustering_material.txt
聚類1:
mahoutorg.apache.mahout.clustering.syntheticcontrol.kmeans.job分析1
:mahout clusterdump --input output/clusters-10-final --pointsdir output/clusteredpoints --output output/clusteranalyze_kmeans.txt
檢視:
hadoopfs -lsr output
moreoutput/clusteranalyze_kmeans.txt
vl-19
代表這是乙個
cluster
,n=161
代表該cluster
有161
個點,c=[...]
代表該cluster
的中心向量點,
r=[...]
代表cluster
的半徑
聚類2:
mahout org.apache.mahout.clustering.syntheticcontrol.canopy.job分析2
:mahout clusterdump --input output/clusters-0-final --pointsdir output/clusteredpoints --output output/clusteranalyze_canopy.txt聚類3
:mahout org.apache.mahout.clustering.syntheticcontrol.fuzzykmeans.job分析3
:mahout clusterdump --input output/clusters-6-final --pointsdir output/clusteredpoints --output output/clusteranalyze_fuzzykmeans.txt聚類4
:mahout org.apache.mahout.clustering.syntheticcontrol.dirichlet.job分析4
:mahout clusterdump --input output/clusters-5-final --pointsdir output/clusteredpoints --output output/clusteranalyze_dirichlet.txt聚類5
:mahout org.apache.mahout.clustering.syntheticcontrol.meanshift.job分析5
:mahout clusterdump --input output/clusters-3-final --pointsdir output/clusteredpoints --output output/clusteranalyze_meanshift.txt
Mahout 0 3 機器學習開源專案
有關機器學習的開源專案apache mahout三月份的時候推 出了它的0.3版本,這個新版本在之前的基礎上新增了一些新功能,比之前的版本更為穩定,效能也有相應的提公升。infoq採訪了apache mahout專案的開發者grant ingersoll和ted dunning,其中grant in...
Mahout和Hadoop 機器學習的基本原理
計算技術通常用來分析資料,而理解資料則依賴於機器學習。多年來,對於大多數開發者來說,機器學習卻是非常遙遠 一直是難以企及的。這可能是現在收益最高,也是最受歡迎的一項技術之一。毫無疑問 作為開發人員,機器學習是乙個能夠大展身手的舞台。圖1 機器學習的構成 機器學習是簡單資料檢索與儲存的合理擴充套件。通...
機器學習開源專案mahout 用其開發推薦引擎
機器學習開源專案mahout 用其開發推薦引擎 開放源 專案mahout,實現了很多機器學習的演算法和一些實用的系統,對於從事機器學習和web挖掘的人員來說是個很值得學習的資源。mahout是 基於hadoop的,可以分布式執行,至此lucence nutch mahout為構建開源的分布式的搜尋引...