基於雲計算平台的並行資料探勘

2021-08-31 10:44:04 字數 1916 閱讀 3131

已有 1261 次閱讀

2010-5-7 14:26

|個人分類:cloud

|系統分類:科研筆記

採用雲計算技術,實現海量資料的儲存、分析、處理、挖掘,提供高可靠性、高效能的資料探勘分析。

從系統架構來講,基於雲計算的並行資料探勘工具平台包括三個層次,依下而上為

(1)分布式計算平台層:包括三部分功能: l

分布式檔案系統:提供分布式資料檔案儲存功能,提供具備高可靠性、高穩定性的儲存平台;

l並行程式設計環境:提供基於mapreduce

的程式設計模型,及任務排程、任務執行、結果反饋等功能;及向平台提交作業功能;

l分布式系統管理:實現對平台的分布式系統管理。

(2)資料探勘平台層:包括五部分功能:

l工作流模組:實現對各個資料探勘步驟及模組總控、排程功能;

l資料載入模組:將源資料從其他外設中匯入雲計算平台的dfs

系統;l

並行etl

模組:對原始資料進行預處理以得到挖掘資料;並行資料探勘工具向雲計算平台提交待執行的etl

任務,由雲計算平台執行並反饋結果,存放於dfs;

l並行資料探勘演算法模組:實現滿足業務需要的資料探勘演算法;並行資料探勘工具平台向雲計算平台提交待執行的聚類演算法任務,由雲計算平台執行並反饋結果,存放於dfs;l

並行結果展示模組:將並行資料探勘演算法的結果展示給使用者;

(3)業務應用層:實現電信類的業務應用,以供市場部門制定營銷策略,具體業務應用如:客戶分群,使用者職業**等。使用者可以通過兩種方式使用並行資料探勘工具:

l基於使用者gui

介面:使用者可以通過工具進行資料的載入、etl

操作、資料探勘演算法及結果展示,來實現所需的應用。

l基於演算法庫api

:使用者可以編寫應用系統,呼叫演算法庫中的api

來實現應用功能。

以上**:

注:具體底層實現可考慮使用 hadoop(hdfs)或 greenplum(postgresql)

1. hadoop (

hadoop是專案的總稱,主要是由

hdfs、mapreduce和hbase組成。        

2. greenplum (

下一代強大的資料倉儲,資料引擎,分析資料庫。

greenplum資料引擎是為了支援新一代資料倉儲和分析處理大規模資料而建立的軟體解決方案。greenplum

支援sql和mapreduce的並行處理功能,並能以較低的成本向管理tb量到pb量級資料的企業提供業界領先的效能。

greenplum資料引擎的優勢在於:

a. 建立超大級的資料量 

依照需求,快速簡便的建立任意大小和種類的資料倉儲 

使用業界的標準硬體,擴充符合成本效益

b. 海量並行的查詢能力 

相比於傳統查詢,可以以10倍到100倍的超快速度得到答案 

隨著您的資料增長確保高效能的分析效率

c. 不定格式的資料處理 

乙個平台可以支援資料查詢,機器學習,文字挖掘,統計計算等 

使用業界標準的語言(sql,mapreduce),在各個資料層級進行並行分析 

"看上去都很美,問題就是海量資料每天怎麼匯入到 greenplum 中來? 借助傳統的 etl 工具(informatica / datastage ...) 或者自己寫 etl 功能指令碼來做。這就是個麻煩事。海量資料的載入與匯出,對於 greenplum 來說,似乎只能用傳統的老辦法。如果 greenplum 帶乙個 etl 工具就真的強了。" (摘自

dbanotes)

注:greenplum有自己的etl工具?gpfdist,基於並行的快速載入,load速度非常快,並且可以線性擴充套件進一步提公升速度。相容其他etl工具,在不同的情況下,使用者可以使用傳統的工具。

reference:

definition of cloud computing:

基於Azure雲計算平台的網格計算(1)

在這個由3部分組成的系列文章中,我們將看一下利用azure雲計算平台的網格計算。在第1部分中,我們將看到所涉及的設計模式以及一些有益的觀點。在第2和第3部分,我們將看到乙個用來展示專門為azure而開發的網格計算框架的 例子。並不是所有人都清楚,網格計算和雲計算之間的區別,所以我們先來簡短解釋一下兩...

基於線性探測法的雜湊表 並行陣列

為了解決雜湊表中的碰撞衝突問題,除了基於拉鍊法的方式,我們還可以採用基於線性探測法並行陣列的方式解決。基本思想 當碰撞發生時 當乙個鍵的雜湊值已經被另乙個鍵所占用 我們就檢查雜湊表中的下乙個位置 將索引值 1 若為空,則將此雜湊值賦給發生碰撞的鍵。若不為空,則不斷將雜湊表中的位置 1,直到出現雜湊值...

雲計算與大資料 資料探勘常用演算法

在大資料時代,資料探勘是最關鍵的工作。大資料的挖掘是從海量 不完全的 有雜訊的 模糊的 隨機的大型資料庫中發現隱含在其中有價值的 潛在有用的資訊和知識的過程,也是一種決策支援過程。其主要基於人工智慧,機器學習,模式學習,統計學等。通過對大資料高度自動化地分析,做出歸納性的推理,從中挖掘出潛在的模式,...