分布式計算框架與分布式檔案系統

2021-10-02 12:55:29 字數 936 閱讀 3273

分布式計算框架與分布式檔案系統是兩個概念。分布式計算框架是用於處理大資料的一種模型,而分布式檔案系統可以用於大資料的儲存。

對於如何處理大資料,計算機科學界有兩大方向:一是集中式計算,二是分布式計算。

過去,分布式計算理論比較複雜,技術實現比較困難,因此集中式計算一直是主流解決方案。但2023年到2023年間,google發表了mapreduce、gfs(google file system)和bigtable三篇技術**,提出了一套全新的分布式計算理論。

mapreduce是分布式計算框架,gfs(google file system)是分布式檔案系統,bigtable是基於google file system的資料儲存系統,這三大元件組成了google的分布式計算模型。google的分布式計算模型相比於傳統的分布式計算模型有三大優勢:首先,它簡化了傳統的分布式計算理論,降低了技術實現的難度,可以進行實際的應用。其次,它可以應用在廉價的計算裝置上,只需增加計算裝置的數量就可以提公升整體的計算能力,應用成本十分低廉。最後,它被google應用在google的計算中心,取得了很好的效果,有了實際應用的證明。

後來,各家網際網路公司開始利用google的分布式計算模型搭建自己的分布式計算系統,google的這三篇**也就成為了大資料時代的技術核心。

目前三大分布式計算框架:

1)hadoop

2)spark

3)storm

以上三種框架的分別,可以見拙作:《大資料基礎》

顧名思義,分布式檔案系統就是檔案系統咯,乙個個檔案。當然它是分布式的,讀取機制,寫入機制,同步機制,都有講究。有些處理大資料的資料庫,如hbase,就存放於分布式檔案系統hdfs之上。採用不同的分布式檔案系統決定了分布式資料儲存系統的執行效率、可伸縮性、容錯能力及安全性等。

目前,google的gfs和hadoop的hdfs是最流行的兩種分布式檔案系統。當然,hdfs也是根據google的那三篇**上的原理搞出來的。

分布式檔案系統

分布式檔案系統 概述 系統管理員可以利用分布式檔案系統 dfs 使使用者訪問和管理那些物理上跨網路分布的檔案更加容易。通過 dfs,可以使分布在多個伺服器上的檔案在使用者面前顯示時,就如同位於網路上的乙個位置。使用者在訪問檔案時不再需要知道和指定它們的實際物理位置。例如,如果您的銷售資料分散在某個域...

分布式檔案系統

常見的分布式檔案系統有,gfs hdfs lustre ceph gridfs mogilefs tfs fastdfs等。各自適用於不同的領域。它們都不是系統級的分布式檔案系統,而是應用級的分布式檔案儲存服務。google學術 這是眾多分布式檔案系統的起源 google file system 大...

分布式檔案系統

缺點是檔案路徑是一致的,只能用於嵌入式檔案的儲存,沒有辦法作為系統請求檔案的儲存,不過對於web2.0可以從設計層面進行一些改善,將使用者的資料互動更多地方在伺服器端,而不是資料庫中,比如使用者的文章就在 com yyy裡面,但是這又帶來一些新的問題,檔案同步負載均衡等問題。現在著眼於將自製的web...