什麼是大資料

2021-09-13 02:55:07 字數 2337 閱讀 6169

任務粒度——資料切片(splits)
把原始大資料集切割成小資料集時,通常讓小資料集小於或等於hdfs中乙個block的大小(預設是64m),這樣能夠保證乙個小資料集位於一台計算機上,便於本地計算。有m個小資料集待處理,就啟動m個map任務,注意這m個map任務分布於n臺計算機上並行執行,reduce任務的數量r則可由使用者指定。

hdfs用塊儲存帶來的第乙個明顯的好處乙個檔案的大小可以大於網路中任意乙個磁碟的容量,資料塊可以利用磁碟中任意乙個磁碟進行儲存.第二個簡化了系統的設計,將控制單元設定為塊,可簡化儲存管理,計算單個磁碟能儲存多少塊就相對容易.同時也消除了對元資料的顧慮,如許可權資訊,可以由其他系統單獨管理。

4、舉乙個簡單的例子說明mapreduce的執行機制

以計算乙個文字檔案中每個單詞出現的次數的程式為例,可以是《行在檔案中的偏移位置,檔案中的一行》,經map函式對映之後,形成一批中間結果《單詞,出現次數》,而reduce函式則可以對中間結果進行處理,將相同單詞的出現次數進行累加,得到每個單詞的總的出現次數。

5、mapreduce的核心過程----shuffle['ʃʌfl]和sort

shuffle是mapreduce的心臟,了解了這個過程,有助於編寫效率更高的mapreduce程式和hadoop調優。

shuffle是指從map產生輸出開始,包括系統執行排序以及傳送map輸出到reducer作為輸入的過程。如下圖所示:

首先從map端開始分析,當map開始產生輸出的時候,他並不是簡單的把資料寫到磁碟,因為頻繁的操作會導致效能嚴重下降,他的處理更加複雜,資料首先是寫到記憶體中的乙個緩衝區,並作一些預排序,以提公升效率,如圖:

每個map任務都有乙個用來寫入「輸出資料」的「迴圈記憶體緩衝區」,這個緩衝區預設大小是100m(可以通過io.sort.mb屬性來設定具體的大小),當緩衝區中的資料量達到乙個特定的閥值(io.sort.mb * io.sort.spill.percent,其中io.sort.spill.percent預設是0.80)時,系統將會啟動乙個後台執行緒把緩衝區中的內容spill到磁碟。在spill過程中,map的輸出將會繼續寫入到緩衝區,但如果緩衝區已經滿了,map就會被阻塞直到spill完成。spill執行緒在把緩衝區的資料寫到磁碟前,會對他進行乙個二次排序,首先根據資料所屬的partition排序,然後每個partition中再按key排序。輸出包括乙個索引檔案和資料檔案,如果設定了combiner,將在排序輸出的基礎上進行。combiner就是乙個mini reducer,它在執行map任務的節點本身執行,先對map的輸出作一次簡單的reduce,使得map的輸出更緊湊,更少的資料會被寫入磁碟和傳送到reducer。spill檔案儲存在由mapred.local.dir指定的目錄中,map任務結束後刪除。

每當記憶體中的資料達到spill閥值的時候,都會產生乙個新的spill檔案,所以在map任務寫完他的最後乙個輸出記錄的時候,可能會有多個spill檔案,在map任務完成前,所有的spill檔案將會被歸併排序為乙個索引檔案和資料檔案。如圖3所示。這是乙個多路歸併過程,最大歸併路數由io.sort.factor控制(預設是10)。如果設定了combiner,並且spill檔案的數量至少是3(由min.num.spills.for.combine屬性控制),那麼combiner將在輸出檔案被寫入磁碟前執行以壓縮資料。

大快大資料平台(dkh),是大快公司為了打通大資料生態系統與傳統非大資料公司之間的通道而設計的一站式搜尋引擎級,大資料通用計算平台。傳統公司通過使用dkh,可以輕鬆的跨越大資料的技術鴻溝,實現搜尋引擎級的大資料平台效能。

 dkh,有效的整合了整個hadoop生態系統的全部元件,並深度優化,重新編譯為乙個完整的更高效能的大資料通用計算平台,實現了各部件的有機協調。因此dkh相比開源的大資料平台,在計算效能上有了高達5倍(最大)的效能提公升。

 dkh,更是通過大快獨有的中介軟體技術,將複雜的大資料集群配置簡化至三種節點(主節點、管理節點、計算節點),極大的簡化了集群的管理運維,增強了集群的高可用性、高可維護性、高穩定性。

 dkh,雖然進行了高度的整合,但是仍然保持了開源系統的全部優點,並與開源系統100%相容,基於開源平台開發的大資料應用,無需經過任何改動,即可在dkh上高效執行,並且效能會有最高5倍的提公升。

dkh標準平台技術構架圖

大資料 什麼是大資料

1.什麼是資料 資料是事實或觀察的結果,是對客觀事物的邏輯歸納,是用於表示客觀事物的未加工的原始材料。資料經過加工之後就成為資訊。2.大資料的定義 麥肯錫給出的大資料定義是 大資料是指大小超過常規的資料庫工具獲取 儲存 管理和分析能力的資料集。但它同時強調,並不是說一定要超過特定的tb值的資料才能是...

大資料 什麼是大資料?

海量的資料 tb pb zb。高增長率 資料的形成速度 使用爬蟲 多樣化 資料是結構化 非結構化 半結構化。電商行業 電商行業是最早利用大資料進行精準營銷,它根據客戶的消費習慣提前生產資料 物流管理等,有利於精細社會大生產。由於電商的資料較為集中,資料量足夠大,資料種類較多,因此未來電商資料應用將會...

大資料 什麼是大資料?

在網際網路技術發展到至今階段,大量日常,工作等事務產生的資料都已經資訊化,人類產生的資料量相比以前有了 式的增長,以前傳統的資料處理技術已經無法勝任,需求催生技術,一套用來處理海量資料的技術應運而生,這就是大資料技術。換個角度說,大資料是 有海量的資料 有海量的資料進行挖掘的需求,有對海量資料進行挖...