大資料學習

2021-10-19 06:49:53 字數 750 閱讀 5375

1.資料清洗

洗掉髒資料,對資料最後一步審核和糾正,包括一致性檢查,無效資料,不完整資料,衝突資料,重複資料等的處理,計算機自動完成。

2.資料傾斜

資料傾斜就是我們在計算資料的時候,資料的分散度不夠,導致大量的資料集中到了一台或者幾台機器上計算,這些資料的計算速度遠遠低於平均計算速度,導致整個計算過程過慢。

3.資料倉儲

將多個不同**的資料進行extract-transform-load之後,整合到乙個資料倉儲中,進行某一主題的資料分析,資料包表製作,資料探勘,一定程度上為企業提供bi,主要是基於乙個主題對資料進行分析,儲存的是歷史資料資訊,不做修改,但是會有資料定期更新。有名的資料倉儲有oracle,db2,teradata,收費。基於hadoop的開源資料倉儲hive是免費的。即資料倉儲就是用來做資料的查詢分析的,很少去做插入,刪除,修改操作。

4.hive

基於hadoop的資料倉儲。hive最早起源facebook,facebook開始研究開發hive,初衷是為了分析處理海量日誌。hive將結構化的資料對映成一張資料庫的表,提供hive sql查詢功能。能夠將sql語句解釋為mapreduce程式在hadoop上執行,方便與資料開發和分析人員進行資料分析,不應去編寫複雜德行程式語言。可以將hive理解成乙個資料庫。它本身不提供儲存,資料都儲存在hdfs裡面,也不提供計算,計算由hadoop進行。

5.hdfs

hdfs就是hadoop distributed filesystem,hadoop分布式檔案系統,是為hadoop提

大資料學習

hadoop的hdfs和mapreduce子框架主要是針對大資料檔案來設計的,在小檔案的處理上不但效率低下,而且十分消耗記憶體資源 每乙個小檔案占用乙個block,每乙個block的元資料都儲存在namenode的記憶體裡 解決辦法通常是選擇乙個容器,將這些小檔案組織起來統一儲存。hdfs提供了兩種...

大資料如何學習 cda認證 大資料學習之學習要求

眾所周知,大資料是現在非常火的行業,前景也是非常的不錯,大資料要處理的資料成千上萬,資料的處理方法也需要不斷地與時俱進。就現如今的發展趨勢而言,大資料技術的發展如火如荼。在各個領域都得到了廣泛的應用,而且就其目前的發展情況來看,大資料技術具有十分良好的發展前景。正因為這樣,很多人想要學習大資料,對於...

大資料學習筆記 1 1 了解大資料

三 bigtable 大表 nosql資料庫 hbase 首先引入兩個個大資料應用場景 從以上兩個例子可以引出大資料的兩個核心問題 資料的儲存 分布式的檔案系統 hdfs hadoop distributed file system 資料的計算 資料的計算 不是演算法 分布式的計算 mapreduc...