Hadoop學習筆記和總結(一)

2021-10-01 20:36:52 字數 438 閱讀 4600

大資料:即海量資料,資料量特別大的資料。

大資料的特點:

(1) 資料量大:能達到tb、pb級別。(1tb = 1024gb,1pb = 1024tb)

(2)資料增長的速度快

(4)資料的價值密度低、整體的價值高

(1)公司自己的業務資料 ,如電商的訂單資料、日誌資料等。

(2)通過網路爬蟲爬取獲得的資料

由於獲取的資料質量不同,在儲存、分析這些資料之前,先要對資料進行處理。常用處理資料的手段如下:

(1)如何處理缺失的資料

不影響業務功能的資料,刪除;但與錢相關的資料,不能輕易刪除,需要自己補充。

(2)敏感資料

如:手機號,身份證號、銀行卡號等。需通過加密演算法進行脫敏處理。常用md5等。

可用於繪製人物畫像:根據使用者的綜合資料,對使用者進行全方位的分析。如:人脈、消費水平、性格等。

Hadoop學習筆記和總結(五)

目錄 第五章 hadoop的設計思想 5.1 hdfs和hdfs設計思想 5.1.1 分而治之 5.1.2 備份機制 5.2 hdfs的整體架構 5.2.1 主節點 namenode 5.2.2 從節點 datanode 5.2.3 冷備份節點 secondarynamenode 5.3 hdfs的...

Hadoop學習筆記和總結(八)

目錄 第八章 hdfs中元資料的管理 8.1 元資料 8.1.1 什麼是元資料?8.1.2 元資料儲存在 8.2 元資料的寫入機制 8.3 合併 checkpoint 8.3.1 元資料合併前 8.3.2 元資料合併 checkpoint 8.4 總結集群中各節點的作用 8.4.1 namenode...

Hadoop學習筆記(一)初識Hadoop

研究生階段將要接觸大資料和深度學習的知識,在網上找的教程大多一上來就是一堆名詞又解釋不清楚,對新手相當不友好,在慕課網看到乙個教程,利用部落格記錄下自己學習的過程。關於hadoop 最好的介紹莫過於官網的文件,hadoop的官網如下,我們一句一句來看看hadoop官網是怎麼介紹的。the apach...