雲計算專案實戰之資料清洗與匯入模組

2021-06-19 17:54:20 字數 1038 閱讀 6853

第一部分

:需求分析 •

將原始日誌做清洗,提取符合規範的資料 •

將使用者資訊儲存到使用者資訊表中

•將未爬去過的網頁資訊儲存到為爬去的網頁列表中

原始日誌格式

使用者id

暱稱訪問url

訪問開始時間

訪問結束時間

ip位址流量

屬性規範 •

ip位址不能為

127.0.0.1 •

ip位址不能為內網位址 •

使用者暱稱長度能不能超過40位

日誌表-log(hive)

欄位名使用者id

暱稱訪問url

訪問開始時間

訪問結束時間

ip位址

流量字段型別

string

string

string

string

string

string

bigint

userid!`!username!`!url!`!visit_begin_time

!`』

使用者表-

user_inof

(hbase)

rowkey

使用者id!~!~!暱稱

cf:empty

未爬取url表

-unknowurl

(hbase)

rowkey

urlcf:empty

已爬取url表

-knownurl

(hbase)

rowkey

urlcf:empty

第二部分:

**實現 步驟

•建立hive表

•建立hbase的表

•編寫mapreduce程式

資料分析實戰之資料清洗

在資料分析過程中不論是時間還是功夫,資料清洗大概佔到了80 一 資料質量的準則 完全合一 1 完整性 單條字段是否存在空值,統計的字段是否完善 2 全面性 觀察某一列的全部數值,根據常識判斷該列是否有問題,比如 資料定義 單位標識 數值本身。3 合法性 資料的型別 內容 大小的合法性 4 唯一性 資...

雲計算專案實戰之系統監控模組

第一部分 需求分析 需要對現有的系統的 cpu,硬碟,記憶體的使用情況進行監控 達到一定使用程度時需要產生告警日誌記錄 產生的告警存入到 hbase中 第二部分 技術點 示例 arraylist rtn new arraylist runtime rt runtime.getruntime proc...

python資料清洗與預處理實戰

髒資料可以理解為帶有不整潔程度的原始資料。原始資料的整潔程度由資料採集質量所決定。髒資料的表現形式五花八門,如若資料採集質量不過關,拿到的原始資料內容只有更差沒有最差。髒資料的表現形式包括 資料採集完後拿到的原始資料到建模前的資料 there is a long way to go.從資料分析的角度...