大資料學習總結03

2022-01-14 16:02:17 字數 1220 閱讀 7134

二、視覺化etl平台——kettle

etl,是英文extract-transform-load的縮寫,用來描述將資料從**端經(extrac過抽取t)、轉換(transform)、載入(load)至目的端的過程。etl是將業務系統的資料經過抽取、清洗、轉換之後載入到資料倉儲的過程,目的是將分散、零亂、標準不統一的資料整合到一起。

1、入門案例

①表的輸入、輸出元件

案例01:使用kettle將txt檔案抽取,然後裝載到excel

案例02:使用kettle將excel檔案抽取,然後匯入到mysql

案例03:使用kettle將mysql資料庫表中的資料抽取,然後裝載到另一張表

②插入、更新元件

插入/更新元件能夠將kettle抽取的資料,與某個表的資料進行對比,如果資料存在就更新,不存在就插入。

案例04:修改 t_user中的張三這一行資料,修改age為22,同時,使用kettle將 t_user1 中的張三這一行資料的age也修改為22。

③刪除元件

刪除元件能夠按照指定條件,將表中的資料刪除。

案例05:文字檔案包含了要刪除的兩個使用者id,使用kettle將文字檔案中兩個id對應的t_user1表的資料刪除。

④排序記錄元件

案例06:使用kettle將t_user表中的使用者資料,按照年齡公升序排序,並將排序後的資料裝載到excel

⑤switch/case元件

案例07:從 t_user 表中讀取所有使用者資料,我們需要將性別為男的使用者匯出到乙個excel、性別為女的匯出到另外乙個excel。

⑥sql指令碼元件

案例08:使用kettle執行sql指令碼,將t_user1 表中的資料清空。

案例09:使用者輸入指定引數來刪除t_user1表中對應資料

⑦job(作業)開發

案例10:每5秒鐘執行一次kettle轉換,也就是每5秒鐘將excel中的資料抽取並裝載到mysql中

⑧基於linux系統使用kettle

案例11:將/root/kettle/user.

txt資料抽取到/root/kettle/

out_

user.xls

**中案例12:每5秒鐘執行一次kettle轉換,也就是每5秒鐘將excel中的資料抽取並裝載到mysql中

2、總結

在學習大資料的過程中,我們可能經常會遇到各種資料的處理,轉換,遷移,所以為了以後更好的學習大資料,掌握一種etl工具的使用,必不可少。

大資料學習總結04

三 bi資料視覺化平台 superset superset是一款開源的現代化企業級bi。它是目前開源的資料分析和視覺化工具中比較好用的,功能簡單但可以滿足我們對資料的基本需求,支援多種資料來源,圖表型別多,易維護,易進行二次開發。1 入門案例 將資料庫裡的資料按照要求進行視覺化展示 案例01 使用s...

大資料 技術入門03

yarn是資源管理系統,理論上支援多種資源,目前支援cpu和記憶體兩種資源 yarn產生背景 直接源於mrv1在幾個方面的缺陷 擴充套件性受限 單點故障 難以支援mr之外的計算 多計算框架各自為戰,資料共享困難 mr 離線計算框架 storm 實時計算框架 spark 記憶體計算框架 yarn設計目...

大資料hive個人學習總結

hive是乙個可以把資料用sql處理的工具,資料儲存再hdfs上,底層處理是用mr,通過用sql的方式通過mr獲得需要的資料,執行程式執行再yarn上。資料儲存不同,hive資料儲存到hdfs上,用mr處理,mysql儲存在磁碟上,可以把hive看成對hdfs上的資料處理的客戶端工具,除了語言有一樣...