hadoop專案實戰 ETL (一)專案分析

2022-08-19 13:00:15 字數 1207 閱讀 4596

在遠端伺服器上的資料庫中有兩張表,user 和

order,

現需要對錶中的資料做分析,將分析後的結果再存到

mysql

中。兩張表的結構如下圖所示

現需要分析每一天user和

,oder

的新增數量。

在遠端的日誌伺服器上存放有使用者瀏覽**所留下的apache日誌資料,現在需要對日誌檔案進行

etl處理,並分析使用者的行為。

日誌檔案的格式如下

由於這是乙個學習專案,沒有使用者的真實資料,所以我們在本機windows上安裝

mysql

資料,在虛擬機器中用

python

指令碼模擬使用者註冊資訊,向資料庫中插入資料。然後在寫乙個

python

指令碼,利用

sqoop

工具向虛擬機器中的

hive

中匯入資料,第一匯入為全量匯入,以後為增量匯入。然後利用

hive

做大資料分析,分析完成後再利用

sqoop

工具把分析結果存入

mysql

中。python

指令碼每天定時向

hdfs

中匯入日誌資料,然後利用

mapreduce

對日誌資料進行清洗,清洗完以後的資料再匯入到

hive

中,然後在

hive

中對日誌檔案進行分析。分析完成後利用

sqoop

工具將分析結果匯入到

mysql

中。這就是這個專案的的主要工作類容及工作流程。

vue 實戰筆記一專案準備

這是在網上找的乙個訂餐系統vue的實戰demo。下面是我在做這個專案時的筆記 一.專案準備 1.新建資料夾,用visual studio編輯器,開啟終端 ctrl 2.安裝腳手架工具 npm install vue cli g vue init webpack 安裝過程和基本專案結構貼圖 安裝過程中...

一 專案概覽

鏈結1 密碼 1zrc 鏈結2 密碼 43bo 02 天天生鮮資料庫設計 待完善 03 使用者註冊 待完善 04 使用者登入 待完善 05 使用者中心 待完善 06 分布式fastdfs檔案系統 待完善 07 天天生鮮首頁 待完善 08 天天生鮮詳情頁 待完善 09 天天生鮮列表頁 待完善 10 天...

一 專案準備

一.ps的基本操作 1.調出標尺 ctrl r 2.調整單位 編輯 首選項 單位與標尺 修改單位為畫素 3.放大和縮小 ctrl 或ctrl 4.量取長度或者寬度 選取工具 5.取色 工具欄吸管工具 6.文字 工具欄文字工具 二.開發環境的搭建 1.開發軟體使用visual studio code ...