2019最新大資料24期實戰專案全套9天 附原始碼

2021-09-08 20:35:55 字數 1833 閱讀 7361

課程目錄:

第一天:

01.傳統廣告回顧

02.幾個問題思考

03.廣告的表現形式

04.名詞解釋

05.dsp原理圖

06.dsp業務流程

07.dmp專案背景

08.dmp業務流程----重要

09.日誌格式介紹

10.需求一日誌轉parquet檔案

第二天:

01.工程包的建立

02.日誌轉parquet檔案實現方式一----structtype

03.日誌轉換成parquet檔案格式實現方式二---自定義類

04.統計各省市的資料量分布情況----結果輸出成json

05.統計各省市的資料量分布情況----結果輸出到mysql中

06.統計各省市的資料量分布情況----使用spark運算元的方式實現

07.地域分布需求

第三天:

00.ambari介紹及專案打包上傳

00.集群執行job觀察01

00.集群執行job觀察02

01.地域報表實現---spark sql

02.地域報表實現---spark core實現01

03.地域報表實現---spark core實現02

03.地域報表實現---讀取原始日誌檔案

04.**報表需求

05.**報表實現---broadcast

06.**報表實現---改造---字典存入到redis

07.**報表實現---改造---將redis作為字典庫

08.**託管到git

第四天:

01.git建立分支--合併分支--切換分支--刪除分支

02.上下文標籤需求

第五天:

01.標籤實現過程--step1

02.標籤實現過程--step2

03.標籤實現過程--step3

04.標籤實現過程--step4

05.商圈標籤實現思路

第六天:

01.經緯度知識庫的建立-stepone

02.經緯度知識庫的建立-steptwo

03.新增商圈標籤

04.商圈標籤bug解決

05.graph共同好友案例

06.graph解決使用者當天標籤合併

第七天:

01.案例聚合使用者標籤

02.案例聚合使用者標籤--**實現

03.案例聚合使用者標籤--**實現--測試

04.上下文標籤資料合併

05.專案總結

第八天:

01.中國移動實時專案背景

02.專案整體業務架構圖

03.flume節點及資料量分布

04.需求

05.日誌字段說明

06.scalikejdbc介紹

第九天:

01.建立kafka -- topic

02.將資料對接到kafka

03.工程搭建--思路分析

04.**實現-01---kafka偏移量有效性問題

05.**實現-02---校驗更新偏移量

06.**實現--03--測試接收資料

07.**實現--04---業務概況指標實現

08.**實現--05---分割槽資料處理

09.**實現--06---省市資料分布---每小時資料分布---每分鐘資料分布

10.**實現--07---偏移量有效性檢驗觀察

11.echarts展示

12.面試時的專案表述

13.面試問題補充

SDUT軟體1705(大資料)2019暑假實訓

1.hadoop 生態圈專題講座及大資料開發實戰 hadoop 背景介紹 hadoop 生態圈及各組成部分簡介 分布式系統軟體舉例 離線資料分析流程介紹 hadoop 集群簡介 伺服器準備與網路環境 啟動集群與測試 hdfs使用 案例專案實戰 2.zookeeper zookeeper原理 zook...

2019最新《尚矽谷Git和GitHub實戰教程》

git是先進的分布式版本控制系統,而github是常用的git 託管中心。本套教程內容豐富 詳實,囊括 git安裝過程 本地庫基本操作 遠端基本操作 基於分支的gitflow工作流 跨團隊協作的 forking工作流 eclipse中的git版本控制以及git對eclipse特定檔案忽略的配置方法。...

開源大資料週刊 第52期

摘要 利用yarn capacity scheduler在emr集群上實現大集群的多租戶的集群資源隔離和quota限制 本文結合emr集群,講述了如何利用yarn capacity scheduler在emr集群上實現大集群的多租戶的集群資源quota限制與管控。本文根據姜偉華博士在數果智慧型新產品...