大資料技術實戰 業務互動資料分析

2021-10-10 01:54:33 字數 2394 閱讀 8200

1、電商業務流程是怎樣的?

2、mysql中表是如何分類的?

3、什麼是關係型資料庫中的正規化?

6.1 電商常識

sku:一台銀色、128g記憶體的、支援聯通網路的iphonex

spu:iphonex

tm_id:品牌id蘋果,包括iphone,耳機,mac等

6.2 電商業務流程

6.3 業務表關鍵字段

6.3.1 訂單表(order_info)

6.3.2 使用者表

6.3.3 訂單詳情表(order_detail)

6.3.4 商品表

6.3.5 商品一級分類表

6.3.6 商品二級分類表

6.3.7 商品**分類表

6.3.8 支付流水表

訂單表跟訂單詳情表有什麼區別?

訂單表的訂單狀態會變化,訂單詳情表不會,因為沒有訂單狀態。

訂單表記錄user_id,訂單id訂單編號,訂單的總金額order_status,支付方式,訂單狀態等。

訂單詳情表記錄user_id,商品sku_id ,具體的商品資訊(商品名稱sku_name,**order_price,數量sku_num)

6.4 mysql中表的分類

實體表,維度表,事務型事實表,週期性事實表

其實最終可以把事務型事實表,週期性事實表統稱實體表,實體表,維度表統稱維度表

訂單表(order_info)(週期型事實表)

訂單詳情表(order_detail)(事務型事實表)

商品表(實體表)

使用者表(實體表)

商品一級分類表(維度表)

商品二級分類表(維度表)

商品**分類表(維度表)

支付流水表(事務型實體表)

6.5 同步策略

實體表,維度表統稱維度表,每日全量或者每月(更長時間)全量

事務型事實表:每日增量

週期性事實表:拉鍊表

6.6 關係型資料庫正規化理論

1nf:屬性不可再分割(例如不能存在5臺電腦的屬性,壞處:表都沒法用)

2nf:不能存在部分函式依賴(例如主鍵(學號+課名)-->成績,姓名,但學號--》姓名,所以姓名部分依賴於主鍵(學號+課名),所以要去除,壞處:資料冗餘)

3nf:不能存在傳遞函式依賴(學號--》宿舍種類--》價錢,壞處:資料冗餘和增刪異常)

mysql關係模型:關係模型主要應用與oltp系統中,為了保證資料的一致性以及避免冗餘,所以大部分業務系統的表都是遵循第三正規化的。

hive 維度模型:維度模型主要應用於olap系統中,因為關係模型雖然冗餘少,

但是在大規模資料,跨表分析統計查詢過程中,會造成多表關聯,這會大大降低執行效率。

所以hive把相關各種表整理成兩種:事實表和維度表兩種。所有維度表圍繞著事實表進行解釋。

6.7 資料模型

雪花模型、星型模型和星座模型

(在維度建模的基礎上又分為三種模型:星型模型、雪花模型、星座模型。)

星型模型(一級維度表),雪花(多級維度),星座模型(星型模型+多個事實表)

大資料分析挖掘方法實戰

慧智匯 17xuee直播課程之大資料分析挖掘方法實戰案例 主題 大資料分析挖掘方法實戰案例 主講公司 慧智匯科技 收費標準 200 人 中文演講人 鄧亞明,香港上市it公司資深研究員 講師簡介 鄧老師在資訊科技方面有超過18年的經驗。主要研究方向包括企業架構和資料分析。專長有企業架構 資料模型分析和...

大資料技術實戰 業務資料數倉搭建

6.8 業務資料數倉搭建 從使用者行為寬表中dws user action,根據統計日期分組,聚合,直接sum就可以了。6.10 需求二 轉化率 6.10.1 新增使用者佔日活躍使用者比率表 從日活躍數表 ads uv count 和 日新增裝置數表 ads new mid count 中取即可。6...

大資料分析技術與應用

cda資料分析研究院原創作品 一 大資料概念 大資料 big data 指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合,是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資訊資產。二 大資料的特點 1 volume 大量 截至目前,人類生產的...