大資料處理過程的通俗理解

2021-09-02 23:17:15 字數 1631 閱讀 8447

「大資料分析」這麼高大上,怎麼講才能最通俗呢,做飯和大資料有什麼關係呢?請聽下面分析:

菜地裡的毛菜(原始系統的資料,有錯誤,不精準,毛菜有泥巴,有黃葉子),相當於erppdm系統裡面的原始資料。

從菜地裡採集到家,分門別類的堆在一起(初步去掉泥巴,黃葉子,分類堆放),相當於從原系統到ods

ods的意思是運算元據,即原始系統中的運算元據的乙個副本,與原始資料是一模一樣的,叫貼源,這個過程就叫資料採集、清洗、轉換,即etl幹的事情,這個階段叫初加工。

把拿回家的各種菜洗淨,去皮,按大小分類,去掉小的、爛的蔬菜,可以賣給超市了。

對bi專案來說,就是從ods到資料倉儲的過程,資料的精加工過程,去偽存真,也要用到etl來清洗轉換,對缺項的資料補充完整,比如合併資料,合併字段,增加主資料描述字段,補充分類等。

從菜農賣到超市,超市還要經過一次加工,比如包裝成一小包一小包的,把蔬菜放在一起,水果放在一起,便於顧客直接購買。

這一步就是從資料倉儲到資料集市的過程,資料集市就是包好、稱好的淨菜,價簽已經打好的了,顧客直接付款可以拿走了。

從資料倉儲到資料集市就是形成乙個乙個的資料立方體,這個立方體的資料是加工好的,可以單獨發布出去,離線使用,相當於乙個execl資料檔案,你可以用execl工具開啟,也可以用wps開啟,開啟以後,可以用**表示,也可以用圖表表示。

媽媽配菜,媽媽根據家人一天要吃的菜餚規劃,挑選各種各樣的菜、肉組合在一起,有的直接可以食用,有的需要再加工,即烹調,然後端出來擺到餐桌上,家人只需要帶一張嘴即可享用。

對bi專案來說,就是報表的製作過程,業務分析人員,根據領導的要求,按照各個主題需求,從各個資料立方體中、或者一部分從資料倉儲中取一些資料組合起來,並且定義展現方式,即把報表做好,發布出來,放到門戶上,給與許可權控制,哪些人可以享用這桌美味,這就是報表製作這個階段幹的事情。

所以說,業務人員是否可以拖拽製作報表,關鍵看前面的資料立方體準備好沒有。相當於是這樣的,不是人人都是烹調高手,但是超市裡面有很多配好的菜(蔥薑蒜都有了),你只要拿回去放放鍋裡炒5分鐘或者蒸煮10分鐘,端出來即可,不難吧。至於加工的工具是微軟家的鍋還是ibm家的灶,或者oracle家的瓢,有什麼關係呢,這些都是報表製作工具(烹調工具而已)。

享受美味佳餚,把做好的一桌筵席,放到門戶上,當然是給有許可權的人享受。

對應到工作就是決策層查閱所有結果報表。

mysql大資料處理過程的注意事項

最近在做10w以上的excel和txt的匯出,業務邏輯本身的複雜性和表結構的不合理性就不提了,這裡就說下在使用mysql中希望明顯提高效能的要點 1.如果你使用了儲存過程或其他方式建立了臨時表 temporary table 來充當中間表,記得一定要為臨時表加主鍵 單獨主鍵或是聯合主鍵 特別是通過c...

大資料處理

大資料處理的流程主要包括以下四個環節 採集 匯入 預處理 統計 分析 挖掘,下面針對這四環節進行簡單闡述。大資料處理之一 採集 在大資料的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的使用者來進行訪問和操作,比如火車票售票 和 它們併發的訪問量在峰值時達到上百萬,所以需要在採集...

資料預處理過程

概括起來,統計資料預處理的過程包括資料審查 資料清理 資料轉換和資料驗證四大步驟。一 資料審查 該步驟檢查資料的數量 記錄數 是否滿足分析的最低要求,字段值的內容是否與調查要求一致,是否全面 還包括利用描述性統計分析,檢查各個欄位的字段型別 字段值的最大值 最小值 平均數 中位數等,記錄個數 缺失值...