大資料分析五步法流程順序

2021-10-05 12:26:09 字數 1693 閱讀 5045

我們知道做認識事情都有個流程順序,正確的流程可以事半功倍,錯誤的流程往往會導致事情重新來做。流程如此重要,具體到資料分析的流程也是一樣的,資料分析可以分為五步,過程和家裡的賢內助做飯的過程相似,分為問題識別,資料可行性論證,資料準備,建立模型,評估結果。希望本文可以拋磚引玉,引發對大資料分析的適用性、可靠穩健的大資料分析標準、如何健康發展大資料產業等問題更深入的**。

大資料分析五大步驟

(一)問題識別

大資料分析的第一步是要清晰界定需要回答的問題。對問題的界定有兩個標準,一是清晰、二是符合現實。

(二)資料可行性論證

論證現有資料是否足夠豐富、準確,以致可以為問題提供答案,是大資料分析的第二步,專案是否可行取決於這步的結論。大資料和傳統資料的生成方式有本質不同。傳統資料往往是在識別問題、根據問題設計問卷、之後展開調查獲得的資料,而大資料卻是企業或者個體各類活動產生的附屬產品。作為附屬產品,大資料往往不是為了特定資料專案生成,也存在較高噪音。這就要求資料可行性論證過程需要仔細推敲,現有資料得出來的結論是否足夠可靠。由於大資料分析技術本質屬於資料探勘法,過度擬合問題往往是大資料分析的難點。

因此,在資料可行性論證主要涉及三個環節。第一,釐清專案需要的大資料、小資料和專業知識;第二,完成從抽象概念到具體指標的落實;第三,考察資料的代表性。

(三)資料準備

1.資料的採集準備

為大資料分析做資料採集準備時,往往不能迴避下列問題:專案的資料預算有多少?配備的人員裝置是否足夠?專案預期資料採集的完成期限?專案打算用什麼方法收集資料?哪些資料是可以通過自身努力來獲取,哪些資料需要通過購買獲得?哪些資料獲取中會存在時間和經費上的不確定性?如果一些重要問題的答案是否定的或者含糊的,就可能需要重新回到資料可行性論證環節。這一點,對於希望用大資料分析做產品的小微企業、新創企業尤為重要。

2.資料的清洗整理準備

雖然資料清理包含不少常規處理,但是高質量的資料清理工作需要資料準備團隊時刻對專案目標了然於胸。

(四)建立模型

大資料分析專案需要建立的模型可以分為兩類。對於這兩類模型,團隊都需要在設立模型、論證模型的可靠性方面下功夫。

1.專業領域模型

大資料產品對應的專案可能有對應的專業領域模型,例如pest分析模型、5w2h分析模型、邏輯樹分析模型、4p營銷理論模型、使用者行為模型等。資料團隊需要明確為何選擇某個專業領域的模型。

2.資料分析模型

這類模型包含分析結構化資料的資料探勘演算法模型;處理非結構化資料的語義引擎;視覺化策略等。流行觀點中的大資料分析主要集中在對第二類模型的討論上。

建立模型時既需要強大運算能力,也需要專家的主觀判斷。

(五)評估結果

評估結果階段是要評估上述步驟得到的結果是否足夠嚴謹可靠,並確保資料分析結果能夠有利於決策。評估結果包括定量評估和定性評估兩部分。

1.定量評估

定量評估是關注主觀標準的可靠性。資料探勘分析方法在計算上雖然依靠技術,但不少關鍵節點依靠主觀標準。

2.定性評估

定性評估的重點是考察大資料分析的結果是否合理、方案是否可行。

在評估大資料分析的結果時,由於定性評估往往需要一段時間之後才能完成,因此將大資料分析結果用於現實時,需要採取審慎步驟。

以上五大步驟構成乙個完整的資料分析過程,從開始思考目標到最後視覺化呈現,從發現問題到提出解決方案,身為資料運營者,我們既需要有整體思維,能夠從全流程去把握資料分析方法,也需要對細節極致追求,優化每乙個步驟。當我們能夠從整體和細節都游刃有餘得進行資料分析的時候,你就是乙個合格甚至優秀的資料運營者。

資料中臺建設五步法

以下為 資料中臺架構 企業資料化最佳實踐 讀書筆記 一 資料資源的盤點與規劃 資料化的基礎是資訊化或者是資訊化所產生的資料。資料資源的盤點與規劃需要達到以下目的 1 對現有資料資源盤點和統計。2 對企業可以擁有或者應該擁有的資料資源進行規劃。3 構建盤點體系並使用必要工具,保證盤點的成果能夠始終與真...

大資料分析流程

愛資料學院 welcome 一 為什麼要做乙份資料報告 你是乙個工作了一段時間的白領,你覺得現在這份工作不適合你,你下班以後去逛知乎,在上面看到很多人在說大資料代表未來,資料分析師是21世紀最 的十大職業之一 你激動了,你也要成為資料分析師,你利用空餘時間補上了統計知識,學了分析工具,然後發現自己目...

大資料分析的處理流程

大資料的處理流程可以定義為 利用適當的工具,提取和整合不同結構的資料來源,並按照一定的標準進行儲存,然後採用適當的資料分析技術進行分析,最後提取有用的知識,並將結果顯示給使用者以適當的方式在終端的前面。1.資料汲取與整合 由於大資料處理的資料 型別廣泛,而其第 一步是對資料進行抽取和整合,從中找出關...