4 資料統計分析基礎知識

2021-08-20 14:59:35 字數 1091 閱讀 3673

對資料分析目的的把握是資料分析專案成敗的關鍵。

如何準確有效的收集資料,從而客觀全面地反映要研究的問題的真實情況。

資料審查

檢查資料的數量(記錄數)是否滿足分析的最低要求,字段值的內容是否與研究目的要求一致,是否全面,包括利用描述性統計分析,檢查各個欄位的字段型別,欄位的最大值、最小值、平均數、中位數等,記錄個數、缺失值或空值個數等。

資料清理

對資料審查中發現的錯誤值、缺失值、異常值、可疑資料,選用適當的方法進行清理。

資料轉換

不同字段由於計量單位不同,往往造成資料不可比。需要在分析前對資料進行變換,包括無量綱化處理、線性變換、彙總和聚集、適度概化、規範化、歸一化等。

資料驗證

初步評估和判斷資料是否滿足統計分析的需求,從而決定是否需要增加或減少資料量。利用簡單的線性模型及散點圖、直方圖、折線圖等圖形進行探索性分析,利用相關性分析、一致性檢驗等方法對資料的準確性進行驗證,確保不把錯誤和偏差的資料帶入到資料分析中。

上面4個步驟是乙個逐步深入、由表及裡的過程。先是從表面上查詢容易發現的問題(如資料記錄個數、最大值、最小值、缺失值和空值個數等),接著對發現的問題進行處理,即資料清理;再就是提高資料的可比性,對資料進行一些變換,使資料形式上滿足分析的需要;最後則是進一步檢測資料內容是否滿足分析需要,診斷資料的真實性及資料之間的協調性等。

資料分析是指通過分析手段、方法和技巧對準備好的資料進行探索、分析,從中發現因果關係、內部聯絡和業務規律,為商業目的提供決策參考。

一般情況下,資料分析的結果都是通過圖、表的方式來展現。

常用的圖表包括:餅狀圖、折線圖、柱狀圖/直方圖、散點圖、雷達圖、金字塔圖、矩陣圖、漏斗圖、帕累託圖等。

最後階段,就是撰寫資料分析報告,對整個資料分析成果進行呈現。

通過報告,把資料分析的目的、過程、結果及方案完成的呈現出來。

資料分析報告要有明確的結論、建議和解決方案,而不僅僅是找出問題,更重要的是解決問題。

從零高階!資料分析的統計基礎(第2版)

資料統計分析方法

資料統計分析方法 描述統計 假設檢驗 相關分析 方差分析 回歸分析 聚類分析 主成分與因子分析 時間序列分析 決策樹。回歸分析 研究自變數與因變數之間的關係 可以用來 因變數的值 線性回歸使用最佳的擬合直線 也就是回歸線 在因變數 y 和乙個或多個自變數 x 之間建立一種關係。多元線性回歸可表示為y...

千萬級資料統計分析

當我們的資料庫中某乙個表的資料量達到了千萬級,同時我們還要依據此表進行資料統計以及分析,這時候麻煩就來了。程式不等待的時間過長,容易造成程式假死的症狀,這樣會給使用者帶來很不好的印象。如何解決這樣的問題呢?我這裡是我的經驗之談,有可能有不正確的地方,請大家指正。1,把統計的時間分散。首先,建立統計表...

資料統計分析常用指標

在進行資料分析時,經常會遇到一些分析指標或術語。這些術語是幫助我們開啟思路,通過多個角度對資料進行深度解讀,可以說是前人已經總結和使用的資料分析方法。下面是資料統計分析常用的指標或術語 1.平均數 一般指算術平均數。算術平均數是指,全部資料累加除以資料個數。它是非常重要的基礎性指標。幾何平均數 適用...