資料預處理過程

概括起來,統計資料預處理的過程包括資料審查、資料清理、資料轉換和資料驗證四大步驟。

(一)資料審查

該步驟檢查資料的數量(記錄數)是否滿足分析的最低要求,字段值的內容是否與調查要求一致,是否全面;還包括利用描述性統計分析,檢查各個欄位的字段型別、字段值的最大值、最小值、平均數、中位數等,記錄個數、缺失值或空值個數等。

(二)資料清理

該步驟針對資料審查過程中發現的明顯錯誤值、缺失值、異常值、可疑資料,選用適當的方法進行「清理」,使「髒」資料變為「乾淨」資料,有利於後續的統計分析得出可靠的結論。當然,資料清理還包括對重覆記錄進行刪除。

(三)資料轉換

資料分析強調分析物件的可比性,但不同字段值由於計量單位等不同,往往造成資料不可比;對一些統計指標進行綜合評價時,如果統計指標的性質、計量單位不同,也容易引起評價結果出現較大誤差,再加上分析過程中的其他一些要求,需要在分析前對資料進行變換,包括無量綱化處理、線性變換、彙總和聚集、適度概化、規範化以及屬性構造等。

(四)資料驗證

該步驟的目的是初步評估和判斷資料是否滿足統計分析的需要,決定是否需要增加或減少資料量。利用簡單的線性模型,以及散點圖、直方圖、折線圖等圖形進行探索性分析,利用相關分析、一致性檢驗等方法對資料的準確性進行驗證,確保不把錯誤和偏差的資料帶入到資料分析中去。

上述四個步驟是乙個逐步深入、由表及裡的過程。先是從表面上查詢容易發現的問題(如資料記錄個數、最大值、最小值、缺失值或空值個數等),接著對發現的問題進行處理,即資料清理,再就是提高資料的可比性,對資料進行一些變換,使資料形式上滿足分析的需要;最後則是進一步檢測資料內容是否滿足分析需要,診斷資料的真實性及資料之間的協調性等,確保優質的資料進入分析階段。

資料預處理過程

情感分析資料預處理過程

USB host處理過程

Hadoop map reduce處理過程

資料預處理過程

情感分析資料預處理過程

USB host處理過程

Hadoop map reduce處理過程

相關推薦