資料規範化

資料分析之前，我們通常需要先將資料標準化（normalization），利用標準化後的資料進行資料分析。資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題，對不同性質指標直接加總不能正確反映不同作用力的綜合結果，須先考慮改變逆指標資料性質，使所有指針對測評方案的作用力同趨化，再加總才能得出正確結果。資料無量綱化處理主要解決資料的可比性。資料標準化的方法有很多種，常用的有「最小—最大標準化」、「z-score標準化」和「按小數定標標準化」等。經過上述標準化處理，原始資料均轉換為無量綱化指標測評值，即各指標值都處於同乙個數量級別上，可以進行綜合測評分析。

min-max標準化方法是對原始資料進行線性變換。設mina和maxa分別為屬性a的最小值和最大值，將a的乙個原始值x通過min-max標準化對映成在區間[0,1]中的值x'，其公式為：

新資料=（原資料-極小值）/（極大值-極小值）

個人認為，min-max 標準化是一種歸一化方法，歸一化就是要把你需要處理的資料經過處理後（通過某種演算法）限制在你需要的一定範圍內

這種方法基於原始資料的均值（mean）和標準差（standard deviation）進行資料的標準化。將a的原始值x使用z-score標準化到x'。 z-score標準化方法適用於屬性a的最大值和最小值未知的情況，或有超出取值範圍的離群資料的情況。新資料=（原資料-均值）/標準差

標準化後的變數值圍繞0上下波動，大於0說明高於平均水平，小於0說明低於平均水平。

這種方法通過移動資料的小數點位置來進行標準化。小數點移動多少位取決於屬性a的取值中的最大絕對值。將屬性a的原始值x使用decimal scaling標準化到x'的計算方法是： x'=x/(10*j) 其中，j是滿足條件的最小整數。

例如假定a的值由-986到917，a的最大絕對值為986，為使用小數定標標準化，我們用1000（即，j=3）除以每個值，這樣，-986被規範化為-0.986。

除了上面提到的資料標準化外還有對數logistic模式、模糊量化模式等等：

對數logistic模式：新資料=1/（1+e^(-原資料)）

模糊量化模式：新資料=1/2+1/2sin[派3.1415/（極大值-極小值）*（x-（極大值-極小值）/2） ]

x為原資料

無量綱量常寫作兩個有量綱量之積或比，但其最終的綱量互相消除後會得出無量綱量。比如，應變是量度形變的量，定義為長度差與原先長度之比。但由於兩者的量綱均為l（長度），因此相除後得出的量是沒有量綱的。

資料規範化

資料規範化

資料規範化

資料庫規範化

相關推薦