資料預處理

2021-10-01 05:35:13 字數 2779 閱讀 5117

為了改善資料探勘分析工作,減少時間,降低成本和提高質量。很有必要,就像做菜不洗菜,這樣的人做出來的菜質量也不會好在**,沒人願意吃。

聚集(aggregation)

將兩個或多個物件合併成單個物件。 因為記錄可能是分散的數量龐大的,比如乙個菜市場一天的交易記錄,這個交易量可以是很龐大的,如果按照每個賣家為物件進行交易量的聚集會更有序。

抽樣當處理所有的資料的費用太高,太費時間。在某些情況下,使用抽樣的演算法可以壓縮資料量,以便可以使用更好但開銷較大的資料探勘演算法。

樣本需有代表性。
通過建立新屬性,將一些舊屬性合併在一起來降低資料集的維度。通過選擇舊屬性的子集來得到新屬性,這種維歸約稱為特徵子集選擇或者特徵選擇。

資料集可能包含有大量的特徵,維歸約關鍵的好處是:如果維度較低,許多資料探勘演算法的效果會更好,這一部分原因是維歸約可以刪除不相關的特徵並降低雜訊。一部分因為維災難,另乙個好處就是維歸約可以使模型更容易理解,因為模型值涉及較少的屬性,此外,維歸約也可以使資料視覺化。

維災難: 隨著資料維度的增加,許多資料分析變得非常困難,特別是隨著維度增加,資料在它所佔空間中越來越稀疏==?==。對於分類,這可能意味著沒有足夠的資料物件來建立模型,將所有可能的物件可靠地指派到乙個類。對於聚類,點之間的密度和距離的定義失去了意義。

維歸約的線性代數技術: 維歸約的一些最常用的方法是使用線性代數技術,將資料由高維空間投影到低維空間,特別是對連續資料,主成分分析(principal components analysis , pca)是一種用難於連續屬性的線性代數技術,它找出了新的屬性(主成分),這些屬性是原屬性的線性組合,是相互正交的(orthogonal),並且捕獲了資料的最大變差。奇異值分解(singular value decoposition , svd)是一種線性代數技術,它與pca 有關,並且可用於維歸約。

儘管看起來這種方法可能丟失資訊,但是在存在冗餘或不相關的特徵時,冗餘特徵重複包含了在乙個或多個其他屬性中的許多或所有資訊(兩個特徵重複的情況也是會發生的),不相關特徵比如學生的id號碼,對於資料探勘是幾乎完全沒有用的。冗餘和不相關的特徵可能降低分類的準確性,影響所發現的聚類的質量。

儘管有時候我們可以自己判斷並消除一些不相關的和冗餘的屬性,但是選擇最佳的特徵子集通常需要系統的方法,特徵選擇的理想方法是:將所有可能的特徵子集作為感興趣的資料探勘演算法的輸入,然後選取產生最好結果的子集(全試一遍,跳出最好的,但是這種方法通常行不通,因為資料太大了)所以需要其他策略。

特徵子集選擇體系結構

可以將過濾和包裝方法放到乙個共同的體系結構中。特徵選擇可以看做四部分構成:①子集評估度量 ②控制新的特徵子集產生的搜尋策略 ③停止搜尋判斷 ④驗證過程 。

過濾方法和包裝方法的唯一不同是它們使用了不同的特徵子集評估方法。,對於包裝方法,子集評估使用目標資料探勘演算法;對於過濾方法,子集評估技術不同於目標資料探勘演算法。

特徵加權:是一種保留或刪除特徵的辦法,特徵越重要,所賦予的權值就越大,而不太重要的特徵賦予較小的權值,有時,這些權值可以根據特徵的相對重要性的領域知識確定,也可以自動確定。

特徵提取

由原來資料建立新的特徵集稱作特徵提取(feature extraction)。考慮**的集合,由畫素集合到與高層次特徵,諸如與人臉高度相關的某些型別的邊和區域。最常見的特徵提取技術都是高度真毒具體領域的。因而一旦資料探勘用於乙個相對較新的領域,乙個關鍵人物就是開發新的特徵和特徵提取方法。

對映資料到新的空間

使用一種完全不同的視角挖掘資料可能揭示出重要和有趣的特徵。如對時間序列實施傅利葉變化,將它轉換為頻率資訊明顯的表示。

特徵構造

有時,原始資料集的特徵具有必要的資訊,但是其形式不適合資料探勘演算法,在這種情況下,乙個或多個由原特徵構造頂點的新特徵可能比原特徵更加有用。

二元化,如果有 m 個分類值,則將每個原始值唯一地賦予區間【0,m-1】中的乙個整數,如果資料是有序的,則必須保持有序關係,(注意,即使屬性原來就是用整數表示,但如果這些整數不在區間【0,m-1】中,則該過程也是必須的。然後將這些m 個整數的每乙個都變換成乙個二進位制數。由於需要 n = 【log2m 】個二進位制表示這些整數,如下圖,如有5 個值,則需要 【log25】 ,即 3個二元變數 x1,x2,x3。

連續屬性離散化

通常,離散化應用於在分類或關聯分析中使用到的屬性上。一般來說,離散化的效果取決於所使用的演算法,以及用到的其他屬性,然而,屬性離散化通常單獨考慮。

連續屬性變換成分類屬性涉及兩個子任務:

離散化問題就是決定選擇多少個分割點和確定分割點位置的問題。

用於分類的離散化方法之間的根本區別在於使用類資訊(監督,supervised )還是不使用類資訊(非監督,unsupervised)。
非監督離散化:

如果不使用類資訊,則常使用一些相對簡單的方法。例如,

監督離散化:

上面介紹的離散化方法通常比不離散化好,但是記住目的並使用附加的資訊(類標號)常常能夠產生更好的效果。因為未使用類標號知識構造的區間常常包含混合的類標號。一種概念上的簡單方法是以極大化區間純度的方式確定分割點

資料預處理

現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...

資料預處理

常見的資料預處理方法,以下通過sklearn的preprocessing模組來介紹 變換後各維特徵有0均值,單位方差。也叫z score規範化 零均值規範化 計算方式是將特徵值減去均值,除以標準差。sklearn.preprocessing scale x 一般會把train和test集放在一起做標...

資料預處理

用cut函式分箱 有時把數值聚集在一起更有意義。例如,如果我們要為交通狀況 路上的汽車數量 根據時間 分鐘資料 建模。具體的分鐘可能不重要,而時段如 上午 下午 傍晚 夜間 深夜 更有利於 如此建模更直觀,也能避免過度擬合。這裡我們定義乙個簡單的 可復用的函式,輕鬆為任意變數分箱。def binni...