Python資料分析與挖掘實戰學習11

2021-10-12 10:41:43 字數 2247 閱讀 7158

一、資料變換

1.連續屬性離散化

一些資料探勘演算法,特別是將某些分類演算法(如id3演算法、apriori演算法等),要求資料是分類屬性形式。這樣,常常需要將連續屬性變換成分類屬性,即連續屬性離散化。

1)離散化的過程

連續屬性的離散化就是在資料的取值範圍內設定若干個離散的劃分點,將取值範圍劃分為一些離散化的區間,最後用不同的符號或整數值代表落在每個子區間中的資料值。所以,離散化涉及兩個子任務:確定分類數以及如何將連續屬性值對映到這些分類值。

2)常用的離散化方法

常用的離散化方法有等寬法、等頻法和(一維)聚類。

(1)等寬法

將屬性的值域分成具有相同寬度的區間,區間的個數由資料本身的特點決定,或者由使用者指定,類似於製作頻率分布表。

(2)等頻法

將相同數量的記錄放進每個區間。

這兩種方法簡單,易於操作,但都需要人為地規定劃分區間的個數。同時,等寬法的缺點在於它對離群點比較敏感,傾向於不均勻的把屬性值分不到各個區間。有些區間包含許多資料,而另外一些區間的資料極少,這樣會嚴重損壞建立的決策模型。等頻法雖然避免了上述問題的產生,卻可能將相同的資料值分到不同的區間以滿足每個區間中固定的資料個數。

(3)基於聚類分析的方法

一維聚類的方法包括兩個步驟,首先將連續屬性的值用聚類演算法(如k-means演算法)進行聚類,然後再將聚類得到的族進行處理,合併到乙個族的連續屬性值並做同一標標記。聚類分析的離散化方法需要使用者指定族的個數,從而決定產生的區間數。

2.屬性構造

在資料探勘的過程中,為了提取更有用的資訊,挖掘更深層次的模式,提高挖掘結果的精度,我們需要利用已有的屬性集構造出新的屬性,並加入到現有的屬性集合中。

3.小波變換

小波變換具有多解析度的特點,在時域和頻域都具有表徵訊號區域性特徵的能力,通過伸縮和平移等運算過程對訊號進行多尺度聚焦分析,提供了一種非平穩訊號的時頻分析手段,可以由粗及細地逐步觀察訊號,從中提取有用資訊。

能夠刻畫某個問題的特徵量往往是隱含在乙個訊號中的某個或者某些分量中,小波變換可以把非平穩訊號分解為表達不同層次、不同頻帶資訊的資料序列,即小波係數。選取適當的小波係數,即完成了訊號的特徵提取。

(1)基於小波變換的特徵提取方法

基於小波變換的特徵提取方法主要有:基於小波變換的多尺度空間能量分布特徵提取、基於小波變換的多尺度空間的模極大值特徵提取、基於小波包變換的特徵提取、基於適應性小波神經網路的特徵提取。

基於小波變換的特徵提取方法

方法描述

基於小波變換的多尺度空間能量分布特徵提取方法

各尺度空間內的平滑訊號和細節訊號能提供袁術訊號的時頻局域資訊,特別是能提供不同頻段上訊號的構成資訊。把不同分解尺度上訊號的能力求解出來,就可以將這些能量尺度順序排列,形成特徵向量供識別用

基於小波變換的多尺度空間的模極大值特徵提取方法

利用小波變換的訊號局域化分析能力,求解小波變換的模極大值特性來檢測訊號的區域性奇異性,將小波變換模板極大值的尺度引數s、平移引數t及其幅值作為目標的特徵量

基於小波包變換的特徵提取方法

利用小波分解,可將時域隨機訊號序列對映為尺度域各子空間內的隨即係數序列,按小波包分解得到的最佳子空間內隨機係數序列的不確定性程度最低,將最佳子空間的熵值及最佳子空間在完整二叉樹中的位置引數作為特徵量,可以用於目標識別

基於適應性小波神經網路的特徵提取方法

基於適應性小波神經網路的特徵提取方法可以把訊號通過分析小波擬合表示,進行特徵提取

(2)小波基函式

小波基函式是一種具有區域性支集的函式,並且平均值為0,小波基函式滿足

(3)小波變換

對小波基函式進行伸縮和平移變換:

其中,a為伸縮因子,b為平移因子。

任意函式f(t)的連續小波變換(cwt)為:

可知,連續小波變換為

其逆變換為:

(4)基於小波變換的多尺度空間能量分布特徵提取方法

應用小波分析技術可以把訊號在各頻率波段中的特徵提取出來,基於小波變換的多尺度空間能量分布特徵提取方法是對訊號進行頻帶分析,再分別以計算得到的各個頻帶的能量作為特徵向量。

訊號其中a是近似訊號,為低頻部分;d是細節訊號,為高頻部分,此時訊號的頻帶分布如下圖所示:

訊號的總能量為:

選擇第j層的近似訊號和各層的細節訊號的能量作為特徵,構造特徵向量:

利用小波變換可以對聲波訊號進行特徵提取,提取處可以代表聲波訊號的向量資料,即完成從聲波訊號到特徵向量資料的變換。

Python資料分析與挖掘實戰 挖掘建模

常用的分類與 演算法 1回歸模型分類 1線性回歸 自變數因變數線性關係,最小二乘法求解 2非線性回歸 自變數因變數非線性關係,函式變換為線性關係,或非線性最小二乘方法求解 3logistic回歸 因變數一般有1和0兩種取值,將因變數的取值範圍控制再0 1範圍內 4嶺回歸 自變數之間具有多重共線性 5...

python資料分析與挖掘實戰 資料探勘基礎

從大量資料 包括文字 中挖掘出隱含的 未知的 對決策有潛在價值的關係 模式和趨勢,並用這些知識和規則建立用於決策支援的模型,提高 性決策支援的方法 工具和過程,就是資料探勘 它是利用各種分析工具在大量資料中尋找其規律和發現模型與資料之間關係的過程,是統計學 資料庫技術和人工智慧技術的綜合。1.定義挖...

Python資料分析與挖掘實戰學習07

一 python基礎 1.python簡介 python是一種物件導向的解釋型語言,由荷蘭人guido van rossum與1989年發明,第乙個公開發行版本於1991年發布。python語法簡潔清晰,強制用空白符作為語句縮排。python語言最大的特點是簡單和強大。2.python庫 1 bas...