資料探勘演算法 (一)MSET 演算法

2021-10-03 07:27:26 字數 3194 閱讀 1879

mset(multivariate state estimation technique)是由singer等提出的一種非線性的多元**診斷技術,是一種通過分析對比實際監測引數與裝置正常執行時的健康資料為基礎,對正常執行時的各個引數進行運算並做出估計,以這種正常的狀態估計作為標準。當得到實際的執行資料時,同樣以健康資料為基礎,並找到實際資料與健康資料的關聯程度,以此對實際執行狀態做出估計,這種"程度"是通過權值向量來決定的,用於衡量實際狀態與正常狀態的相似性。最終對健康狀態與實際執行狀態的估計結果進行對比分折,並引入殘差的概念,最終進行診斷。目前在核電站感測器校驗、裝置監測、電子產品壽命**等方面有成功的應用。

假設某一裝置的「相關變數集」中共有n個相互關聯的變數,將在某一時刻i觀測到的這n個變數記為觀測向量,即

x(i)=[x1 x2 ⋯xn ]^t (1)

過程記憶矩陣d的構造是mset建模的第乙個步驟。在該過程或裝置正常工作的時段內,在不同執行工況下採集m個歷史觀測向量,組成過程記憶矩陣為

過程記憶矩陣中的每一列觀測向量代表裝置的乙個正常工作狀態。經過合理選擇的過程記憶矩陣中的m個歷史觀測向量所張成的子空間(用d代表)能夠代表過程或裝置正常執行的整個動態過程。因此,過程記憶矩陣的構造實質就是對過程或裝置正常執行特性的學習和記憶過程。mset模型的輸入為某一時刻過程或裝置的新觀測向量xobs,模型的輸出為對該輸入向量的**值xest。對任何乙個輸入觀測向量xobs,mset生成乙個m維的權值向量為

w=[w1 w2 ⋯ wm ]^t (3)

使得:

xest=d∙w=w1∙x(1)+w2∙x(2)+ ⋯+wm∙x(m) (4)

即mset模型的**輸出為過程記憶矩陣中m個歷史觀測向量的線性組合。權值向量w採用以下方法確定。構造mset模型輸入觀測向量和輸出**向量之間的殘差為

ε=xobs - xest (5)

選擇w使殘差的平方和達到最小。殘差的平方和為

將s(w)分別對w1, w2, ⋯,wm 求偏導數並令其等於0,得

如僅對相關變數集或觀測向量中的某一變數如式(1)中的變數xn 進行**,則只需取過程記憶矩陣的第n行與m維的權值向量相乘,即

x_est=[x_n (1) x_n (2) ⋯ x_n (m)]∙w

=[x_n (1) x_n (2) ⋯ x_n (m)]∙(dt∙d)(-1)∙(d^t∙x_obs) (12)

從式(12)可看出,對觀測向量中任一變數的**是過程記憶矩陣中該變數的m個歷史觀測值的線性組合。在組合權值w的計算式(10)中,dt∙d反映了過程記憶矩陣中的歷史觀測向量兩兩之間的點乘關係,而dt∙x_obs反映了新的輸入觀測向量與過程記憶矩陣中歷史觀測向量兩兩之間的點乘關係。點乘是數量積,是兩向量之間關係的一種反映。為使非線性狀態估計方法具有更直觀的物理意義,並且避免變數之間相關性造成的點乘之後不可逆的情況出現,本文用歐氏距離來反映兩兩向量之間的關係,即兩兩向量之間的相似性。在權值w的計算式(10)中,dt∙d和dt∙x_obs中的點乘運算改為歐氏距離運算,式(10)變為:

式(15)的物理意義如下。新的觀測向量x_obs與過程記憶矩陣中的m個歷史觀測向量兩兩之間通過計算歐氏距離來反映它們之間的相似性。假設x_obs與過程記憶矩陣中的歷史觀測向量x(i)最相似,則兩者之間的歐氏距離最小,在式(4)或(15)中,x(i)對應的權值wi最大,對**結果的貢獻也最大。

當模型新的輸入觀測向量是在過程或裝置正常工作狀態獲得的,由於過程記憶矩陣覆蓋了過程和裝置的正常工作空間,該新觀測向量總會和過程記憶矩中某些歷史觀測向量相似,這些相似歷史觀測向量的組合可以對輸入給出精度很高的**值。模型**的精度可以用某變數的**值和該變數的實際測量值之間的殘差來衡量。

ε=x_est - x_n (16)

式中:x_n為mset模型新輸入觀測向量的第n個變數的實際測量值;x_est為mset模型輸出的x_n**值。

當過程或裝置工作狀態發生變化出現故障隱患時,由於動態特性的改變,輸入觀測向量將偏離正常工作空間,其與d矩陣中歷史觀測向量均不相似,通過d矩陣中歷史觀測向量的組合無法構造其對應的精確**值,將會導致**精度下降,殘差增大。

1)用來生成歷史觀測向量集合k 的歷史資料應該滿足以下要求:

(1)涵蓋了一段足夠長的執行時間;

(2)每組資料都表達了裝置物件的乙個正常狀態;

(3)滿足每一組取樣值中各個變數的同時性,必須是同一時刻的取樣值;

(4)涵蓋了機組在不同季節、不同負荷下的運**況。

其中,m表示不同執行工況下m個歷史觀測向量,n表示裝置有n個變數。

2)資料歸一化處理

在選用資料庫中實時資料構造過程記憶矩陣和**輸出時,由於風電機中某一裝置模型相關測點的量綱不同,且不同測點資料絕對值相差很大,為保證使用非線性運算元正確衡量不同觀測向量之間的距離,需要對各個測點的n個變數分別根據各自的極值進行歸一化處理,使實際測量值對映到[0,1] 區間。

3)過程記憶矩陣d的構造

過程記憶矩陣的構造需要使其內部的m個觀測向量x(1), x(2),…,x(m)能夠盡量覆蓋裝置正常工作空間。裝置正常工作空間的每乙個觀測向量由n個變數組成,且其觀測值已被歸一化。對每乙個變數,將[0,1]之間等分為100份,以0.01為步距從集合k中查詢出若干個觀測向量加入矩陣d 中。以變數x_1為例,向過程矩陣d 中新增觀測向量的方法如圖所示。圖中δ為一小的正數。對剩餘的n-1個變數,均採用與圖示相同的流程以0.01為步距從集合k中選擇觀測向量新增到d中。採用此方法構造過程記憶矩陣,能夠將組成觀測向量的n個變數的不同測量值對應的歷史記錄選入矩陣d中,從而使其能較好地覆蓋裝置正常工作空間。對於某些重要的變數,選取歷史觀測向量的步距可以取得更小如0.005(等分為200份)。構造過程記憶矩陣完成後,即可利用式(8)對mset溫度模型新的輸入觀測向量進行**。

資料探勘演算法

apriori演算法學習資料的關聯規則 association rules 適用於包含大量事務 transcation 的資料庫。關聯規則學習是學習資料庫中不同變數中的相互關係的一種資料探勘技術。你可能會對 apriori 演算法如何工作有疑問,在進入演算法本質和細節之前,得先明確3件事情 第一是你...

資料探勘演算法

include include define d 9 d數事務的個數 define minsupcount 2 最小事務支援度數 void main char b 20 d 100 t,b2 100 10 b21 100 10 int i,j,k,x 0,flag 1,c 20 x1 0,i1 0,...

資料探勘演算法

目錄 1.簡述資料探勘概念。2.根據 方法的性質將 方法分為哪些類?各有何優缺點?3.時序 方面典型的演算法有哪些?各有什麼特點?4.根據研究的方式分類,可將時間序列 與挖掘分為哪些類?5.什麼是序貫模式挖掘spmgc演算法?6.資料探勘的常用演算法有哪幾類?有哪些主要演算法?7.資料探勘方法中分類...