序列資料探勘

2021-05-22 20:54:24 字數 2145 閱讀 3697

[**於http://www.chinabi.net/blog/user1/105/1636.html]

一、時間序列資料探勘

時間序列是資料存在的特殊形式,序列的過去值會影響到將來值,這種影響的大小以及影響的方式可由時間序列中的趨勢週期及非平穩等行為來刻畫。一般來講,時 間序列資料都具有躁聲、不穩定、隨機性等特點,對於這類資料的**方法目前主要有自動回歸滑動平均(arma)和神經網路等,但這些方法有一些缺點是很難 克服的,arma包含的是線性行為,對於非線性的因素沒有包含;而神經網路的結構需要事先指定或應用啟發式演算法在訓練過程中修正;同時神經網路得到的解是 區域性最優而非全域性最優。比較而言支援向量機( svm)能較好地解決了上述的一些問題,並在實際應用中取得了很好的效能。

二、序列模式挖掘概念及定義

舉例說明,比如有顧客租借錄影帶,典型的順序是先租「星球大戰」,然後是「帝國反戰」,再是「傑達武士歸來」(這三部影片是以故事發生的時間先後而情節連 續的)。值得注意的是租借這三部電影的行為並不一定需要是連續的。在任意兩部之間隨便插租了什麼電影,仍然還是滿足了這個序列模式,並且擴充套件一下,序列模 式的元素也可以不只是乙個元素(如一部電影),它也可以是乙個項集(item set)。所謂項集,指的是多個物品組成的集合,內部元素不分排列順序,比如「枕頭和枕頭套」就可以看作是由兩個項(item)組成的項集,它也可以作為 某乙個序列模式的元素。

比如資料來源是乙個給定的由客戶交易(customer transaction)組成的大型資料庫,每個交易(transaction)由客戶號(customer-id),交易時間 (transaction-time)以及在交易中購買的項(item)組成。

(1)項集(itemset)是由項(item)組成的乙個非空集 合。

(2)序列(sequence)是一列排好序的項集

不失一般性我們假定項集中的項由一些連續整數代替,這樣乙個項集i可以表示為(i1,i2…im),而這裡的ij代表了乙個項。乙個序列s可以表示 為,這裡的sj代表的是乙個項集。

兩個序列a 和b ,如果存在整數i1包含於序列< (7) (3,8) (9) (4,5,6) (8) >,因為(3)包含於(3,8),(4,5)包含於(4,5,6)以及(8)包含於(8)。但是序列< (3) (5) >不包含於< (3,5) >,反之亦然。前者表示項3和項5是先後購買的,而後者則表示項3和項5是同時購買的,這就是區別所在。在乙個序列集(a set of sequences)中如果序列s不包含於任何其他序列中,則稱序列s為最大的(maximal)。

乙個客戶所有的事務(transactions)可以綜合的看成是乙個序列,每乙個事務都由相應的乙個項集來表示。事務按交易時間序排列就成了乙個序列。 我們稱這樣的序列為客戶序列(customer-sequence)。通常,將乙個客戶的交易按交易時間排序成t1 ,t2 ,……,tn。ti中的項集定義成itemset(ti)。這樣,這個客戶的客戶序列就成了這樣的乙個序列:〈itemset(t1) itemset(t2) … itemset(tn)〉。見圖_2。

如果乙個序列s包含於乙個客戶序列中,則我們稱該客戶支援(support)序列s。乙個具體序列的支援(support)定義為那一部分支援該序列的客 戶總數。

給定乙個由客戶交易組成的資料庫d,挖掘序列模式的問題就是在那些具有客戶指定最小支援度(minimum support)的序列中找出最大序列(maximal sequence)。而每個這樣的最大序列就代表了乙個序列模式(sequential pattern)。

時間序列挖掘其本質是根據資料隨時間變化的趨勢**將來的值。重點要考慮的是時間的特殊性質,像一些週期性的時間定義如星期、月、季節、年等,不同 的日子如節假日可能造成的影響,日期本身的計算方法,還有一些需要特殊考慮的地方如時間前後的相關性(過去的事情對將來有多大的影響力)等。只有充分考慮 時間因素,利用現有資料隨時間變化的一系列的值,才能更好地**將來的值。

三、時間序列挖掘在金融領域的應用

用於金融時間序列的**方法很多,由於神經網路作為一種通用函式逼近器可以以任意精度近似任意非線性函式和動態系統,是高度非線性物件建模的有力工具,因 此目前在該領域研究中仍以神經網路方法為主。但ann仍有一些不易解決的難題,如難以確定神經網路的隱層節點數,存在過學習現象,訓練過程中存在區域性極小 問題等。為了解決這些問題,vapnik等人根據統計學習理論

提出了支援向量機學習方法,它的最大特點是改變了傳統的神經網路中經驗風險最小化原 則,而是針對結構風險最小化原則提出的,因此具有很好的泛化能力。目前已經廣泛用於解決分類和回歸問題

資料探勘 序列資料

三種 序列是事件的有序列表。根據事件的特徵,序列資料可以分為三類 符號串行資料 由元素或事件的有序集組成,記錄或未記錄具體時間。生物學序列 2 典型的維規約技術 頻域表示法 頻域表示的基本思想是將時間序列從時域通過傅利葉變換或小波變換對映到頻域,用很少的低頻係數來代表原來的時間序列資料,這種方法雖然...

時間序列資料

出生 gdp溫度 時間要素 年 季度 月 周 日 數值要素 長期變動趨勢 相當長的一段時間,受長期趨勢影響 持續上公升 下降 不規則變動 隨機擾動項 含白噪音 迴圈變動 市場經濟的商業週期 或者整個國家的經濟週期 1 資料具有週期性才能使用時間序列分解,例如資料是月份資料,季度資料,如果是年份資料則...

python序列資料 Python資料序列之字典

目標 字典的應用場景 建立字典的語法 字典常見操作 字典的迴圈遍歷 一.字典的應用場景 思考1 如果有多個資料,例如 tom 男 20,如何快速儲存?答 列表 list1 tom 男 20 思考2 如何查詢到資料 tom 答 查詢到下標為0的資料即可。list1 0 思考3 如果將來資料順序發生變化...