時序資料有四種主要的組成方式
1.trend 趨勢: 可以是線性的也可以是非線性的,但可以研究其引數
2. seasonality 季度變化:可以是加法型的,也可以是乘法型的
3. noise 噪音:噪音一般都是資料中的一段,所以找到方法來減小噪音是分析過程的關鍵
4. 其他:例如意外值,缺失值等等
有這四種成分,我們可以得到分析時間序列的方法
描述:用這四種成分來描述一段資料
**:**未來的資料
控制:為了得到某個制定的資料,監控乙個資料過程
對於實際資料採集的要求
1. 資料點需要等時間間隔的採集: 如果採集的點有缺失,或者不是等時間間隔的,則需要改正資料,重新採集
2. 資料點要超過50:可能一些經濟學上的資料大致在12 個這樣,但乙個系列的數不能只有3,4個
3.這一系列的資料平穩,沒有趨勢,季度變化和噪音:有些實際的資料可能要去除趨勢和季度變化
平滑smooth
平滑用於去雜訊
去噪的方法有很多,在實驗資料採集裡可以選擇很多的點,來減少雜訊,但在很多經濟現象中資料量是一定的,所以需要平滑資料
1. 視窗取平均: xi點的平滑後的si si=( xi-k+...+xi+k)/2k+1
2. si=(wi-k *xi-k+....wi+k*xi+k) 其中的wi-k+...wi+k=1
3. weight 可以用高斯方程來代替
f(x,a)=exp(-(x/a)^2)/(2*pi*a^2)^1/2 ,其中的a是指方差係數
python:
filt=gaussian(31,4)//filt
filt/=sum(filt)
padded=concatenate((data[0]*ones(31//2),data,data[n-1]*ones(31//2)))
smooth =convolve(padded, filt, mode='solid')
指數平滑法
單指數平滑:對於沒有趨勢和季度變化的資料集 si=axi+(1-a)si-1 , xi+h=si
雙指數平滑:對於有趨勢但沒有季度變化的資料集 si=axi+(1-a)(si-1 +ti-1)
ti=b(si-si-1)+(1-b)ti-1 xi+h=si+hti
holt-winter三指數平滑:對於既有趨勢也有季度變化的資料集
資料分析 時序資料庫
海量資料分析類系統的設計主要面臨2個大問題 優勢和劣勢 加入了hadoop體系的生態圈,更加容易被接受,同時省去了研發分布式儲存系統的麻煩,更多的是在分布式查詢上做優化。但無法在儲存上做更加深度的優化,比如沒有倒排索引支援,過濾查詢速度可能相對弱些,後面會重點分析下opentsdb的困局。優勢和劣勢...
Pandas資料分析學習打卡(四) 時序資料
主要內容 時序資料,我的理解就是直接以時間為索引的序列,同時對時間資訊有多種方法來實現對資料的靈活操作。時間序列的建立有多種方式,可以用to datetime方法和date range方法來實現。時間序列支援索引和切片操作 rng pd.date range 2020 2021 freq w ts ...
python處理時序資料總結
pandas處理時序資料容易出錯,經過多次摸索之後總結如下 先讀取資料 data pd.read csv fs,header none,sep index col false,encoding utf16 engine python skiprows 1,names time values 跳過一行...