python 時序資料分析

2021-08-01 05:15:37 字數 1198 閱讀 2523

時序資料有四種主要的組成方式

1.trend 趨勢: 可以是線性的也可以是非線性的,但可以研究其引數

2. seasonality 季度變化:可以是加法型的,也可以是乘法型的

3. noise 噪音:噪音一般都是資料中的一段,所以找到方法來減小噪音是分析過程的關鍵

4. 其他:例如意外值,缺失值等等

有這四種成分,我們可以得到分析時間序列的方法

描述:用這四種成分來描述一段資料

**:**未來的資料

控制:為了得到某個制定的資料,監控乙個資料過程

對於實際資料採集的要求

1. 資料點需要等時間間隔的採集: 如果採集的點有缺失,或者不是等時間間隔的,則需要改正資料,重新採集

2. 資料點要超過50:可能一些經濟學上的資料大致在12 個這樣,但乙個系列的數不能只有3,4個

3.這一系列的資料平穩,沒有趨勢,季度變化和噪音:有些實際的資料可能要去除趨勢和季度變化

平滑smooth

平滑用於去雜訊

去噪的方法有很多,在實驗資料採集裡可以選擇很多的點,來減少雜訊,但在很多經濟現象中資料量是一定的,所以需要平滑資料

1.    視窗取平均: xi點的平滑後的si  si=( xi-k+...+xi+k)/2k+1

2.    si=(wi-k *xi-k+....wi+k*xi+k)  其中的wi-k+...wi+k=1

3.    weight 可以用高斯方程來代替

f(x,a)=exp(-(x/a)^2)/(2*pi*a^2)^1/2 ,其中的a是指方差係數

python:

filt=gaussian(31,4)//filt

filt/=sum(filt)

padded=concatenate((data[0]*ones(31//2),data,data[n-1]*ones(31//2)))

smooth =convolve(padded, filt, mode='solid')

指數平滑法

單指數平滑:對於沒有趨勢和季度變化的資料集   si=axi+(1-a)si-1    ,   xi+h=si

雙指數平滑:對於有趨勢但沒有季度變化的資料集     si=axi+(1-a)(si-1 +ti-1)

ti=b(si-si-1)+(1-b)ti-1      xi+h=si+hti

holt-winter三指數平滑:對於既有趨勢也有季度變化的資料集

資料分析 時序資料庫

海量資料分析類系統的設計主要面臨2個大問題 優勢和劣勢 加入了hadoop體系的生態圈,更加容易被接受,同時省去了研發分布式儲存系統的麻煩,更多的是在分布式查詢上做優化。但無法在儲存上做更加深度的優化,比如沒有倒排索引支援,過濾查詢速度可能相對弱些,後面會重點分析下opentsdb的困局。優勢和劣勢...

Pandas資料分析學習打卡(四) 時序資料

主要內容 時序資料,我的理解就是直接以時間為索引的序列,同時對時間資訊有多種方法來實現對資料的靈活操作。時間序列的建立有多種方式,可以用to datetime方法和date range方法來實現。時間序列支援索引和切片操作 rng pd.date range 2020 2021 freq w ts ...

python處理時序資料總結

pandas處理時序資料容易出錯,經過多次摸索之後總結如下 先讀取資料 data pd.read csv fs,header none,sep index col false,encoding utf16 engine python skiprows 1,names time values 跳過一行...