python 時序資料分析

時序資料有四種主要的組成方式

1.trend 趨勢：可以是線性的也可以是非線性的，但可以研究其引數

2. seasonality 季度變化：可以是加法型的，也可以是乘法型的

3. noise 噪音：噪音一般都是資料中的一段，所以找到方法來減小噪音是分析過程的關鍵

4. 其他：例如意外值，缺失值等等

有這四種成分，我們可以得到分析時間序列的方法

描述：用這四種成分來描述一段資料

**：**未來的資料

控制：為了得到某個制定的資料，監控乙個資料過程

對於實際資料採集的要求

1. 資料點需要等時間間隔的採集：如果採集的點有缺失，或者不是等時間間隔的，則需要改正資料，重新採集

2. 資料點要超過50：可能一些經濟學上的資料大致在12 個這樣，但乙個系列的數不能只有3,4個

3.這一系列的資料平穩，沒有趨勢，季度變化和噪音：有些實際的資料可能要去除趨勢和季度變化

平滑smooth

平滑用於去雜訊

去噪的方法有很多，在實驗資料採集裡可以選擇很多的點，來減少雜訊，但在很多經濟現象中資料量是一定的，所以需要平滑資料

1. 視窗取平均： xi點的平滑後的si si=( xi-k+...+xi+k)/2k+1

2. si=(wi-k *xi-k+....wi+k*xi+k) 其中的wi-k+...wi+k=1

3. weight 可以用高斯方程來代替

f(x,a)=exp(-(x/a)^2)/(2*pi*a^2）^1/2 ,其中的a是指方差係數

python:

filt=gaussian(31,4)//filt

filt/=sum(filt)

padded=concatenate((data[0]*ones(31//2),data,data[n-1]*ones（31//2))）

smooth =convolve(padded, filt, mode='solid')

指數平滑法

單指數平滑：對於沒有趨勢和季度變化的資料集 si=axi+(1-a)si-1 , xi+h=si

雙指數平滑：對於有趨勢但沒有季度變化的資料集 si=axi+(1-a)(si-1 +ti-1)

ti=b(si-si-1)+(1-b)ti-1 xi+h=si+hti

holt-winter三指數平滑：對於既有趨勢也有季度變化的資料集

資料分析時序資料庫

海量資料分析類系統的設計主要面臨2個大問題優勢和劣勢加入了hadoop體系的生態圈，更加容易被接受，同時省去了研發分布式儲存系統的麻煩，更多的是在分布式查詢上做優化。但無法在儲存上做更加深度的優化，比如沒有倒排索引支援，過濾查詢速度可能相對弱些，後面會重點分析下opentsdb的困局。優勢和劣勢...

Pandas資料分析學習打卡（四）時序資料

主要內容時序資料，我的理解就是直接以時間為索引的序列，同時對時間資訊有多種方法來實現對資料的靈活操作。時間序列的建立有多種方式，可以用to datetime方法和date range方法來實現。時間序列支援索引和切片操作 rng pd.date range 2020 2021 freq w ts ...

python處理時序資料總結

pandas處理時序資料容易出錯，經過多次摸索之後總結如下先讀取資料 data pd.read csv fs,header none,sep index col false,encoding utf16 engine python skiprows 1,names time values 跳過一行...

python 時序資料分析

資料分析 時序資料庫

Pandas資料分析學習打卡（四） 時序資料

python處理時序資料總結

相關推薦

資料分析時序資料庫

Pandas資料分析學習打卡（四）時序資料