資料的預處理是深度學習的關鍵

2021-09-10 12:33:42 字數 637 閱讀 4180

傳統量化投資的主要工具方法是統計分析。

當進入數學公式的堆砌、推導章節時,放棄了繼續。

最終的選擇是 deep learning。

深度學習、神經網路的最大優點是:處理資料的演算法由模型自動進行,你無需製造計算方法。

但是,你提供的資料必須適合模型的要求。

從github上找了些現成「系統」觀摩學習。直覺的第一感,它們對資料的預處理都不行。

我懷疑,deep learning 在量化投資上不太成功的原因之一,是資料預處理的問題。

用現成的深層網路模型,驗證了以上看法。

作業是:根據20個交易日的**變化,**其後接連3個交易日的**。

使用a股10年來全部**的日線資料。

資料不做預處理,10個回合(epoch)的訓練,神經網路的**準確度約50%;

經過資料預處理,同樣10個回合,神經網路的**準確度公升至65%;

訓練次數加大一倍,20 回合的**準確度為 68 %;

訓練次數增大到 50 回合,**準確度為 72.8 %;

100回合的訓練,折騰2個半小時,結果是**準確度 74.3547 %,比50回合提高了約 1.5 %。

看來、極限、瓶頸這種東西是真實的存在。

我用的模型和資料預處理,只能做到近 75% 的準確。

深度學習中的白化預處理

資料的白化是在資料歸一化之後進行的。在對資料進行白化前要求先對資料進行特徵零均值化,不過一般只要做了特徵標準化,那麼這個條件就滿足了。在資料白化過程中,最主要的還是引數epsilon的選擇,因為這個引數的選擇對deep learning的結果起著至關重要的作用。在基於重構的模型中 比如說常見的rbm...

資料的預處理

機器學習演算法無法理解原始資料,所以需對原始資料進行預處理,常用預處理如下 預處理主要使用了preprocessing包,所以需對該包進行匯入 import numpy as np from sklearn import preprocessing data np.array 3,1.5,2,5.4...

C 中的深度學習(二) 預處理識別硬幣的資料集

在文章中,我們將對輸入到機器學習模型中的資料集進行預處理。這裡我們將對乙個硬幣資料集進行預處理,以便以後在監督學習模型中進行訓練。在機器學習中預處理資料集通常涉及以下任務 清理資料 通過對周圍資料的平均值或使用其他策略來填補資料缺失或損壞造成的漏洞。規範資料 將資料縮放值標準化到乙個標準範圍,通常是...