嘗試理解強化學習

2022-10-11 03:39:07 字數 1199 閱讀 6623

強化學習就是評價學習,這個和深度學習有啥區別?

我個人理解就是深度學習需要對乙個一組特徵設定標籤, 然後反覆訓練模型,是這個模型盡量接近  一坨特徵資料等於標籤。

而強化學習是對一坨特徵,模型剛開始不知道標籤是具體是啥,隨便輸出乙個值y就行,然後我們實現乙個獎勵函式,對這個輸出值打乙個分, 分數越高,說明這個隨便輸出的值可以認為是臨時的標籤資料。 相當於在訓練過程中動態設定標籤資料。

也就是說強化學習核心是需要乙個打分系統,不需要預先設定標籤。 

深度學習模型剛開始可以認為是隨機生成乙個值的,然後這個值和標籤進行比較,這個值越小表示模型越好

強化學習模型剛開始可以認為是隨機生成乙個值的,然後對這個值進行打分, 這個分值越大表示模型越好。 

深度學習應用在買**上:

比如給前30天的漲幅作為特徵,今天的漲幅作為標籤。 讓模型去訓練,訓練好後去**每日漲幅。

這裡**的準不准,其實和特徵有很大關係,光漲幅這維度的特徵去訓練,計算訓練完也很難達到好的**效果, 因為**漲幅的影響因素太多了

強化學習應用在買**上:

首先得設計乙個**交易環境, 這個環境的輸出是近30天的漲幅。輸入是**,賣出,觀望。假定本金1萬, 打分系統就設計成收益率

然後給前30天的漲幅作為特徵, 輸出值定義域y[-1, 0, 1],    0表示觀望, 

我們人為的可以設計乙個輸出值y的含義:

y>0 表示**, y=0.2    表示**2000.     

y=0. 表示觀望,不買也不賣

y<0 表示賣出, y=-0.5  表示賣出持有份額的一半。

在買**的問題上,強化學習和深度學習是一樣的,都不太準確,好處就是比較理性。還有乙個缺點訓練資料集太小,因為一支**10年才2500條左右的資料。

很簡單的例子,乙個疫情的出現,會讓醫療相關**保障,而人工智慧**不了疫情會出現。 

但是這並不意味這個不能應用在買**這件事上, 因為它會有乙個策略, 什麼時候止盈, 什麼時候**,什麼時候加倉。這個策略不是簡單的定投。

強化學習應用在遊戲上

強化學習在非常擅長應用在遊戲領域,因為遊戲本身就是環境, 遊戲畫面就是輸出, 基本上所有的遊戲基本都有乙個分數或者勝利的東西,即打分系統。

比如說玩消滅星星

消滅星星遊戲本身就是乙個環境,這個環境的輸入就是點選位置, 輸出就是遊戲畫面。 消滅的分數就是打分系統。

gym 裡有很多基於物理引擎的遊戲, 非常適合來練手,學習。

強化學習概念理解

一 基本理解 強化學習與其他機器學習不同之處為 沒有教師訊號,也沒有label,只有reward。反饋有延時,不是能立即返回。資料是序列化的,資料與資料之間是有關的,而不是i.i.d的 agent執行的動作會影響之後的資料。四 強化學習的關鍵要素 強化學習的關鍵要素有 environment,rew...

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...