嘗試理解強化學習

強化學習就是評價學習，這個和深度學習有啥區別？

我個人理解就是深度學習需要對乙個一組特徵設定標籤，然後反覆訓練模型，是這個模型盡量接近一坨特徵資料等於標籤。

而強化學習是對一坨特徵，模型剛開始不知道標籤是具體是啥，隨便輸出乙個值y就行，然後我們實現乙個獎勵函式，對這個輸出值打乙個分，分數越高，說明這個隨便輸出的值可以認為是臨時的標籤資料。相當於在訓練過程中動態設定標籤資料。

也就是說強化學習核心是需要乙個打分系統，不需要預先設定標籤。

深度學習模型剛開始可以認為是隨機生成乙個值的，然後這個值和標籤進行比較，這個值越小表示模型越好

強化學習模型剛開始可以認為是隨機生成乙個值的，然後對這個值進行打分，這個分值越大表示模型越好。

深度學習應用在買**上：

比如給前30天的漲幅作為特徵，今天的漲幅作為標籤。讓模型去訓練，訓練好後去**每日漲幅。

這裡**的準不准，其實和特徵有很大關係，光漲幅這維度的特徵去訓練，計算訓練完也很難達到好的**效果，因為**漲幅的影響因素太多了

強化學習應用在買**上：

首先得設計乙個**交易環境，這個環境的輸出是近30天的漲幅。輸入是**，賣出，觀望。假定本金1萬，打分系統就設計成收益率

然後給前30天的漲幅作為特徵，輸出值定義域y[-1, 0, 1], 0表示觀望，

我們人為的可以設計乙個輸出值y的含義：

y>0 表示**， y=0.2 表示**2000.

y=0. 表示觀望，不買也不賣

y<0 表示賣出， y=-0.5 表示賣出持有份額的一半。

在買**的問題上，強化學習和深度學習是一樣的，都不太準確，好處就是比較理性。還有乙個缺點訓練資料集太小，因為一支**10年才2500條左右的資料。

很簡單的例子，乙個疫情的出現，會讓醫療相關**保障，而人工智慧**不了疫情會出現。

但是這並不意味這個不能應用在買**這件事上，因為它會有乙個策略，什麼時候止盈，什麼時候**，什麼時候加倉。這個策略不是簡單的定投。

強化學習應用在遊戲上

強化學習在非常擅長應用在遊戲領域，因為遊戲本身就是環境，遊戲畫面就是輸出，基本上所有的遊戲基本都有乙個分數或者勝利的東西，即打分系統。

比如說玩消滅星星

消滅星星遊戲本身就是乙個環境，這個環境的輸入就是點選位置，輸出就是遊戲畫面。消滅的分數就是打分系統。

gym 裡有很多基於物理引擎的遊戲，非常適合來練手，學習。

強化學習概念理解

一基本理解強化學習與其他機器學習不同之處為沒有教師訊號，也沒有label，只有reward。反饋有延時，不是能立即返回。資料是序列化的，資料與資料之間是有關的，而不是i.i.d的 agent執行的動作會影響之後的資料。四強化學習的關鍵要素強化學習的關鍵要素有 environment，rew...

強化學習強化學習基礎

為了應對車載網路中通訊環境快速變化的難題，可以使用強化學習進行解決，這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節，有需要請查閱原文 20200413補充了一些內容，來自這篇部落格，是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處，本文是乙個骨架性的文章，所有專有名詞都保持英文原始單詞，具體內容會在後續中給出詳細解答。keywords reinforcement learning，situation，action，e...

嘗試理解強化學習

強化學習概念理解

強化學習 強化學習基礎

強化學習 1 1 0 強化學習介紹

相關推薦

強化學習強化學習基礎