OPENAI Baeslines 詳解(零)綜述

2021-09-26 09:19:07 字數 1616 閱讀 3786

學習強化學習,碼**的能力必須要出眾,要快速入門強化學習 搞清楚其中真正的原理,讀原始碼是乙個最簡單的最直接的方式。最近建立了一系列該型別文章,希望對大家有多幫助。

傳送門

thanks for reading, and enjoy yourself。

openai是強化學習的有力推進者,領導者。beseline演算法是openai 在github上開源的強化學習標準程式。beseline 顧名思義 ,構建新想法更先進的研究基礎;同時,也是衡量新的演算法的基準。

common 資料夾 簡述

openai是強化學習的有力推進者,領導者。在目前openai已經將強化學習運用到爐火純青的地步,其利用強化學習所做的dota2 ai不斷擊敗人類,而使其名聲大燥。

beseline演算法是openai 在github上開源的強化學習標準程式。其目的是使得這些演算法將使研究社群更容易複製,改進和識別新想法,並將建立良好的baseline來構建其他新的更先進的研究。同時,可以確認的是演算法中的dqn等演算法已經經過各種測試,是可行的程式。通常當新的演算法提出時,也被當做baseline,從而對比新的演算法效能。這也是baseline的**。

baseline 作為openai的官方公布程式,可信是乙個重要的因素。因為很多演算法的細節,可能從文章當中無法精確地得到,從而導致寫程式的時候會產生大量的疑問。當然其也可以用在別的領域從而解決更多新的問題。

所以對baseline 進行改進 是很有必要的。

官網已經給出了具體使用指南。

python -m baselines.run -

-alg=

--env=

[additional arguments]

詳細使用請跳轉openai baselines 詳解(一)。

主程式中有大量的 為了支援cmd直接執行所須的引數程式,主要是各種引數設定等等。

關鍵部分有兩個函式:main 和 train

main 函式主要是 包含主體的迴圈。

train 函式主要是 呼叫演算法和環境。

每乙個演算法都乙個learning的介面來對接主程式,這個也成為將來要呼叫演算法的時候的主要藉口。

main

其中main是最主要的部分,主程式 main 是跟openai的gym統一的步調。 具有迴圈 step、done、reset 幾個步驟。

train

train 函式主要是呼叫演算法到 model中,然後再呼叫演算法到learning 這個函式中

env 是呼叫環境的 主要還是與openai的gym相對接。

1、models 生成神經網路

用於神經網路 主要是有生成mlp (全連線網路)、cnn、impala-cnn( 、impala_cnn_lstm。

2、distributions 分布函式

主要是將變數對映成變成分布函式

分為兩個大類 pd 和 pdtype,具體請參考maddpg中的。

3、open message passing library mpi_***

平行計算程式設計的統一框架,其中呼叫了mpi4py,具體參看

4、***_util 類函式 輔助函式

主要有 plot_util 、math_util、misc_util、mlp_util、cmd_util、console_util .

零拷貝詳解(上)

拷貝也就是把磁碟或網路中的a檔案中拷到b檔案中。那麼是誰來執行從磁碟中讀取操作和寫入操作的呢,並且他們讀取完以後是直接就能拷到b檔案中,還是需要進行一些複雜的處理?在這裡將會對比下傳統的資料傳輸和零拷貝方式的傳輸,這兩者有什麼區別。在這之前先了解使用者態和核心態這2個概念 再然後讓我們了解下什麼是上...

零拷貝原理詳解

在nginx kafka等開源元件的原理和效能調優中,經常會提到零拷貝技術,為了能從原理層面掌握這些常用元件,下面我詳細介紹零拷貝的原理。在介紹零拷貝之前,還有幾個概念需要介紹,那就是 使用者空間 user space 核心空間 kernel space 使用者空間是指 使用者程式 執行的地方 核心...

sendfile 實現零拷貝詳解

2013年11月18日 11 17 供稿中心 網際網路運營部 摘要 linux的sendfile 系統呼叫 伺服器響應乙個http請求的步驟如下 1 把磁碟檔案讀入核心緩衝區 2 從核心緩衝區讀到記憶體 3 處理 靜態資源不需處理 4 傳送到網絡卡的核心緩衝區 傳送快取 5 網絡卡傳送資料 資料從第...