強化學習訓練機械人2 Unity3D環境

前言：

之前在unity3d中嘗試訓練四足機械人學習奔跑前進，只是做了簡單的嘗試。在19年的寒假裡由於要寫**，所以基於強化學習提出一種分層學習演算法，實現四足機械人在腿瘸後仍可以繼續向前運動。這種是一種比較簡單的，所以也就只發表在國內的核心期刊上面。這也是我第一次寫**。個人感覺還是相比國內許多**來講，我的更加有價值些。這裡為大家介紹四足機器的案例。

在unity3d中構建機械人並不是件很困難的事情，主要還是使用hingejoint元件加上一些控制指令碼就可以完成，這方面很容易可以自己進行自我探索得到。

訓練得主要演算法還是基於ppo演算法。其實對於強化學習來講具體演算法成熟後，真正有意思得是如何將具體的任務結合到相關演算法，由於時間比較緊迫，所以我沒有在具體核心演算法上進行優化和創新。

訓練機械人由於受到了硬體的限制，我是在cpu上進行訓練。共有三個機械人進行訓練，由於控制頻率只有3hz多，所以可以進行分時進行訓練，每次以一定概率挑選獎勵最好的batch進行訓練。這裡沒有用a3c是嫌部署很麻煩，哈哈哈，我也是懶的。

很多小夥伴認為控制頻率很低怎麼跑，其實底層有自己的速度及位置控制器，神經網路只是給與乙個目標而已，所以可以在低頻率下實現控制。有很多的控制方面的都是要求計算機實現高頻控制，精度和頻率都要求極高，感覺這有點過於機械了。在以生物的角度來講，真的自然界中生物行為控制頻率和精度可以達到超高嗎？實際我想則不是這樣的。另外機械人關節運動範圍進行了限制，在我實現的機械人具體限制如下：

這裡向大家介紹初代機械人訓練這裡

另外現在，我也在逐漸放棄unity3d的訓練環境，是因為前段時間webots2019開源後收到了大家的廣泛關注。但是綜合的教程很少可能大家都不怎麼在使用這個軟體吧！通過自學，我在這個平台上重新實現了四足機械人自平衡演算法等。webots最好的就是直接支援python,簡直棒棒噠，這樣機器學習訓練機械人就極其方便。另外，還可以進行訓練加速，有些公司在上面進行無人駕駛的模擬，簡直不能再好！

以下是在webots上實現自平衡演算法的乙個機械人，腳部有用力感測器。

強化學習訓練機械人2 Unity3D環境

強化學習 2 機械人找金幣例子

深度強化學習控制移動機械人

機器學習（二十五）強化學習（2）

強化學習訓練機械人2 Unity3D環境

強化學習 2 機械人找金幣例子

深度強化學習控制移動機械人

機器學習（二十五） 強化學習（2）

相關推薦

機器學習（二十五）強化學習（2）