強化學習已成為AI的主流

2023年最值得注意的人工智慧趨勢之一是強化學習已經成熟，成為構建和訓練統計模型以做有用的事情的主流方法。

正如我在今年早些時候解釋的那樣，強化學習在企業ai計畫中的作用正在擴大。該技術突破了傳統的機械人技術，遊戲和模擬領域，現在在it運營管理，能源，醫療保健，商業，運輸和金融領域的各種尖端ai應用中顯而易見。它甚至是社交**，自然語言處理，機器翻譯，計算機視覺，數字助理等中的新一代ai解決方案的組成部分。

[在infoworld上深入學習機器學習： 11種必備的機器學習工具。• 掌握機器學習的13個框架 • 揭秘了機器學習管道 •回顧： 6個機器學習雲 • 您應使用哪個spark機器學習api？]

為了加深企業ai中強化學習演算法的易用性，開發人員需要用於在這些專案上進行協作並將結果模型部署到生產環境中的工具。在這方面，最近有大量的行業公告，說明了以增強學習為重點的ai計畫的開源工作台，庫和devop管道的成熟。

開發人員可以利用越來越多的用於遊戲和機械人的開源強化學習框架，包括openai的roboschool ，unity technology的機器學習**和英特爾的nervana coach 。而且，您還可以訪問可擴充套件到各種挑戰的開源增強學習框架。例如，google的tensorflow**支援高效的批量增強學習工作流，而uc berkeley的ray rllib提供了基於任務的靈活程式設計模型，可用於在tensorflow和pytorch中構建基於**的增強學習應用程式。

許多ai開發人員的建模工具包中缺少的是乙個快速的，迭代的強化學習工作台，該工作台與現有的ai框架整合在一起，並且能夠應對各種建模和培訓挑戰。為了解決這種情況，google最近發布了基於tensorflow的框架

dopamine ，該框架和**庫可用於python 2.7中增強學習演算法的快速，迭代原型設計。多巴胺在github的「酷開源專案」內部排名中名列前茅，它支援以下核心功能：

強化學習的進步取決於構建能夠在各種現實情況中自主採取最佳行動的智慧型**。

人工智慧研究人員不斷推動由受過訓練的強化學習模型提供支援的智慧型，分布式智慧型體的發展。例如，加州大學伯克利分校最近發表了關於分布式**環境中的迴圈迭代式強化學習加速的研究。它涉及一次訓練乙個**模組，而其他的則遵循簡單的指令碼行為，然後環境「用神經網路策略替換另乙個模組的指令碼元件，該神經網路策略繼續訓練，而先前訓練的模組保持固定。」

為了加速開發優化強化學習的智慧型ai機械人，google的deepmind小組最近開放了trfl的源** ， trfl是乙個新的構建庫庫，用於在tensorflow中開發強化學習**。它包括演算法，損失函式和其他強化學習操作，deepmind的研究工程團隊已在內部使用這些演算法，成功的強化學習**，例如dqn，深度確定性策略梯度（ddpg）和重要性加權actor學習者體系結構。這些構建塊可用於使用一致的api來構建新的強化學習**。

deepmind也是開放式的完整增強學習**實現，包括表示值和策略的深層網路計算圖以及環境的學習模型，偽獎勵功能和重播系統等元件。這樣做是為了幫助強化學習社群更快地識別和修復這些**中的錯誤，同時通過使用這些**的強化學習專案提高社群中結果的可重複性。 deepmind將繼續維護，新增新功能並接受社群對 trfl庫的貢獻。

強化學習建模通常是從生產應用程式離線完成的，只有在模擬器中證明了經過訓練的模型之後，這些訓練的模型才會投入到運營環境中。

horizon是針對以強化學習為重點的ai專案的端到端管道，這些專案的資料集很大，目標應用程式的反饋迴圈較慢，並且強化學習實驗失敗的商業風險很高，因為它們涉及生產應用程式。它支援在高維離散和連續動作空間中進行強化學習建模。它包括具有離散體系結構的dqn實現（用於離散操作空間）和具有ddpg的實現（用於連續操作空間）。它包含用於在多gpu分布式環境中訓練流行的深度強化學習演算法的自動化工作流，以及在單台機器上進行cpu，gpu和多gpu訓練的自動化工作流。它包括用於資料預處理，功能規範化，分布式培訓和優化服務的實用程式。

根據facebook的規模要求，horizon旨在支援對具有資料集的應用程式進行強化學習建模和培訓，這些資料集可能具有數百甚至數千個要素型別，每個要素型別都有獨特的統計分布。它使用spark進行資料準備和降維，使用pytorch框架進行強化學習建模和培訓，並使用caffe2 ai框架和open neural network exchange進行強化學習模型，以服務於成千上萬的生產環境。

為減輕將次優強化學習模型部署到生產應用程式中的風險，horizon引入了一項稱為「反事實策略評估」的功能，該功能使資料科學家可以在部署經過訓練的模型之前離線評估強化學習演算法的效能。如果沒有這種自動化功能，開發人員將需要進行昂貴且耗時的a / b測試，以在眾多候選人中搜尋最佳的強化學習模型和超引數。在強化學習訓練工作流程中，horizon使用反事實策略評估方法（例如逐步重要性抽樣估計器，逐步直接取樣估計器，逐步雙穩健估計器和順序雙穩健估計器）對訓練過的模型進行評分。

為了支援增強學習演算法效能的測試，facebook將horizon與流行的基準測試庫openai gym的cartpole和pendulum環境以及自定義的gridworld環境進行了整合。 horizon包含用於進行資料預處理，功能標準化和其他horizon強化學習建模，培訓和服務功能的單元，整合和效能測試的工具。它評估具有不同配置的離散行動dqn，參量行動dqn和ddpg模型，例如使用q學習與sarsa，或者有或沒有雙重q學習，以確保強化學習模型的魯棒性和正確性。它對目標平台的預構建docker映像執行整合測試。

如果您是ai開發人員，則此處列出的許多演算法可能仍然不熟悉。但是，您可能已經開始將強化學習納入您的開發計畫中，並且至少要涉足開源工具。

在2023年，您可以期望ai行業將最廣泛採用的強化學習框架納入其工作平台。隨著卷積神經網路和遞迴神經網路在監督學習環境中的普及，主流開發人員將更加熟悉這些方法。

不久之後，大多數ai開發人員工作流將無縫地將強化學習與有監督和無監督的學習結合起來，以在生產企業應用程式中支援更複雜的嵌入式智慧型。

from:

強化學習已成為AI的主流

強化學習已成為AI的主流

web業已成為軟體業的掘墓人

電動閥門已成為自控閥門的首選

強化學習已成為AI的主流

強化學習已成為AI的主流

web業已成為軟體業的掘墓人

電動閥門已成為自控閥門的首選

相關推薦