無人駕駛決策控制

近年來，隨著人工智慧和物聯網技術的快速發展，無人駕駛汽車受到學術界、產業界極大關注，無人駕駛概念持續火熱。從概念定義來看，智慧型駕駛汽車是一種自動化載體，能夠部分或者全面代替駕駛員進行駕駛行為，無人駕駛汽車是智慧型汽車發展的最高形態。從原理角度看，無人駕駛控制系統模擬人類的駕駛方式，由感測器、控制器、執行器組成，對應感知、決策、執行三大功能模組。從技術角度看，無人駕駛在實現的過程中需要融合和運用多種技術，涉及到人工智慧、雲技術以及機械人技術等。任意兩種技術的結合，都可算是廣義無人駕駛概念的延伸，或是支撐無人駕駛技術的底層基礎。

圖1 無人駕駛系統原理

圖2 無人駕駛核心技術元素

google 無人駕駛技術通過「雷射雷達為主+高精度地圖+人工智慧控制系統」實現。google無人車依託 google map 多年來積累的各種道路交通資料以及街景資料提供最基本的資料支援；綜合使用多種感測器，包括雷射雷達（核心）、攝像頭、公釐波雷達、超聲波雷達、gps、車輪位置感測器、速度感測器等進行環境感知及車身姿態感知；計算系統方面，配備 google chauffeur 人工智慧控制系統，綜合感測器資訊，分析、計算得出決策控制指令。

google 一方面基二自身在人工智慧方面的技術積累；一方面大量收購ai創業公司，比如深度學習公司deepmind、分析公司jetpac、機械人公司holomni、3d視覺系統公司industrial perception等，通過技術融合，提公升技術能力。

無人駕駛決策控制系統的任務就是根據給定的路網檔案、獲取的交通環境資訊和自身行駛狀態，將行為**、路徑規劃以及避障機制三者結合起來，自主產生合理駕駛決策，實時完成無人駕駛動作規劃。狹義上來講，包含了無人駕駛車的行為決策、動作規劃以及反饋控制模組；廣義上來講，還緊密依賴上游的路由尋徑、交通**模組的計算結果。

路由尋徑，屬於全層路徑規劃，為無人駕駛汽車的自主駕駛提供方向性的引導，確定其依次需要通過的路段和區域序列，輸出的結果嚴格依賴於高精度地圖的繪製。

交通**，任務是對感知所探測到的物體進行行為**。要結合物理規律對物體做出**，還需要結合物體和周邊環境，以及積累的歷史資料知識，對感知到的物體做出更為巨集觀的行為**；

行為決策，任務是匯聚分析各種資訊，做出行駛的決策，確定無人駕駛汽車應該進入什麼行駛模式，比如路口左轉模式、超車模式等；

動作規劃，任務是將行為決策的巨集觀指令解釋成一條帶有時間資訊的軌跡曲線，來給最底層的反饋控制來進行實際對車的操作；

反饋控制，任務是控制車輛盡可能遵循上游動作規劃所輸出的軌跡，通過控制方向盤轉角以及前進速度實現。

圖3 無人駕駛決策規劃系統組成

圖4 智慧型駕駛中任務規劃結構

決策演算法是核心競爭力，也是人工智慧應用的重要場景。決策規劃是自主駕駛系統智慧型性的直接體現，無人駕駛系統與adas系統的區別就在於是否具有自主的決策能力。目前各公司的感測器配置越來越趨同化，無人駕駛技術上的競爭會更多聚焦在決策環節，google等公司的核心競爭力就體現在決策演算法方面。

常見的決策規劃體系結構有分層遞階式、反應式以及於者混合式。分層遞階式體系結構是乙個序列系統結構，無人駕駛系統的各個模組之間次序分明，上乙個模組的輸出即為下乙個模組的輸入，當給定目標和約束條件後，系統根據即時建立的區域性環境模型和已有的全域性模型決定出下一步行動；反應式體系結構中的每個控制層都可以直接基於感測器的輸入進行決策，突出「感知-動作」的特點，易於適應完全陌生的環境；混合式體系結構則結合上述兩種方式的優點，在全域性規劃層次上，生成面向目標定義的分層遞階式行為，在區域性規劃層次上，生成面向目標搜尋的反應式體系的行為分解。

圖5 基於功能和行為分解的混合決策體系結構

圖6 決策演算法搭建和測試的不同路線

上述體系結構的不同，無人駕駛決策演算法技術路線分為多個流派，主要有三大類：基於規則的經典機械人方向，基於深度學習的端對端無人駕駛技術以及因果推理方向。

單一基於規則的決策難以完全覆蓋所有場景。基於規則的決策，是由人工使用 if-then規則覆蓋所有可能的情況，對汽車的決策系統進行程式設計，告訴車輛在各種場景下應該怎麼去做。這類方法難點在於很難建立全面的、能夠覆蓋到無人駕駛汽車可能遇到的所有場景的規則庫，不夠靈活；同時規則之間相於組合，能產生無數種可能，很難實現對系統的完整測試。

單一基於深度學習的端對端決策存在「黑箱」難題。端對端決策採用深度學習神經網路，訓練 ai 根據具體的場景做出適宜的決策。這類方法有所謂「黑箱」問題，就是深度學習的解決方案中複雜的運算和處理都在端和端之間的通道內完成，決策過程是不透明的，系統一旦做出錯誤的判斷，無法定位問題原因，也無法**下一次會出現什麼問題。

圖7 自動駕駛的端到端深度學習決策方案

因果推理決策機制是重要發展趨勢。我們知道深度學習對感知有非常強的能力，可以理解各種複雜影象的含義，但是並不能把這種感知完美的轉化為決策能力。原因在於深度學習，僅僅依賴於概率推理，也就是相關性。為了達到自動駕駛所需要的極高的安全性和可靠性，因果推理將是未來的發展趨勢。因果推理使用貝葉斯網路，針對事件發生的概率以及事件可信度進行分類，具有模組化、透明性的優勢

ai演算法融合，助力「智慧型大腦」能力提公升。在開放動態環境下的無人駕駛需要更強壯的ai，需要多種演算法結合，將上述的三類決策機制融合。

一種提公升的思路就是基於強化學習的決策框架，將深度學習包含關中。強化學習是強調如何基於環境而行動，以取得最大化的預期利益，是一種基於環境反饋而做決策的通用框架。理解強化學習有兩個關鍵點：乙隻看重結果，不關心過程或者動機；二對於每一次行為，及時獎懲，強化認知。alpha go在圍棋人機大戰中的里程碑式勝利，背後的強化學習演算法功不可沒。google、mobileye目前都在使用深度強化學習來研發無人駕駛決策控制。通過深度學習加強化學習的演算法可以無限趨近於處理所有場景。在**模擬環境中，還可以通過強化學習做虛擬執行，獲得最優的決策模型，產生模擬資料，促進決策演算法成熟。

圖8 強化學習原理

圖9 強化學習的機械人運動控制

一種提公升思路就是深度學習結合貝葉斯網路。貝葉斯網路的因果推理邏輯可以在一定程度上處理未知的極端情況，在無人駕駛車遇到陌生的駕駛場景時，能夠對事實邏輯深入分析得出理性的決策控制指令。思路是將貝葉斯網路作為整個決策的頂層框架，利用貝葉斯網路的模組化，把深度學習系統作為乙個子模組融入關中，專家系統作為另乙個模組，這樣的多重冗體構成了貝葉斯網路的子節點，將有效強化輸出結果的可靠性；同時貝葉斯網路的透明性使得可以對整個決策的過程進行分析，定位問題。

圖10 貝葉斯網路原理

圖11 遷移學習原理

未來更進一步，無人車能實現繼承和發展過去學到的知識，關鍵就是遷移學習。遷移學習是指在不同情況之間把知識進行遷移轉化的能力，通過將在乙個或多個源任務中學習到的知識進行遷移，用在相關的目標任務中以提高其學習效能。

無人駕駛決策控制

無人駕駛汽車

初識無人駕駛

低速無人駕駛

無人駕駛決策控制

無人駕駛汽車

初識無人駕駛

低速無人駕駛

相關推薦