谷歌ChauffeurNet:訓(xùn)練能夠魯棒地駕駛實車的網(wǎng)絡(luò)

2019-03-27 23:14:05· 來源：同濟(jì)智能汽車研究所

編者按：Waymo于2018年底發(fā)表了本論文，介紹如何利用并改進(jìn)模仿學(xué)習(xí)以獲得能夠較為魯棒的駕駛模型ChaufferNet。它與典型的端到端學(xué)習(xí)不同，采用的是mid-mid的方

編者按：Waymo于2018年底發(fā)表了本論文，介紹如何利用并改進(jìn)模仿學(xué)習(xí)以獲得能夠較為魯棒的駕駛模型ChaufferNet。它與典型的端到端學(xué)習(xí)不同，采用的是mid-mid的方式，在仿真環(huán)境和實車測試中都有不錯的表現(xiàn)。模型一方面基于大量數(shù)據(jù)模仿學(xué)習(xí)合理的駕駛行為，另一方面通過在合理駕駛軌跡上附加擾動以制造各種特殊的駕駛情形，結(jié)合對應(yīng)的附加損失函數(shù)，訓(xùn)練網(wǎng)絡(luò)如何應(yīng)對擾動和避免不良行為。ChaufferNet駕駛模型具有較好的魯棒性，雖然目前還不能夠和運動規(guī)劃方法競爭，但的確是機(jī)器學(xué)習(xí)駕駛模型前進(jìn)的一大步。

摘要：我們的目標(biāo)是通過模仿學(xué)習(xí)訓(xùn)練出能足夠魯棒地駕駛真實車輛的網(wǎng)絡(luò)。我們發(fā)現(xiàn)單純的行為模仿不能應(yīng)對復(fù)雜的駕駛場景，即使我們利用感知系統(tǒng)預(yù)處理傳感器輸入，同時利用控制器在車輛上執(zhí)行模型輸出：3000萬量級的學(xué)習(xí)樣本仍然不夠。我們嘗試?yán)迷诤侠眈{駛的數(shù)據(jù)上附加擾動得到的合成數(shù)據(jù)來輔助學(xué)習(xí)，創(chuàng)造出一些特別的駕駛情形，如車輛發(fā)生碰撞或駛離道路。我們不是純粹模仿所有合理駕駛的數(shù)據(jù)，而是在模仿?lián)p失上增加了一些損失，用于懲罰不良的行為并鼓勵學(xué)習(xí)的進(jìn)展。在合理駕駛的數(shù)據(jù)上增加的擾動為這些損失提供了重要信號，并導(dǎo)致學(xué)習(xí)得到的模型具有魯棒性。我們證明了ChauffeurNet模型可以應(yīng)付仿真環(huán)境中的復(fù)雜情形且能夠合理地應(yīng)對隨機(jī)因素，同時進(jìn)行了實驗對本文提出的各項改進(jìn)的重要性加以說明。最后我們展示了使用訓(xùn)練得到的模型在現(xiàn)實世界中駕駛汽車的效果。

關(guān)鍵詞：深度學(xué)習(xí) mid-mid駕駛駕駛行為學(xué)習(xí) 軌跡預(yù)測

1.介紹

駕駛員在駕駛時需要觀察和理解環(huán)境中的各種物體，預(yù)測它們未來可能的行為和交互情況，然后思考如何控制汽車，在遵從道路交通規(guī)則的條件下安全到達(dá)目標(biāo)位置。這項任務(wù)對于機(jī)器來說是很有挑戰(zhàn)性，人類卻可以很好地完成，因此模仿學(xué)習(xí)是解決這個問題的一種很有前景的方法。我們工作的目標(biāo)就是使得模仿學(xué)習(xí)得到的模型能夠達(dá)到可用于駕駛真實車輛的水平。我們在利用大量訓(xùn)練數(shù)據(jù)（3000萬現(xiàn)實世界中合理駕駛的樣本，相當(dāng)于持續(xù)駕駛約60天）的基礎(chǔ)上盡可能高效地構(gòu)建了我們的系統(tǒng)。的確，端到端的駕駛行為學(xué)習(xí)有很多令人興奮的地方。它們通常致力于通過學(xué)習(xí)，在相機(jī)或激光雷達(dá)數(shù)據(jù)等原始傳感器輸入數(shù)據(jù)的基礎(chǔ)上，直接預(yù)測諸如轉(zhuǎn)向或制動等原始控制輸出。但為了降低樣本的復(fù)雜性，我們選擇了建立在感知和控制組件之上的中級輸入和中級輸出表示。我們使用能夠加工處理原始傳感器信息的感知系統(tǒng)來產(chǎn)生這種中級輸入：俯視的環(huán)境表達(dá)和目標(biāo)路線，車輛等物體被繪制為有向的邊界框，道路信息和交通信號燈狀態(tài)也在其中。我們將這種中級輸入注入到一個名為ChauffeurNet的循環(huán)神經(jīng)網(wǎng)絡(luò)中，由這個網(wǎng)絡(luò)輸出一條駕駛軌跡，再由控制器將此駕駛軌跡轉(zhuǎn)換為轉(zhuǎn)向和加速度控制指令。使用這些中級表示的另一個優(yōu)點是：網(wǎng)絡(luò)既可以使用實際數(shù)據(jù)，也可以使用模擬數(shù)據(jù)來訓(xùn)練，且可以在部署到實車之前在閉環(huán)仿真中輕松完成測試和驗證工作。

我們的第一個發(fā)現(xiàn)是，即使在擁有3000萬個駕駛樣本并使用中級輸入和中級輸出表示減輕感知與控制負(fù)擔(dān)的條件下，單純的模仿學(xué)習(xí)依然不能達(dá)到目標(biāo)。例如我們發(fā)現(xiàn)這種情形：本車會與一輛停在狹窄街道一側(cè)的車發(fā)生碰撞或者卡在這輛車后不動，然而此時避讓和超車都是完全可行的。關(guān)鍵的挑戰(zhàn)是我們需要閉環(huán)地運行系統(tǒng)，而誤差的累積將會導(dǎo)致駕駛情形偏離訓(xùn)練時的分布。這一結(jié)果是單純的模仿學(xué)習(xí)在驅(qū)動車輛駕駛領(lǐng)域具有局限性的很有價值的證據(jù)。此外我們還發(fā)現(xiàn)在模仿?lián)p失的基礎(chǔ)上，增加一些抑制不良行為并鼓勵學(xué)習(xí)進(jìn)展的損失，同時增加附加了擾動的合成駕駛軌跡可以克服這一挑戰(zhàn)。這些改進(jìn)使得模型能夠接觸到發(fā)生碰撞和駛出道路等非常規(guī)行為，同時損失函數(shù)的增大將引導(dǎo)模型避免這些行為。正是由于采用中級的輸入輸出表示，我們才能得到大量這樣的合成駕駛軌跡。這些擾動很難從原始傳感器輸入或直接饋送到車輛的控制器輸出中生成。

我們首先在仿真中評估整個系統(tǒng)以及進(jìn)行損失函數(shù)擴(kuò)增和數(shù)據(jù)擴(kuò)增的重要性，之后展示最終模型如何在現(xiàn)實世界中駕駛汽車，并協(xié)調(diào)處理涉及其他交通參與者、轉(zhuǎn)彎、停車標(biāo)志和交通信號燈等對象的駕駛情形。變道等具有高度互動性的駕駛情形，仍然需要在強(qiáng)化學(xué)習(xí)的框架內(nèi)進(jìn)行大量的探索。這就要求實現(xiàn)對其他交通參與者例如行人的模擬，而這種模擬也是一個正在迅速發(fā)展的值得探索的研究領(lǐng)域。本文的貢獻(xiàn)可以理解為：在沒有使用強(qiáng)化學(xué)習(xí)的條件下，我們?nèi)匀豢梢杂眉兇獾碾x線數(shù)據(jù)來完成更多的駕駛學(xué)習(xí)任務(wù)。

2. 相關(guān)工作

ALVINN上數(shù)十年的工作（Pomerleau(1989)）揭示了淺層神經(jīng)網(wǎng)絡(luò)如何直接利用相機(jī)數(shù)據(jù)和激光測距數(shù)據(jù)使車輛沿著道路行駛。以端到端的方式學(xué)習(xí)自主駕駛在近些年掀起新的熱潮。Chen等人最近的工作(2015)展示了使用一個卷積網(wǎng)絡(luò)來預(yù)測可行駛空間，例如和前方車輛的距離。預(yù)測的可行駛空間可用于控制器的編程，控制在高速公路上行駛的車輛。NVIDIA的研究者們(Bojarski等人(2016,2017))展示了如何訓(xùn)練一個端到端的深度卷積神經(jīng)網(wǎng)絡(luò)，利用相機(jī)輸出的數(shù)據(jù)作為輸入，控制車輛的轉(zhuǎn)向。Xu等人同樣利用相機(jī)輸出的數(shù)據(jù)，訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò)用于預(yù)測離散的或連續(xù)的動作。Codevilla等人(2018)也訓(xùn)練了一個網(wǎng)絡(luò)，使用相機(jī)的輸出作為輸入，使用高級的控制指令來輸出對轉(zhuǎn)向和加速度的控制。Kuefler等人(2017)使用生成對抗模仿學(xué)習(xí)(GAIL),使用簡單的affordance-style特征作為輸入，以克服基于行為復(fù)制策略得到的模型中經(jīng)常出現(xiàn)的過大誤差，因而對于擾動有更好的魯棒性。Hecker等人最近(2018)訓(xùn)練了一個使用360度環(huán)視相機(jī)輸出作為輸入，包含目標(biāo)路線規(guī)劃模塊的駕駛模型，可以預(yù)測轉(zhuǎn)向和車速。CARLA模擬器(Dosovitskiy等人(2017))在Sauer等人的工作（2018）中都有用到，它可以基于傳感器數(shù)據(jù)估計若干個可行駛空間并在仿真的城市環(huán)境中駕駛車輛。Muller等人(2018)利用和本文思路相似的中級表示，在仿真環(huán)境中使用CARLA訓(xùn)練了一個系統(tǒng)。具體的方法是從一個場景分割網(wǎng)絡(luò)中訓(xùn)練駕駛策略，并輸出高級的控制指令，方便了后續(xù)基于遷移學(xué)習(xí)的方法利用現(xiàn)實世界駕駛數(shù)據(jù)訓(xùn)練得到的一個不同的場景分割網(wǎng)絡(luò)。Pan等人(2017)同樣描述了如何利用基于學(xué)習(xí)的intermediate場景標(biāo)注方法，將仿真環(huán)境中訓(xùn)練得到的模型向真實世界中遷移。Shalev-Shwartz等人(2016)提到在模擬器中使用強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器完成諸如變道等復(fù)雜的且具有高度交互性駕駛?cè)蝿?wù)。目前已經(jīng)有機(jī)器學(xué)習(xí)之外的大量的車輛運動規(guī)劃方面的工作，Parden等人(2016)對此給出了一個很好的調(diào)研。

3.模型架構(gòu)

3.1輸入輸出表示

首先描述網(wǎng)絡(luò)如何處理俯視的輸入表示，進(jìn)而輸出可行駛的軌跡。在任何時間t，本車狀態(tài)可以俯視坐標(biāo)系中的坐標(biāo)pt，θt，st來表示，其中pt=(xt,yt)表示位置，θt表示航向角或行駛方向，st表示速度。俯視的坐標(biāo)系按照以下規(guī)則選定：本車在當(dāng)前時刻t=0的位置p0始終位于圖像中的固定位置(u0,v0)。為了在訓(xùn)練階段擴(kuò)增數(shù)據(jù)，每一個訓(xùn)練樣本都在θ0±Δ的角度范圍內(nèi)隨機(jī)選擇坐標(biāo)系的方向，其中θ0表示本車在當(dāng)前時刻t=0的航向角或行駛方向。俯視圖由一組分辨率為W×H的圖像表示，地面的采樣分辨率為φ米/像素。隨著本車的移動，這些環(huán)境視圖也發(fā)生移動，因此本車總是觀察一個固定前視范圍內(nèi)的環(huán)境，即[Rforward=(H-v0)φ]米。這樣就模擬出了車載的傳感器只觀察車輛前方Rforward米范圍內(nèi)的環(huán)境的情形。

圖1：駕駛模型的輸入(a-g)和輸出(h)

如圖1所示，模型的輸入由幾個大小為W×H，并且調(diào)整到俯視坐標(biāo)系的圖像組成。(a)路線圖：一幅3通道彩色圖像，包含各種地圖特征如車道、停車標(biāo)志、人行橫道和路緣等。(b)交通信號燈：灰度圖像的時間序列，序列中的每一幀表示一個過去時間步的交通信號燈狀態(tài)。我們在每一幀中為每個車道的中心線著色，最亮的灰度級對應(yīng)紅燈，中間灰度級對應(yīng)黃燈，較暗的灰度級對應(yīng)綠燈或未知信號燈。(c)限速：單通道圖像，車道中心的著色灰度與本車道對應(yīng)的限制車速成比例。(d)路線：駕駛的目標(biāo)路線，它由一個路線規(guī)劃模塊產(chǎn)生。(e)本車邊界框：顯示了本車在當(dāng)前時間t=0的完整邊界框。(f)環(huán)境中的動態(tài)對象：圖像的時間序列，序列中用有向邊界框的形式顯示所有的動態(tài)物體(車輛，騎自行車者，行人等)。(g)本車的歷史位姿：本車的在各個歷史時刻的位姿，用單個灰度圖像中某個點的運動軌跡表示。

圖2：駕駛模型的訓(xùn)練 (a)ChauffeurNet的模型核心是一個FeatureNet網(wǎng)絡(luò)和一個AgentRNN網(wǎng)絡(luò) (b)共同訓(xùn)練的路標(biāo)預(yù)測網(wǎng)絡(luò)和PerceptionRNN (c)訓(xùn)練的損失函數(shù)以藍(lán)色顯示，綠色部分代表真值。虛線箭頭表示從一次迭代到下一次迭代的預(yù)測值的循環(huán)反饋。

我們使用δt的固定時間間隔，來采樣過去或者未來時間點上的信息，例如上述輸入中的交通信號燈狀態(tài)和動態(tài)對象狀態(tài)。在過去的Tscene秒內(nèi)對交通信號燈和動態(tài)對象進(jìn)行采樣，在過去的Tpose秒甚至更長的時間間隔內(nèi)對本車的位姿進(jìn)行采樣。這種簡單的輸入表示，特別是用邊界框表示其他動態(tài)對象，使得從仿真或?qū)嶋H感知系統(tǒng)記錄的檢測和跟蹤對象日志中生成輸入數(shù)據(jù)變得更加容易。這樣在實車運行之前，就可以在閉環(huán)仿真中完成測試和驗證的工作。仿真數(shù)據(jù)的利用，使得模型可以充分探索現(xiàn)實中較少發(fā)生的駕駛情形，從而改進(jìn)模型。例如在現(xiàn)實世界中，我們很難獲得與發(fā)生碰撞相關(guān)的數(shù)據(jù)。使用二維的俯視圖還意味著可以實現(xiàn)有效的卷積輸入，允許以靈活且易讀的方式表示各種數(shù)據(jù)以及它們的空間關(guān)系。使用I表示上面列舉的輸入圖像的集合，ChauffeurNet模型便以這些輸入為基礎(chǔ)反復(fù)預(yù)測本車的未來位姿，如圖1(h)中綠色的點所示。

圖3：(a)ChauffeurNet概覽 (b)多次迭代中的存儲單元更新

公式1中，當(dāng)前位姿p0是已知的輸入，然后ChauffeurNet執(zhí)行N次迭代并輸出預(yù)測的未來軌跡{ pδt,p2δt,…,pNδt }和如未來速度等一些其他的屬性。該軌跡可以輸入到優(yōu)化控制器內(nèi)，以計算出具體的駕駛控制指令(例如轉(zhuǎn)向和制動命令)。當(dāng)然，這些控制指令要滿足車輛動力學(xué)約束。不同類型的車輛可能利用不同的控制輸出來實現(xiàn)相同的駕駛軌跡，這也印證了訓(xùn)練網(wǎng)絡(luò)直接輸出低層次的轉(zhuǎn)向和加速度控制指令在這里是不太合適的。

3.2 模型設(shè)計

概括地說，駕駛模型由如圖2所示的若干部分組成。圖中（a）部分是ChauffeurNet模型的主要部分，由特征提取卷積網(wǎng)絡(luò)(FeatureNet)組成。FeatureNet使用中級輸入數(shù)據(jù)來創(chuàng)建可由其他網(wǎng)絡(luò)共享的特征表示。這些特征被本車的循環(huán)神經(jīng)網(wǎng)絡(luò)(AgentRNN)使用，以迭代地預(yù)測駕駛軌跡中的后繼點。軌跡中時刻t對應(yīng)的點用位置pt=(xt，yt)，航向角θt和速度st來描述。AgentRNN還在未來的每個時間步上，以heatmap的形式預(yù)測車輛的邊界框。圖的(b)部分可以看到另外兩個網(wǎng)絡(luò)，它們使用相同的特征表示作為輸入共同訓(xùn)練。Road Mask網(wǎng)絡(luò)預(yù)測視野中的可駕駛區(qū)域(道路與非道路)，感知循環(huán)網(wǎng)絡(luò)(PerceptionRNN)迭代地預(yù)測描述空間分布的heatmap。利用和主要任務(wù)共享的特征表示來很好地完成這些附加任務(wù)，改進(jìn)了模型在完成主要任務(wù)基礎(chǔ)上的泛化能力。圖2(c)顯示了訓(xùn)練模型過程中使用的各種損失，這些損失將在下面詳細(xì)討論。

圖4：信息流圖表示的端到端駕駛軟件架構(gòu)

圖3更詳細(xì)地說明了ChauffeurNet模型。圖1中的輸入傳遞給具有skip-connections結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)FeatureNet。FeatureNet輸出的特征表示F中包含了環(huán)境的上下文信息。這些特征被提供給AgentRNN，并由AgentRNN基于一系列條件預(yù)測駕駛軌跡的下一個點pk以及預(yù)測本車邊界框的heapmap:Bk。這些條件包括FeatureNet得到的特征表示F，迭代次數(shù)k:{1,…,N}，對AgentRNN的過去獲得的預(yù)測結(jié)果的記憶Mk-1，以及在前一次迭代中預(yù)測的本車邊界框heatmap:Bk-1。

存儲單元Mk是由單通道圖像組成的疊加式存儲單元。AgentRNN的第k次迭代中，存儲單元（單通道圖像）在AgentRNN預(yù)測的圖像位置pk處增加1個點，然后此存儲單元傳遞給下一次迭代。AgentRNN在heatmap上輸出對本車下一位姿的預(yù)測，使用arg-max操作可從heatmap中獲取位姿的粗略估計pk。AgentRNN采用一個較淺的且具有一個全連接層的卷積網(wǎng)絡(luò)，對姿勢δpk進(jìn)行亞像素級別的細(xì)化，并估計出航向θk和速度sk。在訓(xùn)練時AgentRNN會展開固定次數(shù)的迭代，下面要描述的損失將在這些展開的迭代步中進(jìn)行累加。這樣之所以可行，是因為我們使用的是非傳統(tǒng)的RNN，采用的存儲單元是顯式設(shè)計的而不是通過學(xué)習(xí)產(chǎn)生的。

3.3系統(tǒng)架構(gòu)

圖4表示的是在自動駕駛系統(tǒng)中如何使用神經(jīng)網(wǎng)絡(luò)的系統(tǒng)層面的概述。通過感知系統(tǒng)處理真實世界傳感器輸出或者從仿真環(huán)境獲取，更新本車和環(huán)境狀態(tài)。目標(biāo)路徑從路徑規(guī)劃模塊獲得，且根據(jù)本車是否能夠跟隨過去的目標(biāo)路徑駕駛進(jìn)行動態(tài)更新。環(huán)境信息被整合到圖1所示的輸入圖像中并傳遞給RNN，由RNN輸出未來的軌跡并送到優(yōu)化控制器，進(jìn)而輸出驅(qū)動車輛的低級控制信號（在現(xiàn)實世界或仿真環(huán)境中）。

4. 模仿合理行為

4.1 模仿?lián)p失

4.1.1本車位置，航向角和邊界框預(yù)測AgentRNN在每次迭代k產(chǎn)生三個輸出：(1)基于空間softmax得到的預(yù)測路點在空間坐標(biāo)系中的概率分布Pk(x,y)。(2)當(dāng)前時間步k對應(yīng)的預(yù)測本車邊界框heatmap: Bk(x,y)，基于逐像素的sigmoid激活函數(shù)生成，表示本車占據(jù)特定像素的概率。(3)回歸獲得的邊界框航向角輸出θk。掌握上述預(yù)測量真值的條件下，我們可以為每次迭代定義相應(yīng)的損失：

其中上標(biāo)gt表示對應(yīng)的真值，而H(a,b)是交叉熵?fù)p失函數(shù)。注意[Pgtk]是二值圖像，只有對應(yīng)目標(biāo)真值坐標(biāo)的像素的值才被設(shè)置為1。

4.1.2本車預(yù)測預(yù)測網(wǎng)絡(luò)在每一次迭代中，基于特征并且使用回歸的方式，對粗略的路點估計結(jié)果生成亞像素級別細(xì)化的δpk以及每個點的速度估計sk。我們對這兩種輸出均采用L1損失函數(shù)：

4.2 對過去運動行為的dropout

訓(xùn)練過程中，過去的運動歷史被作為輸入之一提供給模型。訓(xùn)練過程中的運動歷史來自合理駕駛的示范，因此網(wǎng)絡(luò)可以基于過去作出僵化的推斷而不是發(fā)現(xiàn)行為背后的具體原因，類似“欺騙”。在進(jìn)行閉環(huán)推理時這種“欺騙“就會崩潰，因為運動歷史來自于網(wǎng)絡(luò)本身在過去的預(yù)測。這樣訓(xùn)練出來的網(wǎng)絡(luò)，也許會只有在過去運動歷史中發(fā)現(xiàn)減速時，才在停車標(biāo)志前停車，永遠(yuǎn)不會在閉環(huán)推理時在停車標(biāo)志前停車。為了解決這個問題，我們引入了一個針對運動歷史的dropout機(jī)制：對于50％的樣本，在輸入數(shù)據(jù)中的本車歷史位姿這一通道中，僅僅保留本車當(dāng)前位姿(u0，v0)。這一點迫使網(wǎng)絡(luò)尋找環(huán)境中的其他線索，來解釋訓(xùn)練樣本中的提供的未來運動數(shù)據(jù)。

圖5：軌跡的擾動。(a)原始記錄的訓(xùn)練樣例，其中智能體沿著車道的中心行駛。 (b)擾動樣例，通過擾動原始記錄中當(dāng)前智能體的位置（紅色點）使其遠(yuǎn)離車道中心，然后擬合新的平滑軌跡，該軌跡使智能體沿車道中心返回到原始目標(biāo)位置。

5. 在純模仿之外的工作

5.1合成擾動

將模型作為閉環(huán)系統(tǒng)的一部分運行，隨著時間的推移，輸入數(shù)據(jù)會偏離訓(xùn)練時的分布。為了防止這種情況出現(xiàn)，我們在訓(xùn)練模型時對一部分本車軌跡的樣本，附加現(xiàn)實中可能出現(xiàn)的各種擾動。軌跡的起點和終點保持不變，擾動施加在軌跡中點的周圍，且在周圍的多個軌跡點上得到平滑。定量地來看，各個軸上產(chǎn)生在[-0.5,0.5]m范圍內(nèi)均勻分布的隨機(jī)抖動，航向角產(chǎn)生在[-π/3,π/3]弧度范圍內(nèi)的隨機(jī)抖動。我們用平滑的軌跡擬合擾動后的點和原始的起點與終點。這類附加擾動的訓(xùn)練樣本，使汽車在受到擾動后能夠回到原來的行駛軌跡上。我們通過設(shè)置軌跡曲率的閾值，濾除了一些實際中不太可能出現(xiàn)的擾動后的軌跡。我們允許擾動后的軌跡與其他車輛發(fā)生碰撞或駛離道路，因為只有這樣，網(wǎng)絡(luò)才能在原有樣本中沒有類似情況出現(xiàn)的條件下，也能經(jīng)歷并且學(xué)會如何避免這樣的行為。訓(xùn)練過程中我們給附加了擾動的樣本的權(quán)重是真實樣本的權(quán)重的1/10，避免學(xué)到的模型有始終在擾動狀態(tài)下駕駛的傾向。

5.2 模仿?lián)p失之外的損失

5.2.1 碰撞損失

由于我們的訓(xùn)練數(shù)據(jù)沒有任何實際碰撞，因此避免碰撞的想法是隱式的，不能很好地泛化。為了緩和這個問題我們增加了一個專門的損失函數(shù)，直接度量在每一個時間步上預(yù)測的邊界框Bk與場景中所有物體的邊界框真值的重疊率。

其中Bk是輸出本車邊界框預(yù)測的似然圖，Objgtk是時間k對應(yīng)的二值化的掩模圖像，所有被其他動態(tài)物體（其他車輛，行人等）占據(jù)的像素的值都為1。訓(xùn)練過程中的任何時候，如果模型預(yù)測到將會發(fā)生碰撞，大的重疊率會造成的損失增加，進(jìn)一步影響到模型更新的梯度，從而糾正這種錯誤。但是這種損失僅在訓(xùn)練的初始階段有效，也就是在模型還沒有能夠預(yù)測出接近真值的位置時。在軌跡上附加擾動之后，這個問題得到了緩和。這是因為在附加擾動的樣本中，人為制造出來的碰撞情形使得上述損失函數(shù)在訓(xùn)練過程中能夠發(fā)揮出作用，影響模型更新的梯度。此外這種方法還達(dá)到了類似在強(qiáng)化學(xué)習(xí)中設(shè)置在線探索的效果。

5.2.2 駛離路面損失

軌跡擾動同時會產(chǎn)生車輛駛離道路或駛上路緣的情形。為了訓(xùn)練網(wǎng)絡(luò)避免車輛駛上道路邊緣，我們增加了一個專門的損失函數(shù)，在每一個時間步k上度量預(yù)測的本車邊界框和表示視野中的道路和非道路區(qū)域二值掩模圖像Roadgt的重疊率。

5.2.3 目標(biāo)軌跡幾何損失

我們希望顯式地約束本車，使其沿著獨立于速度曲線的目標(biāo)軌跡行駛。通過用平滑曲線擬合目標(biāo)路點，并將此曲線調(diào)整為俯視坐標(biāo)系中的二值化圖像，來對目標(biāo)軌跡幾何形狀進(jìn)行建模。該曲線的寬度被設(shè)定為和本車寬度相等。我們用類似定義碰撞損失的方式，通過預(yù)測的本車邊界框和二值化的目標(biāo)軌跡幾何圖像Geomgt的重疊率，度量這種與目標(biāo)軌跡幾何形狀相關(guān)的損失。邊界框的任何不與目標(biāo)幾何軌跡重疊的部分，都將被轉(zhuǎn)化為懲罰值并加入損失函數(shù)中。

圖6：在樣例輸入上將預(yù)測和損失函數(shù)可視化。上面一行是輸入的分辨率，而下面一行是當(dāng)前智能體位置周圍的放大視圖。

5.2.4 附加損失

與預(yù)測本車軌跡類似，循環(huán)網(wǎng)絡(luò)也可以用來預(yù)測其他交通參與者。因此我們添加了一個感知循環(huán)網(wǎng)絡(luò)PerceptionRNN，它使用FeatureNet創(chuàng)建的共享特征F和它自己在前一次迭代預(yù)測的heatmap:Objk-1作為輸入，并預(yù)測每次迭代的heatmap:Objk。Objk(x,y)表示k時刻位置(x,y)被動態(tài)物體占據(jù)的概率。對于k=0的迭代步，使用動態(tài)對象的真值數(shù)據(jù)輸入到PerceptionRNN中。

表1：本文中進(jìn)行的實驗的參數(shù)值

表2：在NVIDIA Tesla P100 GPU 上的運行表現(xiàn)

5.3 Imitation Dropout

總的來說我們的損失可能分為兩組。模仿?lián)p失如下：

環(huán)境損失如下：

模仿?lián)p失導(dǎo)致模型模仿合理駕駛的示范行為，而環(huán)境損失抑制了諸如碰撞等不良行為。為了進(jìn)一步增加環(huán)境損失的有效性，我們試驗時使用了具有隨機(jī)退出機(jī)制的模仿?lián)p失，稱為"imitation dropout"。在實驗中我們證明"imitation dropout"相比于簡單地降低模仿?lián)p失的權(quán)重，可以得到更好的駕駛模型。在"imitation dropout"過程中，每個訓(xùn)練樣本的模仿?lián)p失wimit被按照一定的概率隨機(jī)置為0或1。整體損失由下式給出：

6. 總結(jié)

在本文中，我們介紹了讓模仿學(xué)習(xí)在現(xiàn)實世界的完成駕駛?cè)蝿?wù)也能擁有良好表現(xiàn)的研究經(jīng)驗。我們發(fā)現(xiàn)成功的關(guān)鍵在于，在合理駕駛行為的基礎(chǔ)上附加擾動合成出各種駕駛情形，并增加適當(dāng)?shù)膿p失來抑制不良的行為。這些改進(jìn)可以使模型學(xué)會如何避免發(fā)生碰撞和駛離道路，即使這些情形在合理駕駛的樣本中很少出現(xiàn)。為了支持這一點，并更好地利用合理駕駛的數(shù)據(jù)，我們使用了中級的輸入和輸出表示，從而輕松混合真實和仿真數(shù)據(jù)并減輕學(xué)習(xí)感知和控制的負(fù)擔(dān)?；谶@些要素我們得到了一個足以駕駛真實車輛的模型。雖然該模型還沒有完全實現(xiàn)與運動規(guī)劃方法展開競爭，但我們認(rèn)為這是機(jī)器學(xué)習(xí)駕駛模型邁出的一大步。通過在模擬中探索罕見和困難的情景，對合理的駕駛行為進(jìn)行徹底的增強(qiáng)（也許是在強(qiáng)化學(xué)習(xí)框架中完成），將是提高這些模型的性能并將其用于具有高度交互性的交通場景的關(guān)鍵。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：碰撞=罰分！
上一篇：用戶滿意度提升 | NVH提升大作戰(zhàn)

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動單元性能變化的分布式驅(qū)動智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運	• eVTOL/飛行汽車→低噪聲氣動設(shè)計與主動降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個！電動汽車電耗限值強(qiáng)制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

谷歌ChauffeurNet:訓(xùn)練能夠魯棒地駕駛實車的網(wǎng)絡(luò)

微信公眾號

編輯推薦

最新資訊

“汽車爬坡試驗方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對機(jī)動車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對后下部防護(hù)裝置的工程化約

聯(lián)合國法規(guī)R57對摩托車前照燈配光性能的工