StopNet：為城市自動駕駛的可擴展軌跡預測和占有預測方法

2022-06-05 00:52:36· 來源：計算機視覺深度學習和自動駕駛作者：黃浴

arXiv2022年6月2日上傳論文“StopNet: Scalable Trajectory and Occupancy Prediction for Urban Autonomous Driving“，來自韓國的朝鮮大學和谷歌WayMo。介紹了

arXiv2022年6月2日上傳論文“StopNet: Scalable Trajectory and Occupancy Prediction for Urban Autonomous Driving“，來自韓國的朝鮮大學和谷歌WayMo。

介紹了一種運動預測（行為預測）方法，StopNet，如圖所示，在不犧牲準確性的情況下滿足密集城市環(huán)境自動駕駛的延遲要求。全場景的稀疏輸入表征，允許StopNet擴展到數(shù)百個帶可靠延遲道路智體的預測軌跡。

除了預測軌跡外，場景編碼器還可以預測全場景的概率占用網(wǎng)格（occupancy grids），作為一種適用于繁忙城市環(huán)境的補充輸出表征。占用網(wǎng)格允許自動駕駛車輛共同推理智體群的行為，而無需處理其中智體各自軌跡。

在三個數(shù)據(jù)集證明了稀疏輸入表征和模型在計算和準確性方面的有效性。按照標準指標，聯(lián)合訓練一致的軌跡和占用率預測改善了性能。

自動駕駛車輛（AV）需要不斷評估這個所有來自其他道路智體未來可能運動所在的空間，以便能夠為其自己維護安全有效的運動規(guī)劃。此運動預測和重新規(guī)劃任務是AV連續(xù)執(zhí)行的眾多過程之一，因此至關重要的是，要在期待的延遲要求下完成。

另一方面，在密集的城市環(huán)境中運行時，AV可能會在其視野內遇到數(shù)百個動態(tài)智體的場景，要考慮在有大量行人的體育或音樂場館旁邊駕駛。在這種環(huán)境中自動駕駛需要一個運動預測和規(guī)劃系統(tǒng)要 1）快速2）隨智體數(shù)量擴展。

現(xiàn)有的運動預測方法不能滿足上述要求。模型通常需要40-50ms以上的時間進行推斷。這種可擴展問題在公開基準測試中沒有得到解決，在報告中經(jīng)常被忽略。提出的方法通常使用光柵（基于渲染的）輸入表示法，這需要昂貴的CNN進行處理。

最近，有人提出基于稀疏點的輸入表征方法，比如矢量圖。這些方法提高了精度，減少了模型參數(shù)的數(shù)量。然而，為了提高準確性，這些方法采取以智體為中心（agent- centric）的場景表征，需要從每個智體角度重新編碼道路點和智體點。這些方法的延遲隨著推理智體的數(shù)量呈線性增長，因此不適合繁忙的城市環(huán)境。

這項工作StopNet，是一種關注延遲和擴展性的運動預測方法。開發(fā)一種新的全場景（Whole-scene）稀疏輸入表征，可以同時對包括所有智體的場景輸入進行編碼。借鑒3D目標檢測，開發(fā)一個PointPillars啟發(fā)的場景編碼器，其同時處理從所有智體中采樣的稀疏點，從而形成一個非?？焖俚能壽E預測模型，延遲則大多是對于智體數(shù)不變。

AV通常將預測軌跡和不確定性視為規(guī)劃約束，因此在繁忙場景中規(guī)劃算法的延遲也會增加。StopNet的全場景編碼器還支持預測概率占用網(wǎng)格這種致密輸出格式，捕獲地圖中任何給定網(wǎng)格單元被某個智體部分占用的概率。

這種輸出表征允許AV規(guī)劃器對繁忙場景中全占有網(wǎng)格情況進行推理，無需去處理單個軌跡，因此需要幾乎恒定不變的計算操作。占用網(wǎng)格的另一個吸引人特性是，對檢測、跟蹤噪聲和忽隱忽現(xiàn)（flicker）等具有魯棒性，因為模型隨時間獨立于智體身份推理占用網(wǎng)格情況。

通過聯(lián)合訓練設置，StopNet也是第一個方法將軌跡集和占用網(wǎng)格統(tǒng)一為運動預測兩種原型。這些輸出表征與直觀一致性損失聯(lián)系在一起：當每個智體的軌跡輸出分布轉換為占有概率分布時，應該與總占有概率分布保持一致。這種方式進行聯(lián)合訓練的結果，可以獲得最先進的軌跡預測性能。

假設每個智體在任何時候都可以用一個有方向的邊框表示，給定場景中所有智體在固定數(shù)量輸入時間步的狀態(tài)觀測序列，軌跡預測任務，定義為對場景中的所有智體在固定時間范圍T預測未來位置。預測一組K軌跡，其中包括每個智體的相關概率，還預測了每個軌跡航點的二維高斯不確定性。

占用率預測任務定義為預測占用率網(wǎng)格。占用網(wǎng)格中的每個單元包含一個范圍[0,1]內值，表示在時間T任何一個智體邊框的任何部分與該網(wǎng)格單元重疊的概率。在BEV空間把未來智體邊框渲染為二進制圖，構建真值占用率網(wǎng)格。由于規(guī)劃器對不同的智體類的反應不同，要為每個智體類預測不同的占用網(wǎng)格。

如圖所示，設定以AV位置為中心的全場景坐標系，t=0。所有當前和過去的智體狀態(tài)（包括AV）都轉換到此固定坐標系。模型輸入包括三組點，每個都有相關的特征向量。智體點（車和行人）構建來自每個智體邊框內均勻采樣的固定數(shù)點。所有輸入時間步的智體點共存。每個智體點都帶有狀態(tài)屬性加一個one-hot編碼的時間。道路元素點從道路結構的直線和曲線中均勻采樣而得。每個道路點編碼位置和元素類型。紅綠燈點位于其控制的車道末端。屬性包括位置、時間和紅綠燈狀態(tài)。

如圖顯示StopNet體系結構的概覽：包括一個編碼器，一個ResNet主干網(wǎng)，還有兩個頭部用于解碼來自共享場景特征的軌跡和占用率預測。

受PointPillar的啟發(fā)，StopNet編碼器將點集P分解為x-y平面M×N柱的均勻網(wǎng)格。然后對每個柱的點進行增強，其中有到點平均的距離和到柱中心的偏移。然后，用PointNet的簡化版對每個支柱中所有點的特征進行編碼和聚合。特別是，應用線性全連接（FC）層，然后是BatchNorm和ReLU對每個點進行編碼。

在每個支柱內的所有點上應用max操作，計算每個支柱的特征向量，如下所示：

然后，編碼器生成的M×N特征圖通過ResNet主干進行處理，重塑為W×H，與在場景智體當前位置渲染的二進制占用網(wǎng)格連接在一起。接著，軌跡解碼器和占用網(wǎng)格解碼器共享生成的特征圖，生成模型的最終預測。

為預測軌跡，采用MultiPath的軌跡解碼器架構和損失函數(shù)。軌跡解碼器從全場景特征提取每個智體位置為中心的大小為11×11補丁，從而在每個智體基操作。請注意，雖然軌跡預測頭是以智體為中心，但模型計算的大部分是全場景，這決定了總處理時間。

軌跡解碼器使用一組固定的預聚類潛軌跡作為錨點集，通過最近歐氏距離為真值軌跡分配錨點。對于每個錨點，解碼器從錨點軌跡回歸每個航點delta，在每個時間步產(chǎn)生一個混合高斯（Gaussian mixture）。損失包括錨點的softmax交叉熵分類損失和錨點內平方L2回歸損失。

占用率網(wǎng)格解碼器，通過一個非常輕量級CNN一次處理全場景特征圖，在每個時間步t重復該CNN，為每個類生成occupancy logits作為單獨的通道。對logits應用sigmoid函數(shù)，獲得每個格的占用率。占用率損失定義為

除了對軌跡解碼器和占用率解碼器同訓練之外，一致性損失在鼓勵每個智體軌跡預測和全場景占用網(wǎng)格率之間的一致性是有用的。具有最高預測可能性的軌跡預測渲染為定向邊界框，并通過智體類聚合。與預測占用率輸出的一致性，計算類似于和真值的交叉熵計算。

模型最全面變型的損失函數(shù)總結如下

該數(shù)據(jù)集是Waymo Open Motion數(shù)據(jù)集的修訂版，重點關注擁擠場景。它包含超過1300萬個場景，跨越美國多個城市地區(qū)500多小時的真實駕駛。這些場景包含動態(tài)智體、交通燈和道路網(wǎng)絡信息。所有場景都包含至少20個動態(tài)智體。另外還測試了Interaction & Argoverse數(shù)據(jù)集。

訓練模型包括三種變型：MT僅使用軌跡損失進行訓練，MO僅使用占用率損失進行訓練，MTO使用聯(lián)合訓練和一致性損失。所有模型都使用Adam優(yōu)化器從頭開始訓練，學習率為0.0004，批處理大小為8。梯度范數(shù)剪裁為0.1以上。損失權重為λo=100.0、λs=1.0、λr=0.16和λc=10.0，使用 light grid search確定。

輸入FOV為160m×160m，對應AV的有效感知范圍為80m。編碼器使用M×N=80×80柱。從所有智體邊框的內部統(tǒng)一采樣8×8個輸入點。占用率解碼器的分辨率為W×H=400×400，預測未來在T=10個線性間隔時間段最多6秒的占用率，即T∈ {0.6, 1.2, . . . , 6.0}。

占有率測度采用soft IOU：

實驗結果如下：

如圖比較不同模型編碼器的（a）flops數(shù)量和（b）可學習參數(shù)數(shù)量（對數(shù)尺度）。紅色虛線突出顯示實驗中如上表的80×80柱配置。

如圖顯示StopNet的可擴展性：對于以智體為中心的模型，延遲隨智體數(shù)量而線性增長。

如圖是StopNet的占用率預測和軌跡預測示例：左四列是真值和預測占用率網(wǎng)格可視化為彩色編碼的等高線（從紅色表示近期到紫色表示遠期），其中每個等高線包含概率>0.5的值。右列：對于軌跡，不同顏色映射到不同智體。虛線表示道路點，黑框表示t=0時智體的當前位置。

如圖比較占用率預測模型MO與車輛占用率預測中軌跡模型MT的兩個版本，即采用有高斯和無高斯的不確定性訓練。雖然MO直接預測占有率，但MT模型的前六條軌跡輸出已轉換（渲染）為占有率網(wǎng)格表示。結果表明，豐富的非參數(shù)表征更適合于占有率預測。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：韓泰輪胎在韓國的新試驗場 Technoring
上一篇：燃料電池的效率、功率與溫度有什么關系

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關閱讀

0 條相關評論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預期功能安全應該覆蓋	• 大推力直驅技術助力EPS安全測試，為你的安全出行 “保駕護
• 單機體積，雙倍效能！激光切割機玩轉“降本增效”	• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬
• 即刻探索8臺機器人如何解放數(shù)百名工人！	• 考慮驅動單元性能變化的分布式驅動智能車輛強化學習增強運
• eVTOL/飛行汽車→低噪聲氣動設計與主動降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

StopNet：為城市自動駕駛的可擴展軌跡預測和占有預測方法

微信公眾號

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價格

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標準立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

StopNet：為城市自動駕駛的可擴展軌跡預測和占有預測方法

微信公眾號

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價格

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標準立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

開年豪擲1.8億搶用戶，又一車企加入“價格

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將