日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

首頁 > 汽車技術 > 正文

StopNet:為城市自動駕駛的可擴展軌跡預測和占有預測方法

2022-06-05 00:52:36·  來源:計算機視覺深度學習和自動駕駛  作者:黃浴  
 
arXiv2022年6月2日上傳論文“StopNet: Scalable Trajectory and Occupancy Prediction for Urban Autonomous Driving“,來自韓國的朝鮮大學和谷歌WayMo。介紹了

arXiv2022年6月2日上傳論文“StopNet: Scalable Trajectory and Occupancy Prediction for Urban Autonomous Driving“,來自韓國的朝鮮大學和谷歌WayMo。

圖片


介紹了一種運動預測(行為預測)方法,StopNet,如圖所示,在不犧牲準確性的情況下滿足密集城市環(huán)境自動駕駛的延遲要求。全場景的稀疏輸入表征,允許StopNet擴展到數(shù)百個帶可靠延遲道路智體的預測軌跡。


除了預測軌跡外,場景編碼器還可以預測全場景的概率占用網(wǎng)格(occupancy grids),作為一種適用于繁忙城市環(huán)境的補充輸出表征。占用網(wǎng)格允許自動駕駛車輛共同推理智體群的行為,而無需處理其中智體各自軌跡。


在三個數(shù)據(jù)集證明了稀疏輸入表征和模型在計算和準確性方面的有效性。按照標準指標,聯(lián)合訓練一致的軌跡和占用率預測改善了性能。

圖片


自動駕駛車輛(AV)需要不斷評估這個所有來自其他道路智體未來可能運動所在的空間,以便能夠為其自己維護安全有效的運動規(guī)劃。此運動預測和重新規(guī)劃任務是AV連續(xù)執(zhí)行的眾多過程之一,因此至關重要的是,要在期待的延遲要求下完成。


另一方面,在密集的城市環(huán)境中運行時,AV可能會在其視野內遇到數(shù)百個動態(tài)智體的場景,要考慮在有大量行人的體育或音樂場館旁邊駕駛。在這種環(huán)境中自動駕駛需要一個運動預測和規(guī)劃系統(tǒng)要 1)快速2)隨智體數(shù)量擴展。


現(xiàn)有的運動預測方法不能滿足上述要求。模型通常需要40-50ms以上的時間進行推斷。這種可擴展問題在公開基準測試中沒有得到解決,在報告中經(jīng)常被忽略。提出的方法通常使用光柵(基于渲染的)輸入表示法,這需要昂貴的CNN進行處理。


最近,有人提出基于稀疏點的輸入表征方法,比如矢量圖。這些方法提高了精度,減少了模型參數(shù)的數(shù)量。然而,為了提高準確性,這些方法采取以智體為中心(agent- centric)的場景表征,需要從每個智體角度重新編碼道路點和智體點。這些方法的延遲隨著推理智體的數(shù)量呈線性增長,因此不適合繁忙的城市環(huán)境。


這項工作StopNet,是一種關注延遲和擴展性的運動預測方法。開發(fā)一種新的全場景(Whole-scene)稀疏輸入表征,可以同時對包括所有智體的場景輸入進行編碼。借鑒3D目標檢測,開發(fā)一個PointPillars啟發(fā)的場景編碼器,其同時處理從所有智體中采樣的稀疏點,從而形成一個非??焖俚能壽E預測模型,延遲則大多是對于智體數(shù)不變。


AV通常將預測軌跡和不確定性視為規(guī)劃約束,因此在繁忙場景中規(guī)劃算法的延遲也會增加。StopNet的全場景編碼器還支持預測概率占用網(wǎng)格這種致密輸出格式,捕獲地圖中任何給定網(wǎng)格單元被某個智體部分占用的概率。


這種輸出表征允許AV規(guī)劃器對繁忙場景中全占有網(wǎng)格情況進行推理,無需去處理單個軌跡,因此需要幾乎恒定不變的計算操作。占用網(wǎng)格的另一個吸引人特性是,對檢測、跟蹤噪聲和忽隱忽現(xiàn)(flicker)等具有魯棒性,因為模型隨時間獨立于智體身份推理占用網(wǎng)格情況。


通過聯(lián)合訓練設置,StopNet也是第一個方法將軌跡集和占用網(wǎng)格統(tǒng)一為運動預測兩種原型。這些輸出表征與直觀一致性損失聯(lián)系在一起:當每個智體的軌跡輸出分布轉換為占有概率分布時,應該與總占有概率分布保持一致。這種方式進行聯(lián)合訓練的結果,可以獲得最先進的軌跡預測性能。


假設每個智體在任何時候都可以用一個有方向的邊框表示,給定場景中所有智體在固定數(shù)量輸入時間步的狀態(tài)觀測序列,軌跡預測任務,定義為對場景中的所有智體在固定時間范圍T預測未來位置。預測一組K軌跡,其中包括每個智體的相關概率,還預測了每個軌跡航點的二維高斯不確定性。


占用率預測任務定義為預測占用率網(wǎng)格。占用網(wǎng)格中的每個單元包含一個范圍[0,1]內值,表示在時間T任何一個智體邊框的任何部分與該網(wǎng)格單元重疊的概率。在BEV空間把未來智體邊框渲染為二進制圖,構建真值占用率網(wǎng)格。由于規(guī)劃器對不同的智體類的反應不同,要為每個智體類預測不同的占用網(wǎng)格。


如圖所示,設定以AV位置為中心的全場景坐標系,t=0。所有當前和過去的智體狀態(tài)(包括AV)都轉換到此固定坐標系。模型輸入包括三組點,每個都有相關的特征向量。智體點(車和行人)構建來自每個智體邊框內均勻采樣的固定數(shù)點。所有輸入時間步的智體點共存。每個智體點都帶有狀態(tài)屬性加一個one-hot編碼的時間。道路元素點從道路結構的直線和曲線中均勻采樣而得。每個道路點編碼位置和元素類型。紅綠燈點位于其控制的車道末端。屬性包括位置、時間和紅綠燈狀態(tài)。

圖片


如圖顯示StopNet體系結構的概覽:包括一個編碼器,一個ResNet主干網(wǎng),還有兩個頭部用于解碼來自共享場景特征的軌跡和占用率預測。

圖片


受PointPillar的啟發(fā),StopNet編碼器將點集P分解為x-y平面M×N柱的均勻網(wǎng)格。然后對每個柱的點進行增強,其中有到點平均的距離和到柱中心的偏移。然后,用PointNet的簡化版對每個支柱中所有點的特征進行編碼和聚合。特別是,應用線性全連接(FC)層,然后是BatchNorm和ReLU對每個點進行編碼。


在每個支柱內的所有點上應用max操作,計算每個支柱的特征向量,如下所示:

圖片


然后,編碼器生成的M×N特征圖通過ResNet主干進行處理,重塑為W×H,與在場景智體當前位置渲染的二進制占用網(wǎng)格連接在一起。接著,軌跡解碼器和占用網(wǎng)格解碼器共享生成的特征圖,生成模型的最終預測。


為預測軌跡,采用MultiPath的軌跡解碼器架構和損失函數(shù)。軌跡解碼器從全場景特征提取每個智體位置為中心的大小為11×11補丁,從而在每個智體基操作。請注意,雖然軌跡預測頭是以智體為中心,但模型計算的大部分是全場景,這決定了總處理時間。


軌跡解碼器使用一組固定的預聚類潛軌跡作為錨點集,通過最近歐氏距離為真值軌跡分配錨點。對于每個錨點,解碼器從錨點軌跡回歸每個航點delta,在每個時間步產(chǎn)生一個混合高斯(Gaussian mixture)。損失包括錨點的softmax交叉熵分類損失和錨點內平方L2回歸損失。


占用率網(wǎng)格解碼器,通過一個非常輕量級CNN一次處理全場景特征圖,在每個時間步t重復該CNN,為每個類生成occupancy logits作為單獨的通道。對logits應用sigmoid函數(shù),獲得每個格的占用率。占用率損失定義為

圖片


除了對軌跡解碼器和占用率解碼器同訓練之外,一致性損失在鼓勵每個智體軌跡預測和全場景占用網(wǎng)格率之間的一致性是有用的。具有最高預測可能性的軌跡預測渲染為定向邊界框,并通過智體類聚合。與預測占用率輸出的一致性,計算類似于和真值的交叉熵計算。


模型最全面變型的損失函數(shù)總結如下

圖片


該數(shù)據(jù)集是Waymo Open Motion數(shù)據(jù)集的修訂版,重點關注擁擠場景。它包含超過1300萬個場景,跨越美國多個城市地區(qū)500多小時的真實駕駛。這些場景包含動態(tài)智體、交通燈和道路網(wǎng)絡信息。所有場景都包含至少20個動態(tài)智體。另外還測試了Interaction & Argoverse數(shù)據(jù)集。


訓練模型包括三種變型:MT僅使用軌跡損失進行訓練,MO僅使用占用率損失進行訓練,MTO使用聯(lián)合訓練和一致性損失。所有模型都使用Adam優(yōu)化器從頭開始訓練,學習率為0.0004,批處理大小為8。梯度范數(shù)剪裁為0.1以上。損失權重為λo=100.0、λs=1.0、λr=0.16和λc=10.0,使用 light grid search確定。


輸入FOV為160m×160m,對應AV的有效感知范圍為80m。編碼器使用M×N=80×80柱。從所有智體邊框的內部統(tǒng)一采樣8×8個輸入點。占用率解碼器的分辨率為W×H=400×400,預測未來在T=10個線性間隔時間段最多6秒的占用率,即T∈ {0.6, 1.2, . . . , 6.0}。


占有率測度采用soft IOU:

圖片


實驗結果如下:

圖片


如圖比較不同模型編碼器的(a)flops數(shù)量 和(b)可學習參數(shù)數(shù)量(對數(shù)尺度)。紅色虛線突出顯示實驗中如上表的80×80柱配置。

圖片


如圖顯示StopNet的可擴展性:對于以智體為中心的模型,延遲隨智體數(shù)量而線性增長。

圖片


圖片


如圖是StopNet的占用率預測和軌跡預測示例:左四列是真值和預測占用率網(wǎng)格可視化為彩色編碼的等高線(從紅色表示近期到紫色表示遠期),其中每個等高線包含概率>0.5的值。右列:對于軌跡,不同顏色映射到不同智體。虛線表示道路點,黑框表示t=0時智體的當前位置。

圖片


如圖比較占用率預測模型MO與車輛占用率預測中軌跡模型MT的兩個版本,即采用有高斯和無高斯的不確定性訓練。雖然MO直接預測占有率,但MT模型的前六條軌跡輸出已轉換(渲染)為占有率網(wǎng)格表示。結果表明,豐富的非參數(shù)表征更適合于占有率預測。

圖片



分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25