日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

魚眼相機在自動駕駛環(huán)境感知的應(yīng)用和挑戰(zhàn)

2025-01-05 12:46:55·  來源:智駕社  作者:小明師兄  
 
五、公開數(shù)據(jù)集與研究方向

A. 數(shù)據(jù)集

構(gòu)建汽車領(lǐng)域的數(shù)據(jù)集成本高昂且耗時 [156],目前這是魚眼感知研究進展的主要瓶頸。在表 II 中,我們總結(jié)了已發(fā)布的魚眼相機數(shù)據(jù)集?!澳揪啊保╓oodScape)是一個利用四個魚眼相機圍繞本車進行 360 度感知的綜合性數(shù)據(jù)集。它旨在對當前僅提供窄視場角圖像的汽車數(shù)據(jù)集進行補充。其中,“KITTI”[157] 是一個具有不同類型任務(wù)的開創(chuàng)性數(shù)據(jù)集。它是首個全面的魚眼汽車數(shù)據(jù)集,能夠詳細評估諸如魚眼圖像分割、目標檢測以及運動分割等計算機視覺算法 [158]。環(huán)視數(shù)據(jù)集 “木景” 的合成變體是 “合成木景”(SynWoodScape)[139]。它彌補并擴展了 “木景” 的許多不足之處?!澳揪啊?的作者們無法收集像素級光流和深度的真實標注信息,因為無法同時使用四個相機對不同幀進行采樣。這意味著在 “合成木景” 中可以設(shè)想的多相機算法無法在 “木景” 中實現(xiàn)。

圖片

它包含來自合成數(shù)據(jù)集的 8 萬張帶有標注的圖像。

“KITTI 360°” 是一個郊區(qū)數(shù)據(jù)集,具有更廣泛的輸入模態(tài)、大量的語義實例標注以及精確的定位信息,有助于視覺、計算和機器人領(lǐng)域的研究。與 “木景”(WoodScape)相比,“KITTI 360°” 的不同之處在于它提供了時間上連貫的語義實例標注、三維激光掃描以及用于透視圖像和全向圖像推理的三維標注?!棒~眼城市景觀”(FisheyeCityScapes)[88] 提出了一種 7 自由度擴展,這是一種虛擬魚眼數(shù)據(jù)增強方法。該方法利用徑向畸變模型將直線數(shù)據(jù)集轉(zhuǎn)換為魚眼數(shù)據(jù)集,它合成了由處于不同方向、位置和焦距值的相機所拍攝的魚眼圖像,極大地提高了魚眼語義分割的泛化性能?!芭=驒C器人汽車”(Oxford RobotCar)[141] 是一個大規(guī)模數(shù)據(jù)集,側(cè)重于自動駕駛車輛的長期自主性。定位和地圖構(gòu)建是該數(shù)據(jù)集的主要任務(wù),它使得針對自動駕駛車輛和移動機器人的持續(xù)學習研究成為可能。

“西奧多”(THEODORE)[142] 是一個用于室內(nèi)場景的大型非汽車合成數(shù)據(jù)集,包含 10 萬張高分辨率、16 類不同的俯視魚眼圖像。為了創(chuàng)建該數(shù)據(jù)集,他們構(gòu)建了一個包含客廳、各種人物角色以及室內(nèi)紋理的三維虛擬環(huán)境。除了記錄來自虛擬環(huán)境的魚眼圖像外,作者們還為語義分割、實例掩碼以及用于目標檢測的邊界框構(gòu)建了標注信息?!叭坝^”(OmniScape)數(shù)據(jù)集包含安裝在摩托車上的兩個前置魚眼圖像和折反射立體 RGB 圖像,同時還記錄了語義分割、深度序列以及通過速度、角速度、加速度和方向體現(xiàn)的車輛動力學信息。它還包含超過 1 萬幀由《俠盜獵車手 5》(GTA V)和《卡拉》(CARLA)記錄的數(shù)據(jù),這些數(shù)據(jù)也可擴展到其他模擬器中。在 “皮羅波”(PIROPO)(使用透視和全向相機拍攝的室內(nèi)人員)項目中,利用全向相機和透視相機在兩個不同房間里記錄了圖像序列。這些序列展示了處于不同狀態(tài)(如行走、站立和坐著)的人員情況。其真實標注信息是以點為基礎(chǔ)的,并且同時提供了有標注和無標注的序列(場景中的每個人都由其頭部中心的一個點來表示),總共可獲取超過 10 萬張有標注的圖像幀。

“斯坦福行走”(Go Stanford)[145] 數(shù)據(jù)集包含來自 25 個以上室內(nèi)環(huán)境的大約 24 小時的視頻。該實驗側(cè)重于利用魚眼圖像對室內(nèi)可通行性進行估計?!癕o2Cap2”[146] 數(shù)據(jù)集用于在各種不受約束的日常活動中估計以自身為中心的人體三維姿態(tài)。該數(shù)據(jù)集旨在解決在現(xiàn)實世界無約束場景下進行諸如行走、騎自行車、做飯、體育運動以及辦公室工作等各種活動時的移動三維姿態(tài)估計難題。體育運動、動畫制作、醫(yī)療保健動作識別、運動控制以及性能分析等領(lǐng)域都能從這些三維姿態(tài)中受益。“LMS 魚眼”(LMS Fisheye)[147] 數(shù)據(jù)集旨在為研究人員提供視頻序列,以便開發(fā)和測試為魚眼相機開發(fā)的運動估計算法,它同時提供了由布蘭德(Blender)生成的合成序列以及由魚眼相機記錄的實際序列。

“自我捕捉”(EgoCap)[148] 是一個無標記、以自身為中心的實時動作捕捉數(shù)據(jù)集,用于通過安裝在頭盔上的輕型立體對魚眼相機進行全身骨骼姿態(tài)估計。

或是虛擬現(xiàn)實頭戴設(shè)備 —— 光學內(nèi)入法?!癓SD - SLAM”[122] 數(shù)據(jù)集源自一種新的實時單目同時定位與地圖構(gòu)建(SLAM)方法。它是完全直接的(即,它不使用關(guān)鍵點 / 特征),并且能夠在筆記本電腦上實時創(chuàng)建大規(guī)模的半稠密地圖。研究人員可以使用這個數(shù)據(jù)集來開展跟蹤(直接圖像對齊)和建圖(逐像素距離濾波)方面的工作,它能直接實現(xiàn)一個統(tǒng)一的全向模型,該模型能夠?qū)σ晥鼋谴笥?180° 的中心成像設(shè)備進行建模。

B. 研究方向


  • 畸變感知卷積神經(jīng)網(wǎng)絡(luò)(CNNs):卷積神經(jīng)網(wǎng)絡(luò)(CNNs)會自然地利用圖像網(wǎng)格中的平移不變性,而在魚眼圖像中,由于空間變化的畸變,這種平移不變性被打破了。已經(jīng)有人提出了球形卷積神經(jīng)網(wǎng)絡(luò)(Spherical CNNs)[93][159],它們可直接用于球形徑向畸變模型。然而,汽車鏡頭更為復雜,球形模型并不適用。將球形卷積神經(jīng)網(wǎng)絡(luò)推廣到更復雜的魚眼流形表面會是一個有趣的研究方向。核變換網(wǎng)絡(luò)(Kernel Transformer Networks)[95] 能有效地將卷積算子從透視投影轉(zhuǎn)換到全向圖像的等距柱狀投影,它更適合推廣到魚眼圖像上。

  • 處理時間變化:正如我們之前所討論的,由于徑向畸變導致外觀變化更大,魚眼相機的目標探測器的樣本復雜度有所增加。對于時間相關(guān)任務(wù)來說,這一情況更為嚴重,因為這些任務(wù)需要在兩幀圖像之間匹配特征,而這兩幀圖像可能存在兩種不同的畸變。例如,在魚眼相機的情況下,目標跟蹤和重識別的難度顯著增加。跟蹤一個從靜態(tài)相機左側(cè)移動到右側(cè)的行人,就需要處理因徑向畸變而產(chǎn)生的較大外觀變化。同樣,對于一個靜止的行人,相機的水平和垂直運動也會導致較大的變化。對于像跟蹤這類的點特征對應(yīng)問題來說,這也是一個挑戰(zhàn)。一種解決方案可能是將徑向畸變明確地嵌入到特征向量中,以便在匹配時加以利用。

  • 鳥瞰視角感知:在自動駕駛中,將圖像上的檢測結(jié)果提升到三維空間是至關(guān)重要的。通常是通過逆透視映射(IPM)[160] 來實現(xiàn)這一點的,該方法假定地面是平坦的。也可以通過使用深度估計或與三維傳感器進行融合來增強這一效果 [161]。近來有一種趨勢是在網(wǎng)絡(luò)中隱式地使用逆透視映射,直接輸出三維結(jié)果 [162][163]。通常是通過使用一個可學習的校正層來轉(zhuǎn)換抽象的編碼器特征,以此作為在輸入層面執(zhí)行逆透視映射的替代方法來實現(xiàn)的。由于卷積神經(jīng)網(wǎng)絡(luò)擁有更多的上下文信息,而且可學習的變換可以更加靈活,所以這種方法比逐像素的逆透視映射效果更好 [163]。對于針孔相機而言,逆透視映射是一種線性變換,設(shè)計編碼器特征的空間變換器相對容易。然而,對于魚眼相機來說,逆透視映射是一個復雜的非線性算子,直接在鳥瞰視角空間中輸出結(jié)果仍然是一個有待解決的問題。

  • 多相機建模:目前大多數(shù)環(huán)視相機方面的工作都是將四個相機中的每一個獨立對待,并執(zhí)行感知算法?;蛟S可以

  • 更理想的模型,所有四個環(huán)繞視野相機聯(lián)合。首先,它將幫助檢測通過兩個或三個攝像頭(前、左、后)可見的大型車輛(如運輸卡車)。其次,它消除了對在多個攝像機中看到的物體的重新識別(見圖10)和對單個檢測的后處理,形成了像車道模型一樣的統(tǒng)一輸出。多攝像機模型將更有效地聚合信息,產(chǎn)生更最優(yōu)的輸出。[164]開發(fā)了一種經(jīng)典的幾何方法,將多個相機視為單個相機。然而,最近有一些工作,利用多個攝像機作為輸入到一個單一的感知模型[163],[165]。他們利用了針孔相機與最小的重疊視野。為環(huán)繞視圖相機建模明顯更具挑戰(zhàn)性。


  • 圖片

    圖15。近場和遠場前攝像機圖像形成不對稱立體對。


  • 近場與遠場相機的統(tǒng)一建模:下一代自動駕駛系統(tǒng)的一種典型配置包含使用四個環(huán)視相機實現(xiàn)近場的 360 度全覆蓋,以及六個遠場相機(一個前置、一個后置、兩側(cè)各兩個)[166]。正如在第三章 B 節(jié)所討論的那樣,它們有著截然不同的視場角和探測范圍。因此,要對所有相機進行統(tǒng)一建模(這是對上述多相機建模的拓展)是頗具挑戰(zhàn)性的。圖 15 展示了車輛前部區(qū)域的近場和遠場圖像。它們構(gòu)成了一對非對稱立體像對,在此情況下,相較于存在根本性模糊問題、更具挑戰(zhàn)性的單目深度估計,深度能夠更容易地被計算出來。目前,還沒有同時包含近場和遠場相機的公開數(shù)據(jù)集來助力這項研究。

  • 分享到:
     
    反對 0 舉報 0 收藏 0 評論 0
    滬ICP備11026917號-25