日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

虛-實和實-虛的場景圖像合成方法

2022-12-20 14:11:07·  來源:計算機視覺深度學(xué)習(xí)和自動駕駛  作者:黃浴  
 
虛-實圖像合成方法即使是最復(fù)雜的游戲,其實時渲染依然?法實現(xiàn)真實的現(xiàn)實場景,?眼?眼就能分辨模擬圖像和真實圖像。Intel的工作EPE(Enhancing Photorealistic Enhancement)【1】利?游戲引擎渲染過程中產(chǎn)?的中間結(jié)果G-Buffers,作為訓(xùn)練卷積神經(jīng)?絡(luò)的
  1. 虛-實圖像合成方法

即使是最復(fù)雜的游戲,其實時渲染依然?法實現(xiàn)真實的現(xiàn)實場景,??眼就能分辨模擬圖像和真實圖像。Intel的工作EPEEnhancing Photorealistic Enhancement)【1】利?游戲引擎渲染過程中產(chǎn)?的中間結(jié)果G-Buffers,作為訓(xùn)練卷積神經(jīng)?絡(luò)的額外輸?信號,可進(jìn)?步增強游戲中圖像的真實性。不直接?成數(shù)據(jù),?是在已經(jīng)渲染的圖像上進(jìn)?增強,集成場景信息來合成?何和語義?致的圖像。

EPE中,卷積網(wǎng)絡(luò)利用傳統(tǒng)渲染流水線生成中間表征G-buffers,提供景深、形狀、光照、透明度、材質(zhì)等特征信息;通過對抗目標(biāo)訓(xùn)練,在多個感知層提供監(jiān)督信號,用GAN的鑒別器評估增強圖像的真實性;在訓(xùn)練過程中對圖像塊進(jìn)行采樣,以消除圖像偽影。

其網(wǎng)絡(luò)模型有兩個改進(jìn)點:

1)普通卷積取代strided convolution;

2)渲染-覺察非規(guī)范化(rendering-aware denormalization, RAD)模塊,取代BN層。

如圖所示EPE的總體框架:圖像增強網(wǎng)絡(luò)(Image Enhancement Network)可以轉(zhuǎn)換渲染的圖像,除了圖像,還有來自傳統(tǒng)圖形學(xué)流水線的渲染信息G-buffer,網(wǎng)絡(luò)提取多尺度G- buffer特征張量,由G-buffer編碼器網(wǎng)絡(luò)(Encoder)編碼;通過LPIPSLearned Perceptual Image Patch Similarity)損失保持渲染圖像的結(jié)構(gòu),以及感知鑒別器(Perceptual Discriminator)最大化增強圖像的真實性,這樣聯(lián)合訓(xùn)練兩個網(wǎng)絡(luò)。


圖片

如圖是圖像增強網(wǎng)絡(luò)架構(gòu):讓RAD模塊替換HRNet中的BN層,形成一個RAD-塊(RB);HRNet每個分支,在匹配尺度接收一個G-buffer特征張量。

RAD通過來自傳統(tǒng)渲染流水線的編碼幾何、材質(zhì)、照明和語義信息來調(diào)整圖像特征張量。圖像特征通過Group Normalization進(jìn)行歸一化,然后通過每個元素權(quán)重進(jìn)行尺度伸縮和移位。學(xué)習(xí)權(quán)重并適應(yīng)G- buffer編碼器接收的G- buffer特征。為了更好地適應(yīng)權(quán)重,通過每個RAD模塊內(nèi)的三個殘差塊來變換G-buffer特征。



圖片

如圖是G-buffer編碼器網(wǎng)絡(luò)架構(gòu)圖:考慮不同的數(shù)據(jù)類型和G- buffer的不同空間密度,通過多個流(0–c)處理這些特征,融合到一個和one-hot編碼目標(biāo)ID一致的聯(lián)合表征中;通過殘差塊進(jìn)一步變換特征;與圖像增強網(wǎng)絡(luò)中的分支,尺度做到匹配。

G-buffer編碼器和RAD模塊中,都采用殘差塊:由卷積層(核大小為3)組成,具有頻譜歸一化(spectral normalization)和ReLU

圖片

如圖是感知鑒別器網(wǎng)絡(luò)架構(gòu)圖:感知鑒別器評估增強圖像的真實性,其由預(yù)訓(xùn)練的魯棒分割(MSeg)和感知(VGG)網(wǎng)絡(luò)(綠色)組成;通過標(biāo)簽圖和感知特征張量提供高級語義信息;圖和張量被鑒別器網(wǎng)絡(luò)獲取,產(chǎn)生真實感分?jǐn)?shù)圖。

圖片

2. 實-虛圖像合成方法

當(dāng)前的圖像仿真工作要么無法實現(xiàn)真實感,要么無法模擬3D環(huán)境和其中的動態(tài)目標(biāo),從而失去了高級控制和物理真實感。GeoSim2】是Uber提出的一種幾何-覺察圖像合成過程,從其他場景提取動態(tài)目標(biāo)以新姿態(tài)渲染,增強現(xiàn)有圖像,合成新自動駕駛場景。

其構(gòu)建一個具有真實幾何形狀和傳感器數(shù)據(jù)外觀的多樣化3D目標(biāo)庫。在仿真過程中,合成方法完成幾何-覺察的模擬工作:

1.       在給定場景放置合理真實的目標(biāo),

2.       從資產(chǎn)庫中得到動態(tài)目標(biāo)新視圖,

3.       合成和混合渲染該圖像。

生成的合成圖像具有真實感、交通-覺察和幾何一致性,允許擴展到復(fù)雜用例??缍鄠€攝像頭傳感器進(jìn)行遠(yuǎn)程逼真視頻模擬,數(shù)據(jù)生成結(jié)果做下游任務(wù)數(shù)據(jù)增強。

如圖所示是為自動駕駛通過幾何-覺察合成的真實感視頻仿真:一種數(shù)據(jù)驅(qū)動的圖像處理方法,將動態(tài)目標(biāo)插入現(xiàn)有視頻中。生成的合成視頻片段是高度逼真、布局清晰且?guī)缀我恢?,允許圖像模擬擴展到復(fù)雜用例。

圖片

首先通過執(zhí)行3D目標(biāo)檢測和跟蹤來推斷場景中所有目標(biāo)的位置。對于要插入的每個新目標(biāo),根據(jù)高清地圖和現(xiàn)有檢測的交通,選擇放置位置以及使用哪個目標(biāo)模型。然后,為新放置的目標(biāo)使用智能駕駛員模型(IDM),為了使其運動逼真,考慮與其他參與者的交互并避免碰撞。該過程的輸出定義了要呈現(xiàn)的新場景。然后,用具有3D遮擋推理的新視圖渲染,對場景中的所有元素進(jìn)行渲染,在新圖像中創(chuàng)建新目標(biāo)的外觀。最后,用神經(jīng)網(wǎng)絡(luò)來填充插入目標(biāo)的邊界,創(chuàng)建任何丟失的紋理并處理不一致的照明。

如圖是3D目標(biāo)放置、片段檢索和仿真示意圖:3D-覺察場景表征、碰撞-覺察的位置設(shè)定和視頻仿真概覽。

圖片

希望在現(xiàn)有的圖像中放置新目標(biāo),保證在規(guī)模、位置、方向和運動方面都是合理的。為了實現(xiàn)這一目標(biāo),利用城市中車輛行為的先驗信息。用2D目標(biāo)插入很難實現(xiàn)類似的真實感水平。因此,用有BEV車道位置的高清地圖,目標(biāo)位置參數(shù)化為BEV目標(biāo)中心和方向三元組,隨后用局部地面高程將其轉(zhuǎn)換為6DoF姿態(tài)。

目標(biāo)樣本應(yīng)該與現(xiàn)有目標(biāo)有真實的物理交互,符合交通流,并在攝像頭的視野中可見。為了實現(xiàn)這一點,從攝像頭視野內(nèi)的車道區(qū)域中隨機采樣一個位置,并從車道中檢索方向。拒絕所有導(dǎo)致與其他參與者或背景目標(biāo)碰撞的樣本,最后得到目標(biāo)在初始幀的放置。為模擬視頻模擬中隨時間推移的合理位置,用智能駕駛員模型(IDM)擬合運動模型,更新模擬目標(biāo)的狀態(tài),與周圍交通進(jìn)行真實交互。

插入的目標(biāo)必須遵守現(xiàn)有場景元素的遮擋關(guān)系。例如,植被、柵欄和其他動態(tài)目標(biāo)可能具有不規(guī)則或薄的邊界,使遮擋原因復(fù)雜化。一種簡單的策略是,將插入目標(biāo)的深度與現(xiàn)有3D場景的深度圖進(jìn)行比較,確定目標(biāo)場景中插入目標(biāo)及其陰影的遮擋,如圖10-41所示:為了實現(xiàn)這一點,首先通過一個深度補全網(wǎng)絡(luò)(depth completion)估計目標(biāo)圖像的密集深度圖。輸入是RGB圖像和通過激光雷達(dá)掃描投影到圖像上而獲取的稀疏深度圖。用這個目標(biāo)的渲染深度,評估目標(biāo)圖像的深度是否小于相應(yīng)目標(biāo)像素的深度,可計算得到遮擋掩碼。

在遮擋推理之后,渲染的圖像可能看起來仍然不真實,因為插入片段可能是與目標(biāo)場景不一致的照明和顏色平衡、還有邊界處的差異,以及來源視圖的缺失區(qū)域。為了解決這些問題,用圖像合成網(wǎng)絡(luò)(SynNet)將源片段自然地混合到目標(biāo)場景,如圖所示:網(wǎng)絡(luò)將目標(biāo)背景圖像、渲染的目標(biāo)物體(target object)以及目標(biāo)輪廓作為輸入,并輸出自然合成背景和渲染目標(biāo)的最終圖像。


圖片

合成網(wǎng)絡(luò)架構(gòu)類似于圖像補全網(wǎng)絡(luò),只是將渲染的目標(biāo)掩碼作為附加輸入。網(wǎng)絡(luò)用目標(biāo)場景中實例分割掩碼圖像進(jìn)行訓(xùn)練。

3 參考文獻(xiàn)

【1】S R. Richter, H Ab Alhaija, and V Koltun,“Enhancing Photorealistic Enhancement“(EPE),IEEE T-PAMI,2021

【2】Y Chen, F Rong,S Duggal, S Wang,X Yan,S Manivasagam,S Xue,E Yumer,R Urtasun,“GeoSim: Realistic Video Simulation via Geometry-Aware Composition for Self-Driving“,arXiv 2101.06543,2021 

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25