日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

DeepRoad-基于GAN的圖片轉(zhuǎn)換以及蛻變測試技術(shù)

2020-06-28 21:47:30·  來源:自動駕駛測試驗證技術(shù)創(chuàng)新論壇  
 
論文閱讀:DeepRoad: GAN-based metamorphic testing and input validation framework for autonomous driving systems作者提出了一種針對自動駕駛系統(tǒng)的基于GAN
論文閱讀:
DeepRoad: GAN-based metamorphic testing and input validation framework for autonomous driving systems
作者提出了一種針對自動駕駛系統(tǒng)的基于GAN的蛻變測試以及輸入驗證框架。主要是為了解決自動駕駛領(lǐng)域的安全問題,具體點說就是當(dāng)進(jìn)行自動駕駛系統(tǒng)的測試的時候,很難獲取到匹配的圖像數(shù)據(jù)。比如說,你給自動駕駛系統(tǒng)一段路的晴天圖像時,系統(tǒng)運(yùn)行良好,然而此時你想測試雪天場景下系統(tǒng)的魯棒性,但沒有同一段路的雪天場景數(shù)據(jù),若給到另一段路的雪天圖像,又難以進(jìn)行對比測試(涉及蛻變測試概念)?;诖?,作者提出了解決方案。
 
讀完論文之后,比較有收獲的是了解了蛻變測試概念,關(guān)于圖像轉(zhuǎn)換技術(shù),作者貌似也只是使用了別人給出的已有方法,而且有點語焉不詳(也可能就是我沒看懂而已……)。
 
1. 問題定義
基于DNN的自動駕駛系統(tǒng)發(fā)生錯誤可能致命,為了解決基于DNN的自動駕駛系統(tǒng)的安全問題,最近出現(xiàn)了一些測試技術(shù),可以從原始圖像自動生成駕駛場景來增加測試用例,然而由于以下局限,這些測試技術(shù)是不夠的。
 
1.1 這些技術(shù)合成的圖像缺乏真實世界的多樣性
作者給出了已有的一些測試技術(shù),分析了其缺陷所在。
① DeepXplore
◆ 一種深度學(xué)習(xí)系統(tǒng)的自動白箱測試方法
◆ 通過“哄騙”系統(tǒng)犯錯,以暴露神經(jīng)網(wǎng)絡(luò)中的缺陷
② DeepTest
◆ 通過簡單的仿射變換和模糊化/霧/雨等各種效果濾波器對原始圖像進(jìn)行變換
 
上圖是從論文中引用的合成圖像,a存在彩色補(bǔ)丁,b存在多個黑洞,c存在黑色邊線,都影響了圖像質(zhì)量。此外,對于圖d,它似乎是通過簡單地調(diào)暗原始圖像并將其與加擾的“煙霧”效應(yīng)混合而得到的,它違背了霧氣密度變化的事實。類似地,在圖e中,DeepTest只是通過在原始圖像上添加一組線條來模擬雨。
這些事實表明,很難確定錯誤駕駛行為是由基于DNN的模型的缺陷引起的,還是由于測試技術(shù)本身的不足造成的。這些圖像轉(zhuǎn)換技術(shù)只能生成相似的圖像,而不能復(fù)雜地合成不同風(fēng)格的圖像,從而限制了測試用例的多樣性。
1.2 自動駕駛系統(tǒng)基于機(jī)器學(xué)習(xí),所以當(dāng)訓(xùn)練數(shù)據(jù)和應(yīng)用領(lǐng)域數(shù)據(jù)不匹配的時候會大幅度降低系統(tǒng)精度
傳統(tǒng)軟件往往需要驗證輸入,比如Web應(yīng)用需要檢查和過濾非法和惡意的輸入。
但據(jù)我們所知,目前基于DNN的系統(tǒng)缺乏驗證輸入(例如驅(qū)動場景的圖像),因而容易造成系統(tǒng)脆弱性。具體來說,無效的輸入,如駕駛場景中的異常圖像,會嚴(yán)重降低預(yù)測精度,大大增加基于DNN的系統(tǒng)的風(fēng)險。
例如,假設(shè)一個基于DNN的自動駕駛系統(tǒng)被訓(xùn)練在一個數(shù)據(jù)集上,該數(shù)據(jù)集只包含陽光下駕駛場景的圖像。對于系統(tǒng)沒有經(jīng)過訓(xùn)練的領(lǐng)域外輸入(例如駕駛場景的雨天圖像),很有可能導(dǎo)致系統(tǒng)輸出錯誤的控制信號,從而給司機(jī)和乘客帶來危險。
2. 解決方案
文章提出了DeepRoad框架,主要包括兩個模塊:蛻變測試模塊(DeepRoadMT)和輸入驗證模塊(DeepRoadIV)。
2.1 蛻變測試模塊
采用了一種基于生成對抗性網(wǎng)絡(luò)(GAN)的技術(shù)來合成各種天氣條件下的駕駛場景,并開發(fā)了基于DNN的自動駕駛系統(tǒng)的蛻變測試(metamorphic Testing)系統(tǒng)。
① 蛻變測試
蛻變測試:是一種用來緩解**“測試準(zhǔn)則問題”的軟件測試技術(shù)。當(dāng)測試人員對于所選擇的測試用例難以確定預(yù)期的正確結(jié)果,或無法判定程序輸出是否滿足預(yù)期的結(jié)果時**,便認(rèn)為存在“測試準(zhǔn)則問題"。
蛻變關(guān)系:假設(shè)p是程序輸入映射到程序輸出的程序數(shù)學(xué)表示,也就是有p[i] = o時,那么假設(shè)fi和 fo代表對輸入和輸出域進(jìn)行特定轉(zhuǎn)換的函數(shù),滿足下列關(guān)系:
 
一個或多個用來驗證系統(tǒng)或待實現(xiàn)函數(shù)的必要屬性(稱為蛻變關(guān)系)的后續(xù)測試用例可以被構(gòu)造出來,然后判斷源測試用例和后續(xù)測試用例產(chǎn)生的輸出是否在蛻變關(guān)系下一致。任何不一致的輸出表示了程序的實現(xiàn)中存在缺陷。
◆ 舉例蛻變測試
拿正弦函數(shù)舉例,正弦函數(shù)存在如下蛻變關(guān)系:
 
那么,根據(jù)這兩個變換關(guān)系,可以根據(jù)一個測試用例,構(gòu)造出兩個蛻變測試用例:
 
由以上蛻變測試的定義,文章給出了基于DNN的自動駕駛系統(tǒng)的蛻變關(guān)系:
 
公式含義:對于任一輸入圖像i,做某種圖像變換τ,經(jīng)過DNN預(yù)測的轉(zhuǎn)向角應(yīng)該相同。
② 圖像變換
使用UNIT (Unsupervised image-to-image translation network)
 
上圖顯示了UNIT的結(jié)構(gòu),S1和S2表示兩個不同的區(qū)域(例如晴天和雨天駕駛場景),E1和E2表示兩個自動編碼器,它們將從s1和s2的圖像投影到共享的潛在空間Z。
假設(shè)x1和x2是一對圖像,它們共享相同的內(nèi)容。理想情況下,E1和E2將它們編碼到相同的潛在向量z,并且可以由兩個結(jié)構(gòu)域特異的生成器G1和G2分別將其翻譯回S1和S2。
D1和D2是檢測圖像是否分別屬于S1和S2的兩個鑒別器。具體來說,它們被期望區(qū)分輸入圖像是從目標(biāo)域(例如真實圖像)取樣還是由訓(xùn)練有素的生成器(例如合成圖像)產(chǎn)生。
基于自動編碼器和生成器,UNIT可以用于兩個域之間的圖像轉(zhuǎn)換。例如,圖像x1可以通過G2(E1(X1)轉(zhuǎn)換為S2。
 
在圖5中,DeepRoadMT首先從兩個目標(biāo)域(例如,晴天和大雪天氣下駕駛場景的數(shù)據(jù)集)獲取未配對的訓(xùn)練圖像,并通過優(yōu)化損失函數(shù),利用UNIT將兩個域投影到相同的潛空間。訓(xùn)練結(jié)束后,DeepRoadmt使用經(jīng)過良好訓(xùn)練的模型,將整個晴天駕駛場景的數(shù)據(jù)集轉(zhuǎn)換為多雪天氣。具體來說,給出陽光天氣I下的任何圖像,DeepRoadMT通過E1將其編碼為矢量Zi,并使用G2合成在大雪天氣下的相應(yīng)版本τ(I)。DeepRoadMT將每一對真實和合成的駕駛場景圖像提供給被測試的自主駕駛系統(tǒng),即DNN,并比較它們的預(yù)測結(jié)果DNN?τ(I)?和DNN?I?來檢測任何不一致的行為。
2.2 輸入驗證模塊
我們可以定義一個輸入驗證(Input Validation)標(biāo)準(zhǔn),比如輸入數(shù)據(jù)應(yīng)該是任何大小為640*480的RGB圖像,或者任何輸入數(shù)據(jù)應(yīng)該存在于訓(xùn)練數(shù)據(jù)集中,以保證其正確性。但是,第一條準(zhǔn)則太弱,無法提高系統(tǒng)的魯棒性,而第二條準(zhǔn)則太強(qiáng),使得系統(tǒng)缺乏通用性。
文章提到Probably Approximately Correct (PAC)學(xué)習(xí)理論,即不要求進(jìn)行零誤差的預(yù)測,而要求誤差在一定范圍內(nèi);不要求對所有樣本都能預(yù)測成功,而要求預(yù)測誤差在一定范圍內(nèi)。
根據(jù)PAC學(xué)習(xí)理論,文章給出輸入驗證標(biāo)準(zhǔn):輸入數(shù)據(jù)I應(yīng)該從訓(xùn)練數(shù)據(jù)D中取值(從D中采樣輸入I的概率應(yīng)該大于預(yù)定義的閾值θ)。
 
使用VGGNet提取其內(nèi)容和風(fēng)格特征
選擇卷積層conv 4_2和conv 5_3分別提取內(nèi)容和樣式特征。成為彩色網(wǎng)格F 4_2和 F 5_3,表示從VGGNet中提取的內(nèi)容特征,樣式特征G 5_3由Gram matrix計算
注意,這些彩色網(wǎng)格只是用來可視化的。它們的尺寸與實際輸出不匹配
然后,矩陣F 4_2和G 5_3轉(zhuǎn)換到特征向量V,對所有的圖像都進(jìn)行這樣的處理,然后進(jìn)行PCA主成分分析進(jìn)行降維。在圖6中,我們將目標(biāo)維度設(shè)置為2。所處理的數(shù)據(jù)Y是在二維平面上給出的,藍(lán)色和紅色節(jié)點分別表示訓(xùn)練和在線駕駛圖像。最后,DeepRoadIV計算訓(xùn)練數(shù)據(jù)與每個在線I之間的最小距離。拒絕對距離大于某一閾值的圖像進(jìn)行預(yù)測。
3. 實驗設(shè)計
3.1 數(shù)據(jù)準(zhǔn)備
◆ 圖像數(shù)據(jù)
1.使用Udacity發(fā)布的真實世界數(shù)據(jù)集作為基線。
2.選擇了兩集高速駕駛視頻,視頻中可以觀察到不同幀間照明和道路狀況的明顯變化。
3.為了訓(xùn)練UNIT模型,從YouTube收集極端場景的圖像。在實驗中,我們選擇了大雪和大雨這兩種極端的天氣條件。
4.為了使采集到的圖像的差別比較大,我們只搜索超過20分鐘的視頻。
5.在大雨的情況下,視頻記錄了雨刷刮過擋風(fēng)玻璃,這可能會降低合成圖像的質(zhì)量。因此,在數(shù)據(jù)預(yù)處理階段,手動檢查和過濾這些圖像。
6.在實驗中使用的所有圖像都被裁剪并調(diào)整為320*240。
7.對YouTube視頻進(jìn)行了低采樣,以跳過內(nèi)容接近的連續(xù)幀。
◆ 自動駕駛系統(tǒng)
選擇 Udacity 社區(qū)中的Autumn、Chauffeur和Rwightman三種基于DNN的自動駕駛模型進(jìn)行測試,其中Rwightman的模型細(xì)節(jié)并不公開,但是,類似于黑匣子測試,我們的方法旨在檢測模型的不一致性,因此,Rwightman仍用于測試。
3.2 實驗度量
◆ 一致性度量:
 
如果其轉(zhuǎn)向角預(yù)測值在修正后的某一誤差范圍內(nèi),則該系統(tǒng)的行為是一致的。
其中DNN表示自動駕駛模型,I表示真實的駕駛數(shù)據(jù)集,i表示I中的第i個圖像,τ表示能夠改變天氣狀況的圖像生成器/轉(zhuǎn)換器。f是一個指示函數(shù),當(dāng)輸入是true的時候返回1,false的時候返回0,而?是錯誤閾值。
◆ 輸入驗證度量:
 
首先,為了平衡輸入數(shù)據(jù)和訓(xùn)練數(shù)據(jù),我們從在線駕駛場景中收集M個圖像作為輸入數(shù)據(jù),從訓(xùn)練數(shù)據(jù)集中隨機(jī)選取M個圖像作為訓(xùn)練數(shù)據(jù)。第二,為了估計出更穩(wěn)定的距離,我們平均每幅圖像的最小k個距離來表示它們的相似之處。同時使用L2范數(shù)來改善過擬合。
4. 實驗結(jié)果
 
從上圖可以看出,從質(zhì)量上講,GAN生成的圖像在視覺上與從YouTube視頻中收集的圖像相似,它們還可以保存原始圖像的主要語義信息(如樹和道路的形狀)。雪天天空相對較暗,雨天清晰度相對較低,與DeepTest有明顯對比。
 
在上圖中,每一行分別顯示雪和雨的場景。在每個子圖中藍(lán)色標(biāo)題表示模型名稱,而紅色和綠色曲線分別表示真實圖像和合成圖像上預(yù)測的轉(zhuǎn)向角。這些曲線將預(yù)測結(jié)果可視化。
從圖中我們可以看到,模型Autumn(前兩列)在兩個場景中都有最高的不一致數(shù);相比之下,模型Rwightman(最后2列)是不同場景下最穩(wěn)定的模型。這表明,DeepRoadmt能夠在不同的道路場景下發(fā)現(xiàn)真實世界中的自動駕駛不一致的行為。例如,像Autumn或Chauffeur 這樣的模型(它們在Udacity挑戰(zhàn)中的排名都高于Rwightman)可能在陽光明媚的日子里工作得很好,但在雨天或下雪的日子里,可能撞到路邊或者更糟糕的——迎面而來的汽車。
 
圖10顯示了DeepRoadIV關(guān)于晴天、多雨的結(jié)果還有雪景。具體來說,圖10的前三張圖分別顯示了晴天、雨天和雪景的結(jié)果。橙色和藍(lán)色點表示取樣t雨和相應(yīng)的輸入圖像。
結(jié)果表明,晴天和訓(xùn)練圖像的分布比較接近,而雨雪圖像則遠(yuǎn)離聚類,和訓(xùn)練圖像線性可分,陽光下的圖像較分散,而雨雪圖像較緊湊。究其原因,可能是由于雨雪圖像的紋理統(tǒng)一,內(nèi)容相對貧乏,使得圖像之間的距離較小。。然而,陽光圖像的光照條件和內(nèi)容比較多樣,因此距離很遠(yuǎn)。此外,從圖10d中,我們發(fā)現(xiàn)晴天圖像分布的距離主要在0~3之間,而幾乎所有雨雪圖像的距離都大于2。那么取閾值為2.5時,DeepRoadIV可以檢測到100%的降雨,85%的降雪圖像和21%的晴天圖像中的離群點作為無效輸入,有效地提高了系統(tǒng)的魯棒性。
4. 可信性威脅
**內(nèi)部有效性威脅:**在本工作中,對內(nèi)部有效性的主要威脅是我們的技術(shù)實現(xiàn)中的潛在缺陷。為了減少這些威脅,在實現(xiàn)DeepRoadMT時,我們使用了UNIT的原始實現(xiàn)以確保DeepRoadMT的性能。此外,在DeepRoadIV的實現(xiàn)中,我們從PyTorch網(wǎng)站下載了經(jīng)過預(yù)先培訓(xùn)的VGGNet權(quán)重,而不是在ImageNet上進(jìn)行培訓(xùn)。
**外部有效性威脅:**外部有效性的威脅主要來自于圖像質(zhì)量、數(shù)據(jù)集和自動駕駛模型。
1.我們?nèi)狈υu價圖像質(zhì)量(即真實性)的良好標(biāo)準(zhǔn)。在本文中,我們將讓讀者檢查他們的質(zhì)量。這種方法相當(dāng)直截了當(dāng),但不那么客觀。Salimans等人建議的 Inception 評分法來評價合成圖像的質(zhì)量,然而,經(jīng)過證明,在比較生成模型(如GANs)時,Inception 評分不能提供有用的指導(dǎo)。
2.Udacity上的數(shù)據(jù)集相對較小,自動駕駛模型比較簡單。假如數(shù)據(jù)集足夠大,則可以訓(xùn)練一個更復(fù)雜、更健壯的模型,從而顯著地減少不一致行為。
3.自動駕駛系統(tǒng)是非常復(fù)雜的,而在這項工作中,我們只關(guān)注了轉(zhuǎn)向角的準(zhǔn)確性。
5. 總結(jié)
本文提出了一種無監(jiān)督學(xué)習(xí)框架DeepRoad,用于合成真實的駕駛場景來測試基于DNN的自動駕駛系統(tǒng)的不一致行為(DeepRoadMT),并對在線輸入圖像進(jìn)行驗證(DeepRoadIV)。
在三個真實的Udacity自動駕駛模型上的實驗結(jié)果表明,DeepRoad能夠成功地檢測出數(shù)千種不一致行為。此外,結(jié)果還表明DeepRoad可以有效地驗證輸入圖像,從而提高系統(tǒng)的魯棒性。
 
 
分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25