一篇關(guān)于廣義OOD檢測(cè)的最新綜述

2022-01-17 19:21:12· 來(lái)源：計(jì)算機(jī)視覺(jué)深度學(xué)習(xí)和自動(dòng)駕駛作者：黃浴

arXiv在2021年10月21日上傳的論文“Generalized Out-of-Distribution Detection: A Survey“，作者來(lái)自新加坡的南洋理工大學(xué)（NTU）和美國(guó)的威斯康星大學(xué)Madison

arXiv在2021年10月21日上傳的論文“Generalized Out-of-Distribution Detection: A Survey“，作者來(lái)自新加坡的南洋理工大學(xué)（NTU）和美國(guó)的威斯康星大學(xué)Madison分校。

OOD（Out-of-distribution）檢測(cè)對(duì)確保機(jī)器學(xué)習(xí)系統(tǒng)的可靠性和安全性至關(guān)重要。例如，在自動(dòng)駕駛中，希望駕駛系統(tǒng)在檢測(cè)以前從未見過(guò)的異常場(chǎng)景或目標(biāo)并且無(wú)法做出安全決策時(shí)，要發(fā)出警報(bào)并將控制權(quán)移交給人（安全員）。

OOD檢測(cè)已經(jīng)開發(fā)了大量方法，從基于分類的、基于密度的、到基于距離的方法。同時(shí)，其他幾個(gè)問(wèn)題在動(dòng)機(jī)和方法論方面都與 OOD 檢測(cè)密切相關(guān)。包括異常檢測(cè) (AD，anomaly detection)、新穎性檢測(cè) (ND，novelty detection)、開放集識(shí)別 (OSR，open set recognition) 和異常值檢測(cè) (OD，outlier detection)。盡管有不同的定義和問(wèn)題設(shè)置，這些問(wèn)題經(jīng)常使大家感到困惑。

該綜述提出了一個(gè)廣義 OOD 檢測(cè)的通用框架，包含上述五個(gè)問(wèn)題，即 AD、ND、OSR、OOD 檢測(cè)和 OD。這五個(gè)問(wèn)題，可以看作是該框架的特例或子任務(wù)。

現(xiàn)有的機(jī)器學(xué)習(xí)模型大多基于封閉世界假設(shè)進(jìn)行訓(xùn)練，其中假設(shè)測(cè)試數(shù)據(jù)是來(lái)自與訓(xùn)練數(shù)據(jù)相同的分布，稱為in-distribution (ID)。然而，當(dāng)模型部署在開放世界場(chǎng)景時(shí)，測(cè)試樣本可能是OOD。分布漂移可能由語(yǔ)義漂移（例如，OOD 樣本來(lái)自不同類）或covariate shift（例如，來(lái)自不同域的 OOD 樣本）引起。這里主要討論語(yǔ)義漂移檢測(cè)。

綜述聚焦于計(jì)算機(jī)視覺(jué)和基于深度學(xué)習(xí)的方法，基本分成4個(gè)類：

1) 基于密度的方法
2) 基于重建的方法
3) 基于分類的方法
4) 基于距離的方法

如圖是本文提出的廣義OOD檢測(cè)框架：包括 anomaly 檢測(cè) (AD), novelty 檢測(cè) (ND), open set 識(shí)別 (OSR), out-of- distribution 檢測(cè) (OOD)和outlier 檢測(cè) (OD) 。

Taxonomy of generalized OOD detection framework

異常檢測(cè) (AD)

AD旨在檢測(cè)在測(cè)試期間偏離預(yù)定義正態(tài)性的任何異常樣本。偏差可能由于covariate shift或語(yǔ)義漂移而發(fā)生，同時(shí)假設(shè)其他分布漂移不存在。這帶來(lái)兩個(gè)子任務(wù)：感官 AD 和語(yǔ)義 AD。

感官AD 檢測(cè) covariate shift 的測(cè)試樣本，基于正態(tài)性來(lái)自相同協(xié)變量分布的假設(shè)。語(yǔ)義 AD 檢測(cè)有標(biāo)簽漂移的測(cè)試樣本，基于正態(tài)性來(lái)自相同的語(yǔ)義分布（類別）假設(shè)，即正態(tài)性應(yīng)該只屬于一個(gè)類。

感官AD 僅關(guān)注具有相同或相似語(yǔ)義的目標(biāo)，并識(shí)別其表面的觀測(cè)差異。具有感官差異的樣品被識(shí)別為感官異常。示例應(yīng)用包括對(duì)抗防衛(wèi)、biometrics和藝術(shù)品的偽造識(shí)別、圖像取證、工業(yè)檢查等。一種流行的現(xiàn)實(shí)世界 AD 基準(zhǔn)是用于工業(yè)檢測(cè)的 MVTec。

與感覺(jué) AD 相比，語(yǔ)義 AD 只關(guān)注語(yǔ)義漂移，不存在covariate shift。實(shí)際應(yīng)用的一個(gè)例子是犯罪監(jiān)控。特定類的活躍圖像爬蟲也需要語(yǔ)義 AD 方法來(lái)確保收集的圖像純度。

新穎性檢測(cè)（ND）

ND旨在檢測(cè)不屬于任何訓(xùn)練類別的任意測(cè)試樣本。檢測(cè)的新樣本通常是為未來(lái)的建設(shè)性程序準(zhǔn)備，例如更專業(yè)的分析，或模型本身的步進(jìn)學(xué)習(xí)（incremental learning）。根據(jù)訓(xùn)練類數(shù)目，ND 包含兩種不同的設(shè)置：1）只一個(gè)類的新穎性檢測(cè)（one-class ND）；2）多個(gè)類新穎性檢測(cè)（multi-class ND）。值得注意的是，盡管有很多in-distribution（ID）類，但多個(gè)類 ND 的目標(biāo)只是將新樣本與in-distribution區(qū)分開來(lái)。一個(gè)類ND和多個(gè)類 ND 都被表述為二元分類問(wèn)題。

真實(shí)世界的 ND 應(yīng)用包括視頻監(jiān)控、行星探索和步進(jìn)學(xué)習(xí)。

開放集識(shí)別 (OSR，open set recognition)

OSR 要求多類分類器：（1）同時(shí)準(zhǔn)確分類來(lái)自“已知的已知類”的測(cè)試樣本，以及（2）同時(shí)檢測(cè)來(lái)自“未知的未知類”的測(cè)試樣本。

OSR 通常支持真實(shí)世界圖像分類器的穩(wěn)健部署，其拒絕開放世界的未知樣本。

OOD（Out-of-distribution）檢測(cè)

OOD檢測(cè)旨在檢測(cè)相對(duì)訓(xùn)練數(shù)據(jù)不重疊標(biāo)簽的測(cè)試樣本。形式上，OOD 檢測(cè)設(shè)置中的測(cè)試樣本來(lái)自in-distribution（ID）語(yǔ)義漂移的分布。這個(gè)in-distribution（ID）數(shù)據(jù)可以包含單個(gè)類或多個(gè)類。當(dāng)訓(xùn)練中存在多個(gè)類時(shí)，OOD 檢測(cè)不應(yīng)損害其in-distribution（ID）數(shù)據(jù)分類能力。

OOD檢測(cè)的應(yīng)用通常屬于安全-緊要情況，例如自動(dòng)駕駛。在構(gòu)建算法基準(zhǔn)時(shí)，OOD 數(shù)據(jù)集不應(yīng)與in-distribution（ID）數(shù)據(jù)集有標(biāo)簽重疊。

異常值檢測(cè)（OD）

OD旨在檢測(cè)由于covariate shift或語(yǔ)義漂移與給定觀察集中其他樣本明顯不同的樣本。

雖然OD主要應(yīng)用于數(shù)據(jù)挖掘任務(wù)，但也用于現(xiàn)實(shí)世界的計(jì)算機(jī)視覺(jué)應(yīng)用，如視頻監(jiān)控和數(shù)據(jù)集清理。數(shù)據(jù)集清理的應(yīng)用，OD通常用作主要任務(wù)的預(yù)處理步驟，例如從開放集噪聲標(biāo)簽中學(xué)習(xí)、微監(jiān)督學(xué)習(xí)（webly supervised learning）和開放集半監(jiān)督學(xué)習(xí)。

如圖是廣義OOD檢測(cè)框架的實(shí)例問(wèn)題設(shè)置概覽：

Exemplar problem settings for tasks under generalized OOD detection framework

盡管 OSR 和實(shí)際使用具有關(guān)聯(lián)性，但仍然存在一些限制，比如在訓(xùn)練期間不允許額外的數(shù)據(jù)，以及對(duì)理論開放風(fēng)險(xiǎn)界限的必要保證。這些限制排除了更注重有效性改進(jìn)但可能違反 OSR 約束的方法。另一方面，OOD 檢測(cè)包含更廣泛的學(xué)習(xí)任務(wù)和解決方案空間。

有趣的是，異常值檢測(cè)（OD）任務(wù)可以被視為廣義 OOD 檢測(cè)框架中的異常值，因?yàn)楫惓Ｖ禉z測(cè)器（OD）是給定所有觀察值，而不是遵循訓(xùn)練-測(cè)試方案。此外，在最近的深度學(xué)習(xí)領(lǐng)域很少看到這個(gè)主題的文章發(fā)表。然而，從直觀上講異常值也屬于一種OOD。

相關(guān)的研究題目有以下5個(gè)領(lǐng)域：

帶拒絕的學(xué)習(xí)
域自適應(yīng)和域泛化
新穎性發(fā)現(xiàn)
零樣本學(xué)習(xí)
開放世界識(shí)別（持續(xù)學(xué)習(xí)）

如下表是綜述所選文獻(xiàn)的廣義OOD檢測(cè)方法類別：

1 異常檢測(cè) (AD) 和單類新穎性檢測(cè)（ND）

基于密度的方法試圖對(duì)正常數(shù)據(jù)分布 (ID) 進(jìn)行建模，并假設(shè)異常測(cè)試數(shù)據(jù)有低似然，而估計(jì)密度模型下的正常數(shù)據(jù)有高似然。其方法可細(xì)分成經(jīng)典密度估計(jì)、深度生成模型的密度估計(jì)、基于能量的方法和基于頻率的方法。

基于重構(gòu)方法的核心思想是，在 ID 數(shù)據(jù)上訓(xùn)練的編碼器-解碼器框架通常會(huì)為 ID 和 OOD 樣本產(chǎn)生不同的結(jié)果。模型性能的差異可以用作檢測(cè)異常的指標(biāo)。模型性能的差異可以在特征空間或通過(guò)重構(gòu)誤差來(lái)衡量。

基于分類的方法包括單類分類、正-無(wú)標(biāo)注（PU）學(xué)習(xí)和自監(jiān)督學(xué)習(xí)。異常檢測(cè)（AD ）和單類新穎性檢測(cè)（ND ）通常被表述為一個(gè)無(wú)監(jiān)督學(xué)習(xí)問(wèn)題，其中整個(gè) ID 數(shù)據(jù)屬于一個(gè)類。分類器邊界的想法已成功實(shí)現(xiàn)并標(biāo)記為單類分類任務(wù)。PU學(xué)習(xí)是引入未標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練的半監(jiān)督異常檢測(cè)（AD）。自監(jiān)督學(xué)習(xí)方法從兩個(gè)方面解決異常檢測(cè)（AD ）和單類新穎性檢測(cè)（ND）問(wèn)題：（1）特征質(zhì)量的增強(qiáng)可提高 AD 性能；(2) 一些設(shè)計(jì)良好的代理任務(wù)可以幫助揭示正常樣本的異常數(shù)據(jù)。

基于距離的方法通過(guò)計(jì)算目標(biāo)樣本與許多內(nèi)部存儲(chǔ)樣本或原型之間的距離來(lái)檢測(cè)異常。這些方法通常需要內(nèi)存訓(xùn)練數(shù)據(jù)。代表性方法包括 K-nearest Neighbors、基于原型的方法，以及基于聚類的方法和基于圖的方法。

基于梯度的方法屬于元學(xué)習(xí)或?qū)W習(xí)如何學(xué)習(xí)，根據(jù)學(xué)到的經(jīng)驗(yàn)或元數(shù)據(jù)，系統(tǒng)地觀察所學(xué)習(xí)任務(wù)或模型的內(nèi)部機(jī)制。為了解決異常檢測(cè)（AD ）任務(wù)，一些方法觀察在重構(gòu)任務(wù)中正常和異常數(shù)據(jù)之間訓(xùn)練梯度的不同模式，因此基于梯度的表征可以描述異常數(shù)據(jù)。

2 多個(gè)類新穎性檢測(cè)（ND）和開放集識(shí)別（OSR）

由于多個(gè)類 ND 和 OSR 在訓(xùn)練期間考慮多個(gè)類，因此大多數(shù)方法都是基于分類。替代方法可以是基于 ID 原型（距離）和基于重構(gòu)，還有少量基于密度的方法。

基于分類的OSR方法，最初展示的是One-class SVM 和binary SVM。后來(lái)One-vs-Set SVM 處理開放集的風(fēng)險(xiǎn)是通過(guò)求解雙平面優(yōu)化問(wèn)題而不是經(jīng)典二元線性分類器的半空間。除了限制 ID 風(fēng)險(xiǎn)之外，還應(yīng)該限制開放集空間。

基于距離的OSR方法要求原型是類條件的，即允許保持 ID 分類性能?；陬悇e的聚類和原型設(shè)計(jì)，往往是基于分類器提取的視覺(jué)特征。OOD樣本計(jì)算相對(duì)聚類群的距離來(lái)檢測(cè)。一些方法還利用對(duì)比學(xué)習(xí)為已知類學(xué)習(xí)更緊湊的聚類群，這也擴(kuò)大了 ID樣本和 OOD 樣本之間的距離。

基于重建的方法期望 ID 與 OOD 樣本的重建行為不同?？稍?）潛特征空間或2）重建圖像的像素空間捕獲差異。

注：由于僅限于用 ID 數(shù)據(jù)進(jìn)行訓(xùn)練的限制，OSR 方法沒(méi)有實(shí)現(xiàn)背景類別或異常值的暴露。

3 OOD檢測(cè)

基于分類的OOD檢測(cè)起源于一個(gè)簡(jiǎn)單的基線方法，即最大softmax概率作為ID數(shù)據(jù)指標(biāo)得分。早期的 OOD 檢測(cè)方法側(cè)重于根據(jù)神經(jīng)網(wǎng)絡(luò)的輸出得出改進(jìn)的 OOD 分?jǐn)?shù)。

基于密度OOD檢測(cè)方法使用一些概率模型明確地對(duì)分布進(jìn)行建模，并將低密度區(qū)域的測(cè)試數(shù)據(jù)標(biāo)記為 OOD。盡管 OOD 檢測(cè)與異常檢測(cè)（AD）的不同之處在于分布中有多個(gè)類，但用于AD 的密度估計(jì)方法將 ID 數(shù)據(jù)統(tǒng)一為整體直接適用于OOD檢測(cè)。當(dāng) ID 包含多個(gè)類時(shí)，類條件高斯分布可以顯式地對(duì)ID進(jìn)行建模，這樣根據(jù)似然去識(shí)別OOD 樣本。

基于流的方法也可用于概率建模。雖然直接估計(jì)似然似乎自然，但一些工作發(fā)現(xiàn)概率模型有時(shí)會(huì)為 OOD 樣本分配更高的似然。總體而言，生成模型的訓(xùn)練和優(yōu)化可能具有極高的挑戰(zhàn)性，并且性能通常落后于基于分類的方法。

基于距離方法的基本思想是測(cè)試 OOD 樣本應(yīng)該遠(yuǎn)離ID類的質(zhì)心或原型。

4 異常點(diǎn)檢測(cè)（OD）

異常值檢測(cè)需要觀察所有樣本，旨在檢測(cè)那些顯著偏離大多數(shù)分布的樣本。OD 方法通常是transductive，而不是歸納（inductive）。雖然深度學(xué)習(xí)方法很少直接解決 OD 問(wèn)題，但數(shù)據(jù)清理過(guò)程是從開放集噪聲數(shù)據(jù)中學(xué)習(xí)，而開放集的半監(jiān)督學(xué)習(xí)正在解決 OD 任務(wù)。

基于密度的OD，其基本思想將整個(gè)數(shù)據(jù)集建模為高斯分布，并標(biāo)記出與平均值至少有三個(gè)標(biāo)準(zhǔn)偏差（three standard deviations）的樣本。其他參數(shù)概率方法利用馬氏距離和混合高斯分布來(lái)模擬數(shù)據(jù)密度。與“三個(gè)標(biāo)準(zhǔn)偏差”規(guī)則類似，四分位距（interquartile range）也可用于識(shí)別異常值，形成經(jīng)典的非參數(shù)概率方法。局部異常值因子 (LOF，Local outlier factor) 通過(guò)自身及其鄰域局部可達(dá)之比估計(jì)給定點(diǎn)的密度。

RANSAC迭代估計(jì)數(shù)學(xué)模型參數(shù)擬合數(shù)據(jù)并找到對(duì)估計(jì)貢獻(xiàn)較小的樣本作為異常值。通常，用于AD 的經(jīng)典密度方法，例如核密度估計(jì)也適用于 OD。盡管這些方法受到維度災(zāi)難（curse of dimensionality）的影響，但可以通過(guò)降維方法和基于 NN 的密度方法來(lái)緩解。

基于距離檢測(cè)異常值，一種簡(jiǎn)單方法是計(jì)算特定半徑內(nèi)的鄰域樣本數(shù)量，或測(cè)量第 k 個(gè)最近的鄰域樣本距離，包括基于聚類群的方法和基于圖的方法。

AD 方法（例如孤立森林和OC-SVM）也適用于 OD 的設(shè)置。當(dāng)數(shù)據(jù)集有多類時(shí)，深度學(xué)習(xí)模型——用異常值訓(xùn)練——仍然可以顯示強(qiáng)大的預(yù)測(cè)能力并識(shí)別異常值。使用大型預(yù)訓(xùn)練模型進(jìn)行數(shù)據(jù)清理在行業(yè)中也很常見。增強(qiáng)模型魯棒性和特征泛化性的技術(shù)可用于此任務(wù)，例如集成法、協(xié)同訓(xùn)練和蒸餾等。

各種方法發(fā)表時(shí)間表如圖所示：（a）異常檢測(cè)（OD）和單類新穎性檢測(cè)的代表性方法；（b）多個(gè)類新穎性檢測(cè)和開放集識(shí)別；（c）OOD 檢測(cè)。不同的顏色表示不同類別的方法論。每個(gè)方法在右下角都有其對(duì)應(yīng)的參考文獻(xiàn)（不顯眼的白色）。由于深度學(xué)習(xí)時(shí)代計(jì)算機(jī)視覺(jué)方面的工作數(shù)量有限，沒(méi)有在該圖列出異常值檢測(cè)（OD）方法。

最后說(shuō)說(shuō)廣義OOD檢測(cè)的挑戰(zhàn)和未來(lái)研究方向。

挑戰(zhàn)有幾點(diǎn)：

合適的評(píng)估和基準(zhǔn)
無(wú)異常點(diǎn)的OOD檢測(cè)
分類和OOD檢測(cè)的權(quán)衡
真實(shí)世界基準(zhǔn)和評(píng)估

未來(lái)方向包括：

跨各子任務(wù)的方法論
OO D檢測(cè)和泛化
OOD檢測(cè)和開發(fā)集含噪標(biāo)注
理論分析

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：電驅(qū)剛體模態(tài)對(duì)某電動(dòng)車路噪的影響分析
上一篇：自動(dòng)駕駛4WS車輛路徑跟蹤最優(yōu)控制算法仿真

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個(gè)！電動(dòng)汽車電耗限值強(qiáng)制新規(guī)來(lái)了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

一篇關(guān)于廣義OOD檢測(cè)的最新綜述

微信公眾號(hào)

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國(guó)法規(guī)R59對(duì)機(jī)動(dòng)車備用消聲系統(tǒng)的工程

聯(lián)合國(guó)法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國(guó)法規(guī)R57對(duì)摩托車前照燈配光性能的工