綜述：自動(dòng)駕駛應(yīng)用中知識(shí)增強(qiáng)的機(jī)器學(xué)習(xí)方法（一）

2022-05-16 00:07:02· 來源：計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛作者：黃浴

arXiv2022年5月10日上傳論文“Knowledge Augmented Machine Learning with Applications in Autonomous Driving: A Survey“，作者來自德國多個(gè)tier-1公司和一些

arXiv2022年5月10日上傳論文“Knowledge Augmented Machine Learning with Applications in Autonomous Driving: A Survey“，作者來自德國多個(gè)tier-1公司和一些研究所。

代表性數(shù)據(jù)集的存在是許多成功人工智能和機(jī)器學(xué)習(xí)模型的先決條件。然而，這些模型的后續(xù)應(yīng)用通常涉及訓(xùn)練數(shù)據(jù)中表現(xiàn)不充分的場(chǎng)景。其中原因是多方面的，從時(shí)間成本限制到倫理考慮等。因此，這些模型的可靠性，尤其是在安全-緊要的應(yīng)用情況，是一個(gè)巨大的挑戰(zhàn)。要克服純數(shù)據(jù)驅(qū)動(dòng)方法的局限性，并最終提高這些模型的泛化能力，關(guān)鍵在于利用額外的、已經(jīng)存在的知識(shí)來源。

此外，即使在表征性不足的場(chǎng)景，符合知識(shí)的預(yù)測(cè)對(duì)于做出可靠和安全的決策也至關(guān)重要。這項(xiàng)工作概述文獻(xiàn)中基于數(shù)據(jù)的模型和現(xiàn)有知識(shí)結(jié)合的現(xiàn)有技術(shù)和方法。已經(jīng)確定的方法按照類別集成、提取和整合進(jìn)行內(nèi)容編排。特別注意的是在自動(dòng)駕駛領(lǐng)域的應(yīng)用部分。

全文93頁，其中參考資料占了30頁，880個(gè)參考資料。

該文目錄如下：

數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)，首先是深度學(xué)習(xí)，已經(jīng)成為當(dāng)前絕大多數(shù)人工智能（AI）和機(jī)器學(xué)習(xí)（ML）應(yīng)用中的關(guān)鍵范例。許多監(jiān)督學(xué)習(xí)的模型，其出色性能主要?dú)w功于大量標(biāo)注數(shù)據(jù)的可用性。突出的例子是圖像分類和目標(biāo)檢測(cè)、序列數(shù)據(jù)處理以及決策。不利的一面是，這種前所未有的性能是以缺乏可解釋性和透明度為代價(jià)的，這也導(dǎo)致了所謂的黑盒模型，不允許簡(jiǎn)單直接的人工檢驗(yàn)。

因此，將數(shù)據(jù)驅(qū)動(dòng)的方法轉(zhuǎn)移到安全-緊要的應(yīng)用程序成為了一個(gè)重大挑戰(zhàn)。通常，在這些情況下，由于高獲取成本，或者至少出于倫理原因，標(biāo)記數(shù)據(jù)比較稀缺。此外，開發(fā)人員和用戶都假定需求能夠理解所部署模型推理的決策。為了解決這兩個(gè)問題，開發(fā)知識(shí)源的方式，如物理基本定律、邏輯數(shù)據(jù)庫、某些場(chǎng)景的常見行為或簡(jiǎn)單地反例等，是發(fā)展純數(shù)據(jù)驅(qū)動(dòng)模型去增強(qiáng)抗干擾能力、更好地泛化未知樣本、以及和安全可靠行為的現(xiàn)有原則保持一致的關(guān)鍵。

2.1 感知：作者是Rizvi, Munir, van Elst

計(jì)算機(jī)視覺方法和一般的機(jī)器學(xué)習(xí)（ML）方法在過去幾年中有了顯著的改進(jìn)。各種不同的方法能夠準(zhǔn)確地解釋圖像或視頻中呈現(xiàn)的情況。即使有了這樣的進(jìn)步，在某些情況下，ML方法的反應(yīng)與人類不同。造成這種差距的主要原因是所學(xué)模型缺乏背景知識(shí)。

ML方法只考慮訓(xùn)練數(shù)據(jù)中存在的模式，而人類擁有可以幫助他們更有力地解釋危急情況的隱性知識(shí)。在自動(dòng)駕駛場(chǎng)景，也是一般情況下，不可能針對(duì)道路上可能發(fā)生的每種情況去訓(xùn)練模型。為了給行人和自動(dòng)駕駛車輛提供更安全的環(huán)境，重要的是將知識(shí)并入負(fù)責(zé)做出重要決策的模塊中。

2.2 環(huán)境理解：作者是Bogdoll, Vivekanandan, Qureishi, Schunk

配備4級(jí)或5級(jí)自動(dòng)駕駛系統(tǒng)的車輛有望在其ODD內(nèi)掌握各種情況。由于許多情況在現(xiàn)實(shí)生活中并不經(jīng)常發(fā)生，基于ML的系統(tǒng)很難在已經(jīng)訓(xùn)練過的領(lǐng)域進(jìn)行推斷。因此，將基于規(guī)則/知識(shí)的算法和領(lǐng)悟，集成到ML系統(tǒng)中，這樣的混合方法有可能將兩個(gè)世界的最佳特性結(jié)合起來——出色的總體性能和對(duì)罕見情況（如極端案例）的改進(jìn)處理。

2.3 規(guī)劃：作者是Bu?hrle, Ko?nigshof, Vivekanandan, Nekolla

L5級(jí)自動(dòng)駕駛車輛，預(yù)計(jì)將在各種ODD發(fā)揮作用。雖然安全舒適駕駛的基本原則保持不變，但交通法規(guī)、習(xí)慣行為和場(chǎng)景結(jié)構(gòu)層面的具體實(shí)施可能會(huì)發(fā)生變化。將知識(shí)納入運(yùn)動(dòng)規(guī)劃系統(tǒng)將通過增加可追溯性（例如，在碰撞重建的情況下）和可靠性，更容易處理這些情況。此外，基于人類-機(jī)器共識(shí)的透明決策過程將提高可解釋性和信任度。預(yù)計(jì)會(huì)出現(xiàn)大量模擬測(cè)試的替代方案，這是當(dāng)前驗(yàn)證的概念核心。

強(qiáng)調(diào)一下知識(shí)整合的優(yōu)勢(shì)。一種方法擴(kuò)展智體的獎(jiǎng)勵(lì)函數(shù)，以社會(huì)規(guī)范的形式整合規(guī)則，例如，以最小距離通過目標(biāo)。違反這些規(guī)則，將導(dǎo)致獎(jiǎng)懲。結(jié)果發(fā)現(xiàn)有這種限制的智體表現(xiàn)出與人類更相似的行為。因此，當(dāng)將知識(shí)整合到機(jī)器學(xué)習(xí)流水線時(shí)，不僅對(duì)于專家而且對(duì)于普通人，模型變得更具解釋性和可信，因?yàn)檫@些約束發(fā)生在日常生活中。

此外，對(duì)智體知識(shí)的擴(kuò)展減少了學(xué)習(xí)努力，從而加速了訓(xùn)練，并在大多數(shù)情況下能夠超越原基準(zhǔn)算法。盡管有這些有希望的好處，但集成知識(shí)通常會(huì)縮小各種可能解決方案的范圍，同時(shí)耗費(fèi)人力進(jìn)行手工勞動(dòng)。這收縮了機(jī)器學(xué)習(xí)最初的、整體的方法。因此，需要仔細(xì)選擇知識(shí)整合和自學(xué)習(xí)之間的權(quán)衡。

符號(hào)（symbolic）和亞符號(hào)（sub-symbolic）方法代表人工智能的兩端。然而，在數(shù)據(jù)驅(qū)動(dòng)的亞符號(hào)/統(tǒng)計(jì)世界中，符號(hào)空間中用于集成或擴(kuò)充的知識(shí)表示仍然存在一個(gè)核心挑戰(zhàn)。

3.1 符號(hào)表征和知識(shí)制作：作者是Mattern, Glei?ner

符號(hào)表征

與數(shù)字表征（例如矢量嵌入）不同，符號(hào)表征使用符號(hào)來表示事物（汽車、摩托車、交通標(biāo)志）、人（行人、駕駛員、警察）、抽象概念（超車、剎車、減速）或非物理事物（網(wǎng)站、博客、上帝）及其關(guān)系。符號(hào)知識(shí)表征包括各種邏輯形式主義，以及用屬性、類層次結(jié)構(gòu)和關(guān)系表示實(shí)體的結(jié)構(gòu)知識(shí)。

邏輯形式主義用來將知識(shí)（主要是事實(shí)和規(guī)則）表示為形式邏輯術(shù)語。邏輯形式主義或邏輯系統(tǒng)在表現(xiàn)力、復(fù)雜性和可判定性方面有所不同。正確形式主義的選擇取決于要建模的具體問題。最簡(jiǎn)單的（可判定）邏輯形式主義是命題邏輯（propositional logic）。它由一組代表單個(gè)命題的符號(hào)和一組定義命題之間關(guān)系或修改命題數(shù)值的連接而組成。命題的值可以是true，也可以是false。

為了使邏輯陳述適用于許多目標(biāo)，謂詞邏輯（predicate logic），也稱為一階邏輯（FOL），用真值函數(shù)、謂詞、常量、變量和數(shù)量詞擴(kuò)展命題邏輯。謂詞邏輯比命題邏輯更具表現(xiàn)力，但并不總是可判定的，這意味著不能在每種情況下推斷語句的真值。

法律規(guī)范的計(jì)算機(jī)可解釋形式化是法律信息學(xué)領(lǐng)域的一個(gè)活躍研究課題。法律規(guī)則和規(guī)范的形式化有多種邏輯形式，例如標(biāo)準(zhǔn)道義邏輯（SDL，Standard Deontic Logic）、具體化輸入輸出邏輯（Reified Input-Output Logic）或（非道義的）時(shí)域邏輯（Temporal Logic）。然而，對(duì)于“最佳”邏輯形式主義仍然沒有共識(shí)。為了使形式化的法律規(guī)則對(duì)可能的（道義的）邏輯系統(tǒng)不可知，要使用法律規(guī)范的中間形式表征。

知識(shí)制作

關(guān)于實(shí)體、概念、層次結(jié)構(gòu)和屬性以及與另一個(gè)實(shí)體的關(guān)系，這些知識(shí)可以自然地通過圖結(jié)構(gòu)表征。結(jié)構(gòu)知識(shí)的圖結(jié)構(gòu)表征的突出例子是分類法（Taxonomies）、本體論（Ontologies）和知識(shí)圖（Knowledge Graphs）。

“知識(shí)圖獲取信息并將其集成到本體中，并應(yīng)用推理機(jī)來獲取新知識(shí)?！痹谥R(shí)圖中，來自異構(gòu)數(shù)據(jù)源的數(shù)據(jù)通過上下文信息和元數(shù)據(jù)（例如，有關(guān)來源或版本信息）進(jìn)行集成、鏈接和豐富，并用本體論進(jìn)行語義描述。通過鏈接結(jié)構(gòu)，知識(shí)圖在語義搜索應(yīng)用程序和推薦系統(tǒng)中得到了顯著的應(yīng)用，而且在以本體形式呈現(xiàn)規(guī)范元提要（meta-schema）時(shí)，也允許邏輯推理。

應(yīng)用

符號(hào)表征，通過將檢測(cè)目標(biāo)映射到當(dāng)前交通場(chǎng)景的正式語義表征（例如，場(chǎng)景圖），改進(jìn)了場(chǎng)景理解。為了將知識(shí)集成到機(jī)器學(xué)習(xí)算法中，這種知識(shí)的表示是必不可少的。雖然這種知識(shí)是以嵌入的形式存在的，但符號(hào)表征允許追溯，并使其為人類所理解。

給定交通規(guī)則的合理形式化，以及交通場(chǎng)景中實(shí)體、行為和法律概念的語義表征（類似于隱私概念中的法律本體建模），可以得出自動(dòng)駕駛車輛的當(dāng)前法律狀態(tài)。

類似于將符號(hào)表征應(yīng)用于形勢(shì)理解，用交通規(guī)則和法律概念的形式表征以及符號(hào)場(chǎng)景描述，通過對(duì)可能的替代軌跡和動(dòng)作進(jìn)行排序，例如根據(jù)法律后果，來執(zhí)行規(guī)劃任務(wù)。

3.2 知識(shí)表征的學(xué)習(xí)：作者是Zwicklbauer

數(shù)據(jù)驅(qū)動(dòng)和知識(shí)驅(qū)動(dòng)的人工智能系統(tǒng)，二者優(yōu)勢(shì)和劣勢(shì)互補(bǔ)，導(dǎo)致大量研究工作集中在符號(hào)（如知識(shí)圖KG）和統(tǒng)計(jì)（如NNs）方法的結(jié)合。一種很有希望的方法是將符號(hào)知識(shí)轉(zhuǎn)換為嵌入式表征，即先驗(yàn)知識(shí)的密集實(shí)向量，NNs可以去自然處理。符號(hào)知識(shí)的典型例子是文本描述、基于圖的定義或命題邏輯規(guī)則。

知識(shí)表征學(xué)習(xí)（KRL）的研究領(lǐng)域旨在將先驗(yàn)知識(shí)（例如實(shí)體、關(guān)系或規(guī)則）表示到嵌入表征中，用于改進(jìn)或解決推理（inference）或推想（reasoning）任務(wù)。大多數(shù)現(xiàn)有文獻(xiàn)將KRL定義為僅從知識(shí)圖轉(zhuǎn)換成先驗(yàn)知識(shí)，從而縮小了問題的范圍。這里討論重點(diǎn)也在于基于圖結(jié)構(gòu)的知識(shí)建模。

規(guī)則注入的嵌入表征

知識(shí)圖最近圖神經(jīng)網(wǎng)絡(luò)（GNN）被引入，致力于顯式地建模（知識(shí)）圖的特性。特別是，多個(gè)關(guān)系圖的圖卷積網(wǎng)絡(luò)（GCN）將非決定性神經(jīng)網(wǎng)絡(luò)推廣到非歐幾里德數(shù)據(jù)，并從實(shí)體的鄰域收集信息，所有鄰域在信息傳遞中的貢獻(xiàn)相等。圖卷積網(wǎng)絡(luò)大多建立在節(jié)點(diǎn)聚合（node aggregation）的消息傳遞（message passing）神經(jīng)網(wǎng)絡(luò)框架之上。

圖注意網(wǎng)絡(luò)（graph attention networks）采用鄰域注意操作可以增強(qiáng)圖神經(jīng)網(wǎng)絡(luò)的表征能力。與自然語言模型類似，這些方法在聚合消息時(shí)應(yīng)用了多頭自注意機(jī)制，關(guān)注特定的鄰域交互。最近有采用生成對(duì)抗網(wǎng)絡(luò)（GANs）改變這種表征的質(zhì)量，其中生成器經(jīng)過訓(xùn)練生成負(fù)樣本。

除此之外，特定的規(guī)則（軟或硬規(guī)則）可以從知識(shí)圖中派生出來，也稱為規(guī)則學(xué)習(xí)（rule learning），或者在嵌入式學(xué)習(xí)過程中采用，也稱為規(guī)則注入（rule injection）。

除了直接從底層知識(shí)圖中挖掘規(guī)則外，還有其他方法試圖應(yīng)用更多外部規(guī)則。例如，通過使用非負(fù)性和近似蘊(yùn)涵（entailment）約束來學(xué)習(xí)緊湊的實(shí)體表征，提高嵌入對(duì)規(guī)則建模的能力。前者自然地誘導(dǎo)稀疏性和嵌入可解釋性，而后者可以在編碼分布表征中關(guān)系之間的邏輯蘊(yùn)涵規(guī)則。

也有將關(guān)系編碼為凸區(qū)域，這是考慮不同關(guān)系之間依賴關(guān)系先驗(yàn)知識(shí)的自然方式。有一種方法Query2box，將實(shí)體（和查詢）編碼為超矩形（hyper-rectangles），也稱為框嵌入（box embeddings），以克服點(diǎn)查詢的問題，即一個(gè)復(fù)雜查詢表示了其答案實(shí)體的一個(gè)潛在大集合，但不清楚如何將這樣一個(gè)集合表示為單個(gè)點(diǎn)?？蚯度胍脖挥糜诮２淮_定性本體概念的分層特性。

目前，知識(shí)圖在自動(dòng)駕駛領(lǐng)域的應(yīng)用還沒有受到太多關(guān)注，盡管是一種幫助理解形勢(shì)或場(chǎng)景的有效方法。

有大量的方法和途徑側(cè)重于額外的先驗(yàn)知識(shí)增強(qiáng)數(shù)據(jù)驅(qū)動(dòng)的模型和算法。其中最突出的方法是通過定制成本函數(shù)修改訓(xùn)練目標(biāo)函數(shù)，尤其是受知識(shí)影響的約束和懲罰項(xiàng)。這個(gè)通常伴隨著特定問題的體系結(jié)構(gòu)設(shè)計(jì)，導(dǎo)致混合模型以邏輯表達(dá)或知識(shí)圖的形式應(yīng)用符號(hào)知識(shí)。符號(hào)和亞符號(hào)方法的合并，稱為神經(jīng)符號(hào)集成（neural-symbolic integration）。

除了外部輸入，最近的方法最好依賴于內(nèi)部表征，以便將注意力集中在網(wǎng)絡(luò)本身的確切特征和概念。最后但并非最不重要的一點(diǎn)是，數(shù)據(jù)增強(qiáng)（data augmentation）技術(shù)構(gòu)成了將額外的領(lǐng)域知識(shí)集成到數(shù)據(jù)的主干，從而間接集成到模型之中。

除了這些流行的通用方法外，更適合自主駕駛領(lǐng)域的方法和范例，會(huì)考慮到多個(gè)與特定環(huán)境交互的智體。比如狀態(tài)空間模型和強(qiáng)化學(xué)習(xí)去推斷和預(yù)測(cè)智體的狀態(tài)，還有信息融合方法中位置信息和語義信息的參與。

4.1 輔助損失和約束：作者是Werner, Pintz, von Rueden, Stehr

機(jī)器學(xué)習(xí)中常用的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化（ERM），原則相當(dāng)于用ERM來代替難以解決的風(fēng)險(xiǎn)最小化，即真實(shí)數(shù)據(jù)分布的預(yù)期損失。預(yù)期損失與其經(jīng)驗(yàn)近似值之間的不匹配導(dǎo)致ERM產(chǎn)生的模型不能很好地推廣到未見的數(shù)據(jù)。這表現(xiàn)為過擬合，即模型對(duì)訓(xùn)練數(shù)據(jù)的描述過于仔細(xì)，無法捕捉整體數(shù)據(jù)分布；或者表現(xiàn)為欠擬合，即模型無法捕捉數(shù)據(jù)的根本結(jié)構(gòu)。正則化方案，可緩解過擬合的問題。結(jié)構(gòu)風(fēng)險(xiǎn)最小化（SRM）原則擴(kuò)展了ERM原則，即正則化。

SRM尋求在經(jīng)驗(yàn)風(fēng)險(xiǎn)和模型復(fù)雜性之間最佳折衷的模型，通過Vapnik-Chervonenkis dimension（VC維度）或Rademacher復(fù)雜度來衡量。在實(shí)踐中，通過增加正則化項(xiàng)來最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)。這項(xiàng)技術(shù)成功地進(jìn)入了變量選擇（variable selection）域，如開創(chuàng)性工作LASSO。正則化通常被證明在高維回歸、分類、聚類、排名和稀疏方差或精度矩陣估計(jì)等應(yīng)用中，是不可或缺的。

通過輔助損失的知識(shí)集成

至于知識(shí)注入到人工智能（AI），一種自然的策略是，類似地使用與形式化知識(shí)（formalized knowledge）相對(duì)應(yīng)的正則化術(shù)語（所謂的輔助損失）。然而，約束也可能以硬約束的形式出現(xiàn)，例如，如果一定不能違反某些邏輯規(guī)則，那么通過輔助損失以軟約束方式集成是不合適的，例如依賴性或正則化先驗(yàn)知識(shí)。

為了提高公眾對(duì)自動(dòng)駕駛車輛的接受度，深度模型的可解釋性（interpretability）和解釋性（explainability）改進(jìn)相當(dāng)有意義。知識(shí)集成，除了得到更好的泛化性能外，一個(gè)重要副作用是通過至少部分解釋知識(shí)的預(yù)測(cè)，提高了模型的解釋性和可解釋性（explainability and interpretability）。

基于知識(shí)的正則化項(xiàng)，有可能通過鼓勵(lì)機(jī)器學(xué)習(xí)模型尊重現(xiàn)有知識(shí)顯著改進(jìn)模型，這樣在訓(xùn)練期間從零開始重新學(xué)習(xí)這些知識(shí)效率更高。要注意的是，如果數(shù)據(jù)中不存在知識(shí)（例如，如果與罕見情況相關(guān)），或者如果無法輕松從數(shù)據(jù)中導(dǎo)出知識(shí)，也可以通過損失和懲罰項(xiàng)進(jìn)行知識(shí)整合。

其他約束的知識(shí)集成

損失函數(shù)中添加基于知識(shí)的正則化項(xiàng)通常以軟方式強(qiáng)制約束。然而，在許多情況下，我們希望確保完全滿足約束，即要強(qiáng)制執(zhí)行硬約束，對(duì)應(yīng)于帶無限正則化參數(shù)的輔助正則化項(xiàng)情況。除了輔助損失外，通常還采用其他約束并入（constraint incorporation）方法，如結(jié)構(gòu)改變，或不同優(yōu)化方案，如projected gradient descent 或者 conditional gradients。

基于知識(shí)DNN的不確定性量化

一種不確定性量化方法，是物理引導(dǎo)的架構(gòu)與蒙特卡羅（MC）dropout結(jié)合。物理引導(dǎo)的神經(jīng)網(wǎng)絡(luò)方法仍然產(chǎn)生黑盒模型，權(quán)重的隨機(jī)下降再次導(dǎo)致物理上不一致的預(yù)測(cè)。

通過引入物理通知的連接和物理中間變量，賦予某些神經(jīng)元一種物理解釋，可解決這個(gè)問題。一種保持單調(diào)性的LSTM（Long Short- Term Memory），提取時(shí)域特征并預(yù)測(cè)中間物理量（水密度），將其硬編碼到體系結(jié)構(gòu)，這樣滿足單調(diào)性。然后，多層感知器（MLP）將這些預(yù)測(cè)與輸入結(jié)合起來，得到預(yù)測(cè)響應(yīng)。MC dropout注入的擾動(dòng)不會(huì)破壞與物理知識(shí)的一致性。針對(duì)前向和逆向隨機(jī)問題，調(diào)用多項(xiàng)式雜亂（polynomial chaos）和MC-dropout，得到一種dropout方法的變型，用于物理引導(dǎo)NNs的不確定性估計(jì)（近似不確定性和參數(shù)不確定性）。

應(yīng)用

知識(shí)整合涉及到幾個(gè)感知任務(wù)，即目標(biāo)檢測(cè)、語義分割、人體姿勢(shì)估計(jì)、跟蹤、軌跡預(yù)測(cè)和規(guī)劃等。

4.2 神經(jīng)-符號(hào)集成：作者是 Glei?ner, Gottschall, Hesels, Srinivas

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)（所謂的亞符號(hào)AI技術(shù)）已被證明能夠在多種類型的模式識(shí)別任務(wù)中取得優(yōu)異的性能：圖像識(shí)別、語言翻譯、醫(yī)療診斷、語音識(shí)別和推薦系統(tǒng)等。

雖然那些需要處理大量噪聲輸入的任務(wù)準(zhǔn)確性通常與人類的能力相當(dāng)，甚至更高，但它們也有一些缺點(diǎn)：通常無法為輸出提供任何理由，需要（太）多的數(shù)據(jù)和計(jì)算能力來進(jìn)行訓(xùn)練，易受對(duì)抗攻擊，經(jīng)常被批評(píng)在訓(xùn)練分布之外（OOD）泛化能力較弱。另一方面，“經(jīng)典”的所謂符號(hào)AI系統(tǒng)，如推理引擎（reasoning engines），可以提供可解釋的輸出，但在處理有噪聲的輸入表現(xiàn)不佳。

符號(hào)AI域和亞符號(hào) AI域的融合方法是神經(jīng)-符號(hào)集成的目的。其目標(biāo)是通過集成這兩個(gè)域的方法來彌補(bǔ)彼此的缺點(diǎn)，并結(jié)合彼此優(yōu)點(diǎn)。AAAI 2020上給出第一個(gè)神經(jīng)-符號(hào)集成的分類法：

通過符號(hào)輸入（如機(jī)器翻譯）創(chuàng)建符號(hào)輸出的神經(jīng)網(wǎng)絡(luò)
符號(hào)問題求解器的神經(jīng)模式識(shí)別子程序，例如AlphaGo核心神經(jīng)網(wǎng)絡(luò)中的蒙特卡羅搜索（MCTS）
將神經(jīng)和符號(hào)連接在一起并利用其他系統(tǒng)輸出的系統(tǒng)，例如神經(jīng)-符號(hào)概念學(xué)習(xí)者（concept learner）或與符號(hào)規(guī)劃器（symbolic planners）合作的強(qiáng)化智體
將知識(shí)編譯到網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)，例如if-then規(guī)則
嵌入神經(jīng)網(wǎng)絡(luò)的符號(hào)邏輯規(guī)則，執(zhí)行正則化
能夠進(jìn)行符號(hào)推理的神經(jīng)網(wǎng)絡(luò)，如定理證明

用于推理的神經(jīng)符號(hào)方法

GNN在解決推理任務(wù)時(shí)有兩個(gè)主要優(yōu)勢(shì)。通過架構(gòu)直接應(yīng)用歸納偏差（inductive bias），由于其更新和聚合功能而提供排列不變性（permutation invariance）。排列不變性簡(jiǎn)化了文字和子句的表征。因此，邏輯符號(hào)的順序并不影響這些子句的學(xué)習(xí)和理解。GNN應(yīng)用視覺場(chǎng)景理解和推理，優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)。

一階邏輯的張量化（Tensorization）是另一種集成深度學(xué)習(xí)和神經(jīng)符號(hào)解決推理任務(wù)的方法。實(shí)邏輯（Real Logic）是一種多值、端到端可微分的一階邏輯，由一系列常量、函數(shù)、關(guān)系和變量符號(hào)組成。根據(jù)這些符號(hào)建立的公式可能部分正確，因此實(shí)邏輯包含模糊語義。

常量、函數(shù)和謂詞也可以是由域符號(hào)表示的不同類型。邏輯還包括連接詞和量詞。語義上，實(shí)邏輯將每個(gè)常量、變量和術(shù)語解釋為實(shí)數(shù)的張量，而每個(gè)函數(shù)和謂詞解釋為實(shí)函數(shù)或張量運(yùn)算。

此外，還有多種相關(guān)方法將邏輯推理和深度學(xué)習(xí)結(jié)合，同時(shí)具有端到端的可微分性：

邏輯神經(jīng)網(wǎng)絡(luò)使用邏輯語言定義其架構(gòu)。通過應(yīng)用加權(quán)實(shí)邏輯，采用不同的激活函數(shù)表示不同的邏輯算子，建立樹狀結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)
DeepProbLog是一種概率邏輯程序語言，實(shí)現(xiàn)一個(gè)神經(jīng)網(wǎng)絡(luò)，通過應(yīng)用邏輯推理來解決推理任務(wù)

用于上下文理解的神經(jīng)-符號(hào)架構(gòu)

這里討論神經(jīng)符號(hào)的兩種應(yīng)用。

第一個(gè)應(yīng)用側(cè)重于自動(dòng)駕駛，用知識(shí)圖嵌入（Knowledge Graph Embedding）算法將知識(shí)圖轉(zhuǎn)換為向量空間。知識(shí)圖是從NuScenes數(shù)據(jù)集生成的，由給定有場(chǎng)景正式定義的場(chǎng)景本體（Scene Ontology）和分類系統(tǒng)定義的興趣特征（Features-of- Interests）和事件的子集組成。通過創(chuàng)建知識(shí)圖和知識(shí)圖嵌入，可以計(jì)算場(chǎng)景的距離，并找到視覺上看上去不同的類似情況。提出的創(chuàng)建知識(shí)圖嵌入方法有TransE、RESCAL和HoIE，其中TransE在定量知識(shí)圖嵌入質(zhì)量（Knowledge Graph Embeddings-quality）度量上表現(xiàn)出最一致的性能。

第二個(gè)應(yīng)用是“神經(jīng)問答（Neural Question-Answering）”，通過基于注意的注入（attention-based injection）進(jìn)行知識(shí)整合。該方法利用來自ConceptNet 和 ATOMIC的知識(shí)，將常識(shí)知識(shí)融合到BERT的輸出，這樣注入選項(xiàng)比較網(wǎng)絡(luò)（Option Comparison Network）。在CommonsenseQA數(shù)據(jù)集評(píng)估分析表明，基于注意的注入更適合于知識(shí)注入。

用于自主駕駛決策模塊設(shè)計(jì)的神經(jīng)符號(hào)程序搜索

采用神經(jīng)結(jié)構(gòu)搜索（NAS）框架，自動(dòng)合成神經(jīng)-符號(hào)決策程序（NSDP，Neuro-Symbolic Decision Program），可以改進(jìn)自動(dòng)駕駛系統(tǒng)的設(shè)計(jì)。神經(jīng)-符號(hào)程序搜索（NSPS，Neuro-Symbolic Program Search）通過融合神經(jīng)符號(hào)推理和表征學(xué)習(xí)，合成端到端可微分神經(jīng)符號(hào)程序（NSPS，Neuro-Symbolic Programs）。

駕駛決策的符號(hào)表示用Domain-Specific Language（DSL）描述，用于自動(dòng)駕駛。DSL包含用于駕駛部件的基本原語（basic primitives），以及用于強(qiáng)制執(zhí)行更高級(jí)優(yōu)先級(jí)的條件語句。DSL的設(shè)計(jì)允許在可微分神經(jīng)符號(hào)行為范式指定自動(dòng)駕駛的所有行為。

此外，NSPS被描述為一個(gè)隨機(jī)優(yōu)化問題，可以有效地搜索集成神經(jīng)-符號(hào)操作的程序架構(gòu)，確保端到端學(xué)習(xí)的可能性。如圖所示：NSPS與生成對(duì)抗性模仿學(xué)習(xí)（GAIL）相結(jié)合，以端到端的方式學(xué)習(xí)生成神經(jīng)符號(hào)決策程序，向運(yùn)動(dòng)規(guī)劃器和控制器輸出特定指令（例如，目標(biāo)航路點(diǎn)索引和目標(biāo)速度）；其中NSPS搜索NSDP，通過反向傳播g更新α和β。

應(yīng)用

首先是感知。神經(jīng)符號(hào)推理引擎可以利用世界知識(shí)或常識(shí)知識(shí)來理解感知模塊或這些模塊組合的場(chǎng)景。它可以作為一個(gè)正則化器（語義損失函數(shù)）在訓(xùn)練感知神經(jīng)網(wǎng)絡(luò)過程中發(fā)揮作用，該神經(jīng)網(wǎng)絡(luò)描述場(chǎng)景，并懲罰被識(shí)別實(shí)體及其屬性或關(guān)系的不合理組合。第二，在推理過程中同樣的原理也適用，在推理過程中，感知模塊輸出多個(gè)可能的場(chǎng)景描述，推理引擎檢查場(chǎng)景中的矛盾元素，從而評(píng)估輸出的合理性。

在某些情況下，基于注意的注入方法可以用于推理，例如通過將Stra?enverkehrsordnung（StVO）注入QA網(wǎng)絡(luò)，在BERT中編碼新的句子。DSL可以設(shè)計(jì)為包含StVO邏輯規(guī)則以及基本屬性（例如，速度、加速度、姿勢(shì)、關(guān)聯(lián)車道類型、車道屬性和道路類型），強(qiáng)制執(zhí)行更高級(jí)的機(jī)動(dòng)優(yōu)先級(jí)。

NSPS框架結(jié)合NAS的機(jī)制，可以用于為下游運(yùn)動(dòng)控制和規(guī)劃任務(wù)生成決策策略。類似地，NSPS框架生成神經(jīng)-符號(hào)行為程序（NSBP），對(duì)目標(biāo)車輛的行為進(jìn)行推理，支持場(chǎng)景中的協(xié)同規(guī)劃（cooperative planning）。合成的NSBP應(yīng)是涉及神經(jīng)-符號(hào)運(yùn)算（數(shù)值運(yùn)算和邏輯運(yùn)算）的操作，而不是普通的神經(jīng)網(wǎng)絡(luò)。NSPS框架和GAIL可用于端到端的方式學(xué)習(xí)NSBP。

其次是規(guī)劃。形式化知識(shí)（formalized knowledge）的創(chuàng)建需要一種能夠驗(yàn)證結(jié)果形式化的方法。其中一種方法是對(duì)測(cè)試用例查詢形式化（querying the formalization），比如檢查StVO目前形式化是否包含不需要的屬性，例子是為救護(hù)車讓路而危及行人是可以的。這些查詢也是形式化的語句，并由形式化知識(shí)的神經(jīng)符號(hào)推理引擎（neural-symbolic reasoning engine ）來回答。

法律知識(shí)的形式化是檢查特定交通狀況采取或計(jì)劃采取的行動(dòng)是否符合StVO等法規(guī)的先決條件。神經(jīng)符號(hào)推理機(jī)可以執(zhí)行此類合規(guī)性檢查，增強(qiáng)自動(dòng)駕駛領(lǐng)域如下兩個(gè)應(yīng)用：首先，規(guī)劃器用合規(guī)性檢查評(píng)估多個(gè)行動(dòng)方案；其次，在規(guī)劃器的訓(xùn)練階段，合規(guī)性檢查可以被用作正則化，迫使模型更傾向于合規(guī)的、而不是不合規(guī)的解決方案。

4.3 注意機(jī)制：作者是Qiu

人類可以將注意力集中在視野或近期記憶中的特定區(qū)域，以避免過度消耗精力。受人類視覺注意的啟發(fā)，算法的注意機(jī)制成為深度學(xué)習(xí)中的一個(gè)流行概念。與NLP的注意概念類似，許多機(jī)器學(xué)習(xí)任務(wù)也需要有效地關(guān)注特定的數(shù)據(jù)或信息。這種特定的關(guān)注點(diǎn)來自于對(duì)目標(biāo)任務(wù)非常有幫助的先驗(yàn)知識(shí)或經(jīng)驗(yàn)。

此外，這些注意力集中的信息通常對(duì)人類的理解是直觀的，并且提供了有用的解釋能力。例如，圖像字幕任務(wù)在輸入圖像上查找熱圖，該熱圖指示字幕詞所指的位置。如果將注意機(jī)制視為人類知識(shí)的一種形式，那么學(xué)習(xí)這種語義知識(shí)有望提高網(wǎng)絡(luò)性能。

在計(jì)算機(jī)視覺（CV）任務(wù)中，注意機(jī)制分為三種不同的建模方法：空間注意、通道注意和自注意。

CV中的注意機(jī)制廣泛應(yīng)用于行人檢測(cè)等自主駕駛感知任務(wù)中。注意機(jī)制不是直接用于規(guī)劃，而是用于規(guī)劃或決策的可解釋性。Berkeley Deep Drive用注意熱圖來解釋為什么車輛會(huì)采取某種控制器行為，并生成文本解釋。注意機(jī)制在訓(xùn)練過程中不斷更新，同時(shí)也最終影響訓(xùn)練結(jié)果。對(duì)于場(chǎng)景理解，它被認(rèn)為不是一種可行的方法。

4.4 數(shù)據(jù)增強(qiáng)：作者是Matthes, Latka

數(shù)據(jù)增強(qiáng)（DA）包括一系列技術(shù)，以很少的額外成本增加數(shù)據(jù)量。DA提供了一種集成知識(shí)的方法，有關(guān)輸入信號(hào)的具體變化如何影響模型目標(biāo)輸出，例如對(duì)小擾動(dòng)的不變性。使用增強(qiáng)數(shù)據(jù)進(jìn)行訓(xùn)練，通?？梢蕴岣吣Ｐ偷姆夯芰?，在數(shù)據(jù)稀缺或不平衡的情況下尤其有用。

可以使用哪種技術(shù)取決于輸入數(shù)據(jù)的格式（例如，圖像、音頻、點(diǎn)云）和機(jī)器學(xué)習(xí)的任務(wù)。應(yīng)用的算法必須保留與任務(wù)相關(guān)的信息。例如，顏色空間扭曲可能有助于基于圖像的車牌識(shí)別（使模型對(duì)顏色變化更加魯棒），但可能會(huì)降低鳥類物種分類的性能，因?yàn)轭伾窃S多物種的重要區(qū)別特征。對(duì)于某些任務(wù)，例如密度估計(jì)，定義適當(dāng)?shù)臄?shù)據(jù)增強(qiáng)本身就很困難。另一方面，DA甚至是一些無監(jiān)督模型的組成部分，例如在對(duì)比學(xué)習(xí)中。

結(jié)構(gòu)因果模型（SCM，Structural Causal Models）對(duì)環(huán)境知識(shí)進(jìn)行編碼。這方面，可以被視為數(shù)據(jù)生成過程。從數(shù)學(xué)上講，SCM無非是一個(gè)有向無循環(huán)圖（DAG），同時(shí)具有一組函數(shù)和DAG根節(jié)點(diǎn)的分布。雖然DAG的節(jié)點(diǎn)對(duì)應(yīng)于環(huán)境變量，但其有向邊表示變量之間的獨(dú)立因果機(jī)制。特別是，因果機(jī)制描述了變量如何以確定性的方式相互影響。

因此，每個(gè)SCM自然地定義了其變量的聯(lián)合分布。所以，其形狀由函數(shù)集和SCM根變量的分布決定。此外，分布飄移可以在SCM框架中建模為干預(yù)措施，例如，將一種功能轉(zhuǎn)換為另一種功能。

SCM非常適合隨意生成有效且一致的樣本，因?yàn)樗鼈兣cSCM中編碼的因果關(guān)系一致。通過這種方式，SCMs可以作為一種輕量級(jí)的底層環(huán)境模擬器，根據(jù)具體的干預(yù)設(shè)置，產(chǎn)生不同的干預(yù)分布。更準(zhǔn)確地說，任意的訓(xùn)練集可以被認(rèn)為是由單個(gè)分布組成的。這些單獨(dú)的分布既可以表示未修改SCM所定義的分布，也可以源于生成數(shù)據(jù)時(shí)應(yīng)用于原始SCM的不同干預(yù)。

因此，干預(yù)措施有效地改變了環(huán)境，涵蓋了環(huán)境的合理變化。通過這種方式，從不同的聯(lián)合分布和干預(yù)分布（由原始SCM構(gòu)建）中采樣數(shù)據(jù)，自然會(huì)增加整體訓(xùn)練分布的多樣性，可解釋為某種數(shù)據(jù)增強(qiáng)方法。

作為自動(dòng)駕駛環(huán)境下數(shù)據(jù)增強(qiáng)的另一個(gè)例子，例如，一個(gè)描述車輛軌跡的SCM（即，將車輛狀態(tài)和動(dòng)作連接到新狀態(tài)的物理定律）。車輛運(yùn)動(dòng)的新軌跡可以通過車輛SCM根據(jù)后續(xù)步驟從現(xiàn)有軌跡生成。

首先，外部（通常是）未觀察的隨機(jī)變量是從現(xiàn)有軌跡（稱為誘拐步驟）推斷出來的，有效地重建了記錄觀察軌跡時(shí)車輛所處的情況。

其次，對(duì)車輛SCM應(yīng)用一項(xiàng)干預(yù)或一系列干預(yù)（操作），同時(shí)從誘拐步驟維持更新的分布。

第三，（干預(yù)后的）SCM預(yù)測(cè)一條基于觀察軌跡的新軌跡。剛才描述的過程返回了一個(gè)所謂的反事實(shí)（counterfactual）軌跡，如果采取了另一系列行動(dòng)，該軌跡可能已經(jīng)演變。從這個(gè)意義上說，這種技術(shù)將觀察軌跡轉(zhuǎn)換為反事實(shí)軌跡，同時(shí)遵守SCM中未被干預(yù)的其他部分（數(shù)據(jù)轉(zhuǎn)換）。

因此，該技術(shù)允許以一種方式增強(qiáng)數(shù)據(jù)，即仍然固定在一個(gè)觀察軌跡上，但同時(shí)生成更多數(shù)據(jù)，尤其是覆蓋危險(xiǎn)和代表性不足的場(chǎng)景。此外，該技術(shù)被證明有助于解釋機(jī)器學(xué)習(xí)（ML）模型決策的原因。

4.5 狀態(tài)模型：作者Reichardt

駕駛本身就是一種連續(xù)的動(dòng)態(tài)活動(dòng)。感官信息是通過一系列觀察獲得的，這些觀察在很大范圍的時(shí)間尺度上表現(xiàn)出因果依賴性和相關(guān)性。

作為一個(gè)被動(dòng)觀察者，理解任何動(dòng)態(tài)現(xiàn)象的能力取決于預(yù)測(cè)未來觀察結(jié)果的能力。概率上講，動(dòng)態(tài)過程可能固有的隨機(jī)性，只能根據(jù)分布來理解和建模，而不是單個(gè)結(jié)果。一旦得到必要的分布，就能夠優(yōu)化/規(guī)劃動(dòng)作，增加預(yù)期未來結(jié)果和觀察出現(xiàn)的機(jī)會(huì)。

牢固植根于概率論的狀態(tài)空間模型（SSM），特別適合于研究源自交通現(xiàn)象的穩(wěn)定信息流，已經(jīng)滲透到駕駛的各個(gè)方面，從感知到形勢(shì)理解和規(guī)劃。

在知識(shí)集成的背景下SSMs代表了一個(gè)算法先驗(yàn)，提供了概率分布的框架及其相應(yīng)的條件獨(dú)立結(jié)構(gòu)。然后可以使用數(shù)據(jù)驅(qū)動(dòng)的方法來學(xué)習(xí)這些概率分布的參數(shù)化。理想情況下，優(yōu)化和學(xué)習(xí)可以端到端地實(shí)現(xiàn)。

先說在感知的應(yīng)用。

自動(dòng)駕駛的感知階段，通過生成觀測(cè)模型或觀測(cè)似然，可進(jìn)入SSM。原則上，觀測(cè)值可以是原始的感官輸入，如相機(jī)圖像或激光雷達(dá)點(diǎn)云，但如果不做強(qiáng)近似，目前這種思路在計(jì)算上是不可行的。一種替代方法是放棄觀測(cè)模型的生成性，學(xué)習(xí)直接估計(jì)后驗(yàn)狀態(tài)密度，這種方法被稱為鑒別濾波器。然而，請(qǐng)注意，這種方法僅適用于固定歷史長度，因此犧牲了在任意長度時(shí)間內(nèi)標(biāo)準(zhǔn)公式表示相關(guān)性的能力。

第二種方法是通過檢測(cè)算法對(duì)原始傳感器數(shù)據(jù)進(jìn)行預(yù)處理，產(chǎn)生與目標(biāo)級(jí)數(shù)據(jù)相對(duì)應(yīng)的觀測(cè)值。這與“tracking- from-detection”的范式相對(duì)應(yīng)。進(jìn)一步區(qū)分的話，一個(gè)目標(biāo)要么最多只能進(jìn)行一次檢測(cè)（“點(diǎn)檢測(cè)算法”），要么進(jìn)行多次檢測(cè)。如果后者不是偽影（artifacts）而是多個(gè)傳感器讀取目標(biāo)物理擴(kuò)展的結(jié)果，則會(huì)產(chǎn)生所謂的“擴(kuò)展目標(biāo)跟蹤（extended object tracking）”算法。如果可以從每個(gè)可用的傳感器模態(tài)中進(jìn)行檢測(cè)，則觀測(cè)似然是執(zhí)行傳感器融合的自然方法?；蛘撸谠紓鞲衅鲬?yīng)用檢測(cè)算法之前，先執(zhí)行傳感器融合。

與在交通中觀察到的一組目標(biāo)相對(duì)應(yīng)，檢測(cè)算法將返回一組檢測(cè)結(jié)果。然而，檢測(cè)算法并不完美。可能存在所謂雜波（clutter）的錯(cuò)誤檢測(cè)，而這些雜波并非來自實(shí)際目標(biāo)。也可能是由于檢測(cè)算法的遮擋或故障當(dāng)前時(shí)刻不被檢測(cè)的目標(biāo)。

此外，檢測(cè)不一定被標(biāo)注，即，跟蹤目標(biāo)與其檢測(cè)之間不存在已知的對(duì)應(yīng)關(guān)系。由此產(chǎn)生多目標(biāo)跟蹤的所謂數(shù)據(jù)關(guān)聯(lián)問題：需要找到觀測(cè)集元素與被跟蹤目標(biāo)集元素之間的這種對(duì)應(yīng)關(guān)系。有標(biāo)準(zhǔn)算法可以解決這個(gè)問題。一旦建立了這種對(duì)應(yīng)關(guān)系，并且更新了跟蹤目標(biāo)的后驗(yàn)狀態(tài)估計(jì)，就無法恢復(fù)任何在更新錯(cuò)誤檢測(cè)目標(biāo)的狀態(tài)向量時(shí)發(fā)生的錯(cuò)誤。

為了緩解這個(gè)問題，所謂的多假設(shè)跟蹤（MHT）算法保留了幾個(gè)看似合理的潛在數(shù)據(jù)關(guān)聯(lián)假設(shè)，直到通過額外證據(jù)數(shù)據(jù)關(guān)聯(lián)中可能存在的不確定性得到解決。

SSMs的另外兩個(gè)方面與感知模塊有關(guān)，可以知識(shí)集成。第一種是所謂的出生（birth）模型，可以表示傳感器的靈敏度，以及物體將在何處以及如何進(jìn)入自動(dòng)駕駛車輛傳感器范圍的先驗(yàn)。第二個(gè)是可以進(jìn)一步指定觀測(cè)模型的探測(cè)概率、生存概率和雜波強(qiáng)度等。

SSM的一部分吸引力在于，它們可以用于對(duì)移動(dòng)交通參與者以及從移動(dòng)傳感器看到的靜態(tài)環(huán)境進(jìn)行建模。

形勢(shì)理解主要包括兩個(gè)關(guān)鍵任務(wù)，即根據(jù)過去的觀測(cè)值估計(jì)和跟蹤系統(tǒng)的當(dāng)前狀態(tài)，即狀態(tài)跟蹤和濾波問題。具體而言，這涉及到地圖和定位問題，即根據(jù)觀察結(jié)果建模靜態(tài)環(huán)境，并查找該環(huán)境中自車和其他交通參與者。

需要注意的是，狀態(tài)更新方程的評(píng)估速度通常是新觀測(cè)值可用的速度?T≤ 50ms，因此運(yùn)動(dòng)模型用于非常短的預(yù)測(cè)范圍。所以，人們通常使用簡(jiǎn)單的運(yùn)動(dòng)學(xué)模型，然后可以將模型不確定性充分建模為隨機(jī)噪聲，并使用數(shù)據(jù)來調(diào)整噪聲分布。特別是，在多目標(biāo)跟蹤中，人們可能會(huì)假設(shè)單智體的運(yùn)動(dòng)是獨(dú)立的，而忽略與環(huán)境和其他交通參與者的交互。這種簡(jiǎn)化會(huì)導(dǎo)致一種問題：隨時(shí)間范圍增長，當(dāng)沒有新的觀察結(jié)果（例如由于遮擋）時(shí)候，錯(cuò)誤會(huì)增加。

形勢(shì)理解的第二項(xiàng)任務(wù)是將這種估計(jì)擴(kuò)展到未來，并實(shí)現(xiàn)對(duì)安全舒適駕駛至關(guān)重要的預(yù)期規(guī)劃?，F(xiàn)在預(yù)測(cè)交通的狀態(tài)在時(shí)間尺度上的演變?t通常用于駕駛操作，即幾秒鐘，情況則變得明顯不同?？紤]如圖所示的情況：其中描述了兩輛車在高速公路入口匝道上行駛，出現(xiàn)潛在沖突的軌跡規(guī)劃問題；現(xiàn)在，每輛車只有一條合理的未來軌跡，甚至場(chǎng)景未來演變的不確定性也降低了。這強(qiáng)調(diào)了對(duì)交通參與者的意圖（intention）進(jìn)行建模的必要性。

駕駛員意圖通常被建模為一個(gè)不可觀測(cè)的離散狀態(tài)變量，表示幾種可能的操作之一，如左變道、右轉(zhuǎn)、跟車道。這些類別必須是相互排斥的，并且整體上是全面的，具體類別必須從觀察中推斷出來。通常，專門的運(yùn)動(dòng)模型與一個(gè)機(jī)動(dòng)類別相關(guān)聯(lián)，從而為此類機(jī)動(dòng)目標(biāo)提供所謂的多模型過濾器（multiple model filters）。

完全減少關(guān)于未來軌跡的不確定性，不總是可能的，所以必須為未來軌跡提供不止一種可能的選擇。這意味著對(duì)單個(gè)交通參與者的運(yùn)動(dòng)以及場(chǎng)景中的整個(gè)交通參與者來說，預(yù)測(cè)都應(yīng)該是多模態(tài)的。在分解（factorization）假設(shè)下，這可能會(huì)導(dǎo)致整個(gè)交通場(chǎng)景（包括許多具有沖突軌跡的未來場(chǎng)景）可能未來的組合爆炸（combinatorial explosion）。這個(gè)問題的解決可以通過相應(yīng)的計(jì)算努力修剪這些沖突場(chǎng)景。更理想的是為整個(gè)交通場(chǎng)景建立一個(gè)運(yùn)動(dòng)模型，從一開始就產(chǎn)生無沖突的場(chǎng)景集。

4.6 強(qiáng)化學(xué)習(xí)：作者是Rudolph, Bogdoll, Josep

強(qiáng)化學(xué)習(xí)（RL）是一組技術(shù)，智體在一段時(shí)間內(nèi)在給定獎(jiǎng)勵(lì)信號(hào)的情況下優(yōu)化其行為。智體通過在每個(gè)時(shí)間步中執(zhí)行操作與環(huán)境進(jìn)行交互。根據(jù)當(dāng)前狀態(tài)及其過去經(jīng)驗(yàn)估計(jì)的評(píng)估來決定選擇哪種動(dòng)作。這種從狀態(tài)到動(dòng)作的映射稱為策略。隨后，智體在每個(gè)時(shí)間步中都會(huì)收到獎(jiǎng)勵(lì)，這反映了智體行為局部評(píng)估的概念。

但是，通常情況下，僅憑這種即時(shí)獎(jiǎng)勵(lì)不足以判斷一項(xiàng)動(dòng)作有多好，因?yàn)橹挥性谝幌盗杏幸娴膭?dòng)作之后，才會(huì)給予更大的獎(jiǎng)勵(lì)，即智體面臨一個(gè)連續(xù)決策問題。例如，智體在多個(gè)時(shí)間步中朝著正確的方向移動(dòng)，以達(dá)到一個(gè)定義的目標(biāo)。這就是為什么RL算法的目標(biāo)通常是找到一個(gè)最大化預(yù)期累積獎(jiǎng)勵(lì)而不是即時(shí)獎(jiǎng)勵(lì)的策略。在過去的幾年里，深度學(xué)習(xí)已經(jīng)成為RL的主要形式，深度學(xué)習(xí)被用來實(shí)現(xiàn)RL智體。

RL大致可以分為兩類，即無模型（model free）算法和基于模型（model-based）的算法?；谀Ｐ偷乃惴ɡ妙A(yù)先給定或從經(jīng)驗(yàn)中學(xué)習(xí)的環(huán)境顯式模型。另一方面，無模型算法不使用這種模型，總是直接在環(huán)境中運(yùn)行。另一個(gè)常見的分類是帶策略（on-policy）和無策略（off-policy）算法之間的區(qū)別。前者只能改進(jìn)智體當(dāng)前執(zhí)行策略的價(jià)值估計(jì)。相比之下，后者可以獨(dú)立于智體采取的動(dòng)作，提高對(duì)最佳策略價(jià)值的估計(jì)。

多智體強(qiáng)化學(xué)習(xí)

在多智體強(qiáng)化學(xué)習(xí)（Multi-Agent reinforction Learning，MARL）中，將智體與環(huán)境交互的基本思想擴(kuò)展到多個(gè)智體同時(shí)與環(huán)境交互并彼此交互。

所謂聯(lián)盟訓(xùn)練（league training ），其主要思想是與三種類型的智體展開虛擬的自游戲（參見如圖）：第一種類型被命名為主智體，使用優(yōu)先虛擬游戲（fictitious play），這意味著根據(jù)對(duì)智體的獲勝率選擇對(duì)手。第二種類型是主剝削者（exploiter），與當(dāng)前的主要智體競(jìng)爭(zhēng)，只是為了發(fā)現(xiàn)其行為中的弱點(diǎn)。第三種類型是聯(lián)盟剝削者（league exploiter agents），使用與主智體類似的策略，但不能成為主剝削者的目標(biāo)。因此，他們有機(jī)會(huì)找到策略來利用整個(gè)聯(lián)盟。

基于MCTS，有一個(gè)多智體的擴(kuò)展已應(yīng)用于簡(jiǎn)單的網(wǎng)格（grid）世界，其中每個(gè)智體必須學(xué)習(xí)移向到定義目標(biāo)的一個(gè)，但每個(gè)格（tile）只能由一個(gè)智體使用。該方法用默認(rèn)策略和隨機(jī)策略的MCTS，并與獎(jiǎng)勵(lì)函數(shù)的差異評(píng)估（difference evaluation）相結(jié)合。

逆強(qiáng)化學(xué)習(xí)

當(dāng)前另一種方法是逆強(qiáng)化學(xué)習(xí)（IRL）的思想，其中一個(gè)目標(biāo)是學(xué)習(xí)與環(huán)境交互示例中的獎(jiǎng)勵(lì)函數(shù)，這個(gè)也可以和行為克隆一起屬于模仿學(xué)習(xí)。

IRL解決了兩個(gè)核心挑戰(zhàn)：“找到一個(gè)能最好地解釋觀測(cè)結(jié)果的獎(jiǎng)勵(lì)函數(shù)基本上是不適定的”和“解決問題的計(jì)算成本往往會(huì)隨著問題規(guī)模不成比例地增長”。這在復(fù)雜的自動(dòng)駕駛領(lǐng)域尤其重要，因?yàn)楝F(xiàn)有的方法“不能合理地?cái)U(kuò)展到幾十個(gè)狀態(tài)或十多個(gè)可能的動(dòng)作”。

根據(jù)四個(gè)類別對(duì)現(xiàn)有IRL方法進(jìn)行分類。Max margin方法試圖“最大化觀察到的動(dòng)作價(jià)值與假設(shè)之間的margin”，而max entropy方法則被設(shè)計(jì)為“最大化動(dòng)作分布的熵”。Bayesian learning 方法“使用貝葉斯規(guī)則學(xué)習(xí)假設(shè)空間上的后驗(yàn)概率”，分類和回歸方法“學(xué)習(xí)預(yù)測(cè)模型，其模仿觀測(cè)行為”。此外，IRL還有許多擴(kuò)展，可分為三類：“不完整和含噪的觀測(cè)方法、多任務(wù)和不完整模型參數(shù)”。

強(qiáng)化學(xué)習(xí)和知識(shí)集成技術(shù)

獎(jiǎng)勵(lì)成型：知識(shí)集成最常見的形式是獎(jiǎng)勵(lì)成型。其思想是設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)，使智體更容易找到最優(yōu)策略，同時(shí)仍在極限內(nèi)優(yōu)化原始目標(biāo)。這在時(shí)間跨度較長且獎(jiǎng)勵(lì)信號(hào)稀疏的情況下尤其有用。
模型：在RL算法中集成先驗(yàn)知識(shí)的常用方法是利用某種環(huán)境模型。這種方法首先定義基于模型RL的區(qū)域。雖然這種趨勢(shì)傾向于在運(yùn)行時(shí)由智體學(xué)習(xí)的模型，但已經(jīng)證明，人工設(shè)計(jì)的模型可以解決非常復(fù)雜的任務(wù)，并通過在學(xué)習(xí)系統(tǒng)中集成知識(shí)提高學(xué)習(xí)速度。
通過示范學(xué)習(xí)：通過示范學(xué)習(xí)（或?qū)W徒學(xué)習(xí)）的想法已經(jīng)存在了一段時(shí)間。它定義了一個(gè)范例，人類展示學(xué)習(xí)系統(tǒng)的期望行為以加速學(xué)習(xí)過程。一種常見的方法是使用IRL。其他情況下，已經(jīng)有了獎(jiǎng)勵(lì)信號(hào)也行。
輔助任務(wù)：將先驗(yàn)知識(shí)整合到神經(jīng)網(wǎng)絡(luò)的方法是輔助任務(wù)。其主要思想是在多個(gè)任務(wù)上共享一個(gè)網(wǎng)絡(luò)，迫使其創(chuàng)建對(duì)主要任務(wù)有益的結(jié)構(gòu)。

應(yīng)用

有許多可以利用RL的任務(wù)，包括路徑規(guī)劃、控制器優(yōu)化和基于場(chǎng)景的策略學(xué)習(xí)。大多是仿真環(huán)境的實(shí)驗(yàn)，因?yàn)閿?shù)據(jù)收集和狀態(tài)-動(dòng)作空間維度的限制。

4.7 帶先驗(yàn)知識(shí)圖的深度學(xué)習(xí)：作者是Chuo, Chen, Stapelbroek

目標(biāo)檢測(cè)和識(shí)別問題通常通過深度學(xué)習(xí)方法來解決。然而，在模型精度方面，尤其在某些情況下，即物體被遮擋、距離傳感器太遠(yuǎn)或光線條件差，仍然是一個(gè)巨大的挑戰(zhàn)。

在提高數(shù)據(jù)效率方面，尤其是在數(shù)據(jù)容量較低的情況下，也存在挑戰(zhàn)，找到一種提取和組合信息的方法變得很重要。

待續(xù)。。。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：綜述：自動(dòng)駕駛應(yīng)用中知識(shí)增強(qiáng)的機(jī)器學(xué)習(xí)方法（二）
上一篇：一文梳理鋰離子電池電解質(zhì)

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈	• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋
• 大推力直驅(qū)技術(shù)助力EPS安全測(cè)試，為你的安全出行 “保駕護(hù)	• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”
• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬	• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！
• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)	• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3
• 比亞迪車輛避撞專利公布	• 全球首個(gè)！電動(dòng)汽車電耗限值強(qiáng)制新規(guī)來了：標(biāo)準(zhǔn)更嚴(yán),明年

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

綜述：自動(dòng)駕駛應(yīng)用中知識(shí)增強(qiáng)的機(jī)器學(xué)習(xí)方法（一）

微信公眾號(hào)

2.1 感知：作者是Rizvi, Munir, van Elst

2.2 環(huán)境理解：作者是Bogdoll, Vivekanandan, Qureishi, Schunk

2.3 規(guī)劃：作者是Bu?hrle, Ko?nigshof, Vivekanandan, Nekolla

3.1 符號(hào)表征和知識(shí)制作：作者是Mattern, Glei?ner

3.2 知識(shí)表征的學(xué)習(xí)：作者是Zwicklbauer

4.1 輔助損失和約束：作者是Werner, Pintz, von Rueden, Stehr

4.2 神經(jīng)-符號(hào)集成：作者是 Glei?ner, Gottschall, Hesels, Srinivas

4.3 注意機(jī)制：作者是Qiu

4.4 數(shù)據(jù)增強(qiáng)：作者是Matthes, Latka

4.5 狀態(tài)模型：作者Reichardt

4.6 強(qiáng)化學(xué)習(xí)：作者是Rudolph, Bogdoll, Josep

4.7 帶先驗(yàn)知識(shí)圖的深度學(xué)習(xí)：作者是Chuo, Chen, Stapelbroek

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國法規(guī)R59對(duì)機(jī)動(dòng)車備用消聲系統(tǒng)的工程

聯(lián)合國法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國法規(guī)R57對(duì)摩托車前照燈配光性能的工