日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測(cè)試網(wǎng)

  • 公眾號(hào)
    • 汽車測(cè)試網(wǎng)

    • 在線課堂

    • 電車測(cè)試

綜述:自動(dòng)駕駛應(yīng)用中知識(shí)增強(qiáng)的機(jī)器學(xué)習(xí)方法(一)

2022-05-16 00:07:02·  來源:計(jì)算機(jī)視覺深度學(xué)習(xí)和自動(dòng)駕駛  作者:黃浴  
 
arXiv2022年5月10日上傳論文“Knowledge Augmented Machine Learning with Applications in Autonomous Driving: A Survey“,作者來自德國多個(gè)tier-1公司和一些

arXiv2022年5月10日上傳論文“Knowledge Augmented Machine Learning with Applications in Autonomous Driving: A Survey“,作者來自德國多個(gè)tier-1公司和一些研究所。

圖片


代表性數(shù)據(jù)集的存在是許多成功人工智能和機(jī)器學(xué)習(xí)模型的先決條件。然而,這些模型的后續(xù)應(yīng)用通常涉及訓(xùn)練數(shù)據(jù)中表現(xiàn)不充分的場(chǎng)景。其中原因是多方面的,從時(shí)間成本限制到倫理考慮等。因此,這些模型的可靠性,尤其是在安全-緊要的應(yīng)用情況,是一個(gè)巨大的挑戰(zhàn)。要克服純數(shù)據(jù)驅(qū)動(dòng)方法的局限性,并最終提高這些模型的泛化能力,關(guān)鍵在于利用額外的、已經(jīng)存在的知識(shí)來源。


此外,即使在表征性不足的場(chǎng)景,符合知識(shí)的預(yù)測(cè)對(duì)于做出可靠和安全的決策也至關(guān)重要。這項(xiàng)工作概述文獻(xiàn)中基于數(shù)據(jù)的模型和現(xiàn)有知識(shí)結(jié)合的現(xiàn)有技術(shù)和方法。已經(jīng)確定的方法按照類別集成、提取和整合進(jìn)行內(nèi)容編排。特別注意的是在自動(dòng)駕駛領(lǐng)域的應(yīng)用部分。


全文93頁,其中參考資料占了30頁,880個(gè)參考資料。


該文目錄如下:

圖片


數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí),首先是深度學(xué)習(xí),已經(jīng)成為當(dāng)前絕大多數(shù)人工智能(AI)和機(jī)器學(xué)習(xí)(ML)應(yīng)用中的關(guān)鍵范例。許多監(jiān)督學(xué)習(xí)的模型,其出色性能主要?dú)w功于大量標(biāo)注數(shù)據(jù)的可用性。突出的例子是圖像分類和目標(biāo)檢測(cè)、序列數(shù)據(jù)處理以及決策。不利的一面是,這種前所未有的性能是以缺乏可解釋性和透明度為代價(jià)的,這也導(dǎo)致了所謂的黑盒模型,不允許簡(jiǎn)單直接的人工檢驗(yàn)。


因此,將數(shù)據(jù)驅(qū)動(dòng)的方法轉(zhuǎn)移到安全-緊要的應(yīng)用程序成為了一個(gè)重大挑戰(zhàn)。通常,在這些情況下,由于高獲取成本,或者至少出于倫理原因,標(biāo)記數(shù)據(jù)比較稀缺。此外,開發(fā)人員和用戶都假定需求能夠理解所部署模型推理的決策。為了解決這兩個(gè)問題,開發(fā)知識(shí)源的方式,如物理基本定律、邏輯數(shù)據(jù)庫、某些場(chǎng)景的常見行為或簡(jiǎn)單地反例等,是發(fā)展純數(shù)據(jù)驅(qū)動(dòng)模型去增強(qiáng)抗干擾能力、更好地泛化未知樣本、以及和安全可靠行為的現(xiàn)有原則保持一致的關(guān)鍵。

2.1 感知:作者是Rizvi, Munir, van Elst

計(jì)算機(jī)視覺方法和一般的機(jī)器學(xué)習(xí)(ML)方法在過去幾年中有了顯著的改進(jìn)。各種不同的方法能夠準(zhǔn)確地解釋圖像或視頻中呈現(xiàn)的情況。即使有了這樣的進(jìn)步,在某些情況下,ML方法的反應(yīng)與人類不同。造成這種差距的主要原因是所學(xué)模型缺乏背景知識(shí)。


ML方法只考慮訓(xùn)練數(shù)據(jù)中存在的模式,而人類擁有可以幫助他們更有力地解釋危急情況的隱性知識(shí)。在自動(dòng)駕駛場(chǎng)景,也是一般情況下,不可能針對(duì)道路上可能發(fā)生的每種情況去訓(xùn)練模型。為了給行人和自動(dòng)駕駛車輛提供更安全的環(huán)境,重要的是將知識(shí)并入負(fù)責(zé)做出重要決策的模塊中。

2.2 環(huán)境理解:作者是Bogdoll, Vivekanandan, Qureishi, Schunk

配備4級(jí)或5級(jí)自動(dòng)駕駛系統(tǒng)的車輛有望在其ODD內(nèi)掌握各種情況。由于許多情況在現(xiàn)實(shí)生活中并不經(jīng)常發(fā)生,基于ML的系統(tǒng)很難在已經(jīng)訓(xùn)練過的領(lǐng)域進(jìn)行推斷。因此,將基于規(guī)則/知識(shí)的算法和領(lǐng)悟,集成到ML系統(tǒng)中,這樣的混合方法有可能將兩個(gè)世界的最佳特性結(jié)合起來——出色的總體性能和對(duì)罕見情況(如極端案例)的改進(jìn)處理。

2.3 規(guī)劃:作者是Bu?hrle, Ko?nigshof, Vivekanandan, Nekolla

L5級(jí)自動(dòng)駕駛車輛,預(yù)計(jì)將在各種ODD發(fā)揮作用。雖然安全舒適駕駛的基本原則保持不變,但交通法規(guī)、習(xí)慣行為和場(chǎng)景結(jié)構(gòu)層面的具體實(shí)施可能會(huì)發(fā)生變化。將知識(shí)納入運(yùn)動(dòng)規(guī)劃系統(tǒng)將通過增加可追溯性(例如,在碰撞重建的情況下)和可靠性,更容易處理這些情況。此外,基于人類-機(jī)器共識(shí)的透明決策過程將提高可解釋性和信任度。預(yù)計(jì)會(huì)出現(xiàn)大量模擬測(cè)試的替代方案,這是當(dāng)前驗(yàn)證的概念核心。


強(qiáng)調(diào)一下知識(shí)整合的優(yōu)勢(shì)。一種方法擴(kuò)展智體的獎(jiǎng)勵(lì)函數(shù),以社會(huì)規(guī)范的形式整合規(guī)則,例如,以最小距離通過目標(biāo)。違反這些規(guī)則,將導(dǎo)致獎(jiǎng)懲。結(jié)果發(fā)現(xiàn)有這種限制的智體表現(xiàn)出與人類更相似的行為。因此,當(dāng)將知識(shí)整合到機(jī)器學(xué)習(xí)流水線時(shí),不僅對(duì)于專家而且對(duì)于普通人,模型變得更具解釋性和可信,因?yàn)檫@些約束發(fā)生在日常生活中。


此外,對(duì)智體知識(shí)的擴(kuò)展減少了學(xué)習(xí)努力,從而加速了訓(xùn)練,并在大多數(shù)情況下能夠超越原基準(zhǔn)算法。盡管有這些有希望的好處,但集成知識(shí)通常會(huì)縮小各種可能解決方案的范圍,同時(shí)耗費(fèi)人力進(jìn)行手工勞動(dòng)。這收縮了機(jī)器學(xué)習(xí)最初的、整體的方法。因此,需要仔細(xì)選擇知識(shí)整合和自學(xué)習(xí)之間的權(quán)衡。

符號(hào)(symbolic)和亞符號(hào)(sub-symbolic)方法代表人工智能的兩端。然而,在數(shù)據(jù)驅(qū)動(dòng)的亞符號(hào)/統(tǒng)計(jì)世界中,符號(hào)空間中用于集成或擴(kuò)充的知識(shí)表示仍然存在一個(gè)核心挑戰(zhàn)。

3.1 符號(hào)表征和知識(shí)制作:作者是Mattern, Glei?ner

  • 符號(hào)表征

與數(shù)字表征(例如矢量嵌入)不同,符號(hào)表征使用符號(hào)來表示事物(汽車、摩托車、交通標(biāo)志)、人(行人、駕駛員、警察)、抽象概念(超車、剎車、減速)或非物理事物(網(wǎng)站、博客、上帝)及其關(guān)系。符號(hào)知識(shí)表征包括各種邏輯形式主義,以及用屬性、類層次結(jié)構(gòu)和關(guān)系表示實(shí)體的結(jié)構(gòu)知識(shí)。


邏輯形式主義用來將知識(shí)(主要是事實(shí)和規(guī)則)表示為形式邏輯術(shù)語。邏輯形式主義或邏輯系統(tǒng)在表現(xiàn)力、復(fù)雜性和可判定性方面有所不同。正確形式主義的選擇取決于要建模的具體問題。最簡(jiǎn)單的(可判定)邏輯形式主義是命題邏輯(propositional logic)。它由一組代表單個(gè)命題的符號(hào)和一組定義命題之間關(guān)系或修改命題數(shù)值的連接而組成。命題的值可以是true,也可以是false。


為了使邏輯陳述適用于許多目標(biāo),謂詞邏輯(predicate logic),也稱為一階邏輯(FOL),用真值函數(shù)、謂詞、常量、變量和數(shù)量詞擴(kuò)展命題邏輯。謂詞邏輯比命題邏輯更具表現(xiàn)力,但并不總是可判定的,這意味著不能在每種情況下推斷語句的真值。


法律規(guī)范的計(jì)算機(jī)可解釋形式化是法律信息學(xué)領(lǐng)域的一個(gè)活躍研究課題。法律規(guī)則和規(guī)范的形式化有多種邏輯形式,例如標(biāo)準(zhǔn)道義邏輯(SDL,Standard Deontic Logic)、具體化輸入輸出邏輯(Reified Input-Output Logic)或(非道義的)時(shí)域邏輯(Temporal Logic)。然而,對(duì)于“最佳”邏輯形式主義仍然沒有共識(shí)。為了使形式化的法律規(guī)則對(duì)可能的(道義的)邏輯系統(tǒng)不可知,要使用法律規(guī)范的中間形式表征。

  • 知識(shí)制作

關(guān)于實(shí)體、概念、層次結(jié)構(gòu)和屬性以及與另一個(gè)實(shí)體的關(guān)系,這些知識(shí)可以自然地通過圖結(jié)構(gòu)表征。結(jié)構(gòu)知識(shí)的圖結(jié)構(gòu)表征的突出例子是分類法(Taxonomies)、本體論(Ontologies)和知識(shí)圖(Knowledge Graphs)。


“知識(shí)圖獲取信息并將其集成到本體中,并應(yīng)用推理機(jī)來獲取新知識(shí)?!痹谥R(shí)圖中,來自異構(gòu)數(shù)據(jù)源的數(shù)據(jù)通過上下文信息和元數(shù)據(jù)(例如,有關(guān)來源或版本信息)進(jìn)行集成、鏈接和豐富,并用本體論進(jìn)行語義描述。通過鏈接結(jié)構(gòu),知識(shí)圖在語義搜索應(yīng)用程序和推薦系統(tǒng)中得到了顯著的應(yīng)用,而且在以本體形式呈現(xiàn)規(guī)范元提要(meta-schema)時(shí),也允許邏輯推理。

  • 應(yīng)用

符號(hào)表征,通過將檢測(cè)目標(biāo)映射到當(dāng)前交通場(chǎng)景的正式語義表征(例如,場(chǎng)景圖),改進(jìn)了場(chǎng)景理解。為了將知識(shí)集成到機(jī)器學(xué)習(xí)算法中,這種知識(shí)的表示是必不可少的。雖然這種知識(shí)是以嵌入的形式存在的,但符號(hào)表征允許追溯,并使其為人類所理解。


給定交通規(guī)則的合理形式化,以及交通場(chǎng)景中實(shí)體、行為和法律概念的語義表征(類似于隱私概念中的法律本體建模),可以得出自動(dòng)駕駛車輛的當(dāng)前法律狀態(tài)。


類似于將符號(hào)表征應(yīng)用于形勢(shì)理解,用交通規(guī)則和法律概念的形式表征以及符號(hào)場(chǎng)景描述,通過對(duì)可能的替代軌跡和動(dòng)作進(jìn)行排序,例如根據(jù)法律后果,來執(zhí)行規(guī)劃任務(wù)。

3.2 知識(shí)表征的學(xué)習(xí):作者是Zwicklbauer

數(shù)據(jù)驅(qū)動(dòng)和知識(shí)驅(qū)動(dòng)的人工智能系統(tǒng),二者優(yōu)勢(shì)和劣勢(shì)互補(bǔ),導(dǎo)致大量研究工作集中在符號(hào)(如知識(shí)圖KG)和統(tǒng)計(jì)(如NNs)方法的結(jié)合。一種很有希望的方法是將符號(hào)知識(shí)轉(zhuǎn)換為嵌入式表征,即先驗(yàn)知識(shí)的密集實(shí)向量,NNs可以去自然處理。符號(hào)知識(shí)的典型例子是文本描述、基于圖的定義或命題邏輯規(guī)則。


知識(shí)表征學(xué)習(xí)(KRL)的研究領(lǐng)域旨在將先驗(yàn)知識(shí)(例如實(shí)體、關(guān)系或規(guī)則)表示到嵌入表征中,用于改進(jìn)或解決推理(inference)或推想(reasoning)任務(wù)。大多數(shù)現(xiàn)有文獻(xiàn)將KRL定義為僅從知識(shí)圖轉(zhuǎn)換成先驗(yàn)知識(shí),從而縮小了問題的范圍。這里討論重點(diǎn)也在于基于圖結(jié)構(gòu)的知識(shí)建模。

  • 規(guī)則注入的嵌入表征

知識(shí)圖最近圖神經(jīng)網(wǎng)絡(luò)(GNN)被引入,致力于顯式地建模(知識(shí))圖的特性。特別是,多個(gè)關(guān)系圖的圖卷積網(wǎng)絡(luò)(GCN)將非決定性神經(jīng)網(wǎng)絡(luò)推廣到非歐幾里德數(shù)據(jù),并從實(shí)體的鄰域收集信息,所有鄰域在信息傳遞中的貢獻(xiàn)相等。圖卷積網(wǎng)絡(luò)大多建立在節(jié)點(diǎn)聚合(node aggregation)的消息傳遞(message passing)神經(jīng)網(wǎng)絡(luò)框架之上。


圖注意網(wǎng)絡(luò)(graph attention networks)采用鄰域注意操作可以增強(qiáng)圖神經(jīng)網(wǎng)絡(luò)的表征能力。與自然語言模型類似,這些方法在聚合消息時(shí)應(yīng)用了多頭自注意機(jī)制,關(guān)注特定的鄰域交互。最近有采用生成對(duì)抗網(wǎng)絡(luò)(GANs)改變這種表征的質(zhì)量,其中生成器經(jīng)過訓(xùn)練生成負(fù)樣本。


除此之外,特定的規(guī)則(軟或硬規(guī)則)可以從知識(shí)圖中派生出來,也稱為規(guī)則學(xué)習(xí)(rule learning),或者在嵌入式學(xué)習(xí)過程中采用,也稱為規(guī)則注入(rule injection)。


除了直接從底層知識(shí)圖中挖掘規(guī)則外,還有其他方法試圖應(yīng)用更多外部規(guī)則。例如,通過使用非負(fù)性和近似蘊(yùn)涵(entailment)約束來學(xué)習(xí)緊湊的實(shí)體表征,提高嵌入對(duì)規(guī)則建模的能力。前者自然地誘導(dǎo)稀疏性和嵌入可解釋性,而后者可以在編碼分布表征中關(guān)系之間的邏輯蘊(yùn)涵規(guī)則。


也有將關(guān)系編碼為凸區(qū)域,這是考慮不同關(guān)系之間依賴關(guān)系先驗(yàn)知識(shí)的自然方式。有一種方法Query2box,將實(shí)體(和查詢)編碼為超矩形(hyper-rectangles),也稱為框嵌入(box embeddings),以克服點(diǎn)查詢的問題,即一個(gè)復(fù)雜查詢表示了其答案實(shí)體的一個(gè)潛在大集合,但不清楚如何將這樣一個(gè)集合表示為單個(gè)點(diǎn)??蚯度胍脖挥糜诮2淮_定性本體概念的分層特性。


目前,知識(shí)圖在自動(dòng)駕駛領(lǐng)域的應(yīng)用還沒有受到太多關(guān)注,盡管是一種幫助理解形勢(shì)或場(chǎng)景的有效方法。

有大量的方法和途徑側(cè)重于額外的先驗(yàn)知識(shí)增強(qiáng)數(shù)據(jù)驅(qū)動(dòng)的模型和算法。其中最突出的方法是通過定制成本函數(shù)修改訓(xùn)練目標(biāo)函數(shù),尤其是受知識(shí)影響的約束和懲罰項(xiàng)。這個(gè)通常伴隨著特定問題的體系結(jié)構(gòu)設(shè)計(jì),導(dǎo)致混合模型以邏輯表達(dá)或知識(shí)圖的形式應(yīng)用符號(hào)知識(shí)。符號(hào)和亞符號(hào)方法的合并,稱為神經(jīng)符號(hào)集成(neural-symbolic integration)。


除了外部輸入,最近的方法最好依賴于內(nèi)部表征,以便將注意力集中在網(wǎng)絡(luò)本身的確切特征和概念。最后但并非最不重要的一點(diǎn)是,數(shù)據(jù)增強(qiáng)(data augmentation)技術(shù)構(gòu)成了將額外的領(lǐng)域知識(shí)集成到數(shù)據(jù)的主干,從而間接集成到模型之中。


除了這些流行的通用方法外,更適合自主駕駛領(lǐng)域的方法和范例,會(huì)考慮到多個(gè)與特定環(huán)境交互的智體。比如狀態(tài)空間模型和強(qiáng)化學(xué)習(xí)去推斷和預(yù)測(cè)智體的狀態(tài),還有信息融合方法中位置信息和語義信息的參與。

4.1 輔助損失和約束:作者是Werner, Pintz, von Rueden, Stehr

機(jī)器學(xué)習(xí)中常用的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM),原則相當(dāng)于用ERM來代替難以解決的風(fēng)險(xiǎn)最小化,即真實(shí)數(shù)據(jù)分布的預(yù)期損失。預(yù)期損失與其經(jīng)驗(yàn)近似值之間的不匹配導(dǎo)致ERM產(chǎn)生的模型不能很好地推廣到未見的數(shù)據(jù)。這表現(xiàn)為過擬合,即模型對(duì)訓(xùn)練數(shù)據(jù)的描述過于仔細(xì),無法捕捉整體數(shù)據(jù)分布;或者表現(xiàn)為欠擬合,即模型無法捕捉數(shù)據(jù)的根本結(jié)構(gòu)。正則化方案,可緩解過擬合的問題。結(jié)構(gòu)風(fēng)險(xiǎn)最小化(SRM)原則擴(kuò)展了ERM原則,即正則化。


SRM尋求在經(jīng)驗(yàn)風(fēng)險(xiǎn)和模型復(fù)雜性之間最佳折衷的模型,通過Vapnik-Chervonenkis dimension(VC維度)或Rademacher復(fù)雜度來衡量。在實(shí)踐中,通過增加正則化項(xiàng)來最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)。這項(xiàng)技術(shù)成功地進(jìn)入了變量選擇(variable selection)域,如開創(chuàng)性工作LASSO。正則化通常被證明在高維回歸、分類、聚類、排名和稀疏方差或精度矩陣估計(jì)等應(yīng)用中,是不可或缺的。

  • 通過輔助損失的知識(shí)集成

至于知識(shí)注入到人工智能(AI),一種自然的策略是,類似地使用與形式化知識(shí)(formalized knowledge)相對(duì)應(yīng)的正則化術(shù)語(所謂的輔助損失)。然而,約束也可能以硬約束的形式出現(xiàn),例如,如果一定不能違反某些邏輯規(guī)則,那么通過輔助損失以軟約束方式集成是不合適的,例如依賴性或正則化先驗(yàn)知識(shí)。


為了提高公眾對(duì)自動(dòng)駕駛車輛的接受度,深度模型的可解釋性(interpretability)和解釋性(explainability)改進(jìn)相當(dāng)有意義。知識(shí)集成,除了得到更好的泛化性能外,一個(gè)重要副作用是通過至少部分解釋知識(shí)的預(yù)測(cè),提高了模型的解釋性和可解釋性(explainability and interpretability)。


基于知識(shí)的正則化項(xiàng),有可能通過鼓勵(lì)機(jī)器學(xué)習(xí)模型尊重現(xiàn)有知識(shí)顯著改進(jìn)模型,這樣在訓(xùn)練期間從零開始重新學(xué)習(xí)這些知識(shí)效率更高。要注意的是,如果數(shù)據(jù)中不存在知識(shí)(例如,如果與罕見情況相關(guān)),或者如果無法輕松從數(shù)據(jù)中導(dǎo)出知識(shí),也可以通過損失和懲罰項(xiàng)進(jìn)行知識(shí)整合。

  • 其他約束的知識(shí)集成

損失函數(shù)中添加基于知識(shí)的正則化項(xiàng)通常以軟方式強(qiáng)制約束。然而,在許多情況下,我們希望確保完全滿足約束,即要強(qiáng)制執(zhí)行硬約束,對(duì)應(yīng)于帶無限正則化參數(shù)的輔助正則化項(xiàng)情況。除了輔助損失外,通常還采用其他約束并入(constraint incorporation)方法,如結(jié)構(gòu)改變,或不同優(yōu)化方案,如projected gradient descent 或者 conditional gradients。

  • 基于知識(shí)DNN的不確定性量化

一種不確定性量化方法,是物理引導(dǎo)的架構(gòu)與蒙特卡羅(MC)dropout結(jié)合。物理引導(dǎo)的神經(jīng)網(wǎng)絡(luò)方法仍然產(chǎn)生黑盒模型,權(quán)重的隨機(jī)下降再次導(dǎo)致物理上不一致的預(yù)測(cè)。


通過引入物理通知的連接和物理中間變量,賦予某些神經(jīng)元一種物理解釋,可解決這個(gè)問題。一種保持單調(diào)性的LSTM(Long Short- Term Memory),提取時(shí)域特征并預(yù)測(cè)中間物理量(水密度),將其硬編碼到體系結(jié)構(gòu),這樣滿足單調(diào)性。然后,多層感知器(MLP)將這些預(yù)測(cè)與輸入結(jié)合起來,得到預(yù)測(cè)響應(yīng)。MC dropout注入的擾動(dòng)不會(huì)破壞與物理知識(shí)的一致性。針對(duì)前向和逆向隨機(jī)問題,調(diào)用多項(xiàng)式雜亂(polynomial chaos)和MC-dropout,得到一種dropout方法的變型,用于物理引導(dǎo)NNs的不確定性估計(jì)(近似不確定性和參數(shù)不確定性)。

  • 應(yīng)用

知識(shí)整合涉及到幾個(gè)感知任務(wù),即目標(biāo)檢測(cè)、語義分割、人體姿勢(shì)估計(jì)、跟蹤、軌跡預(yù)測(cè)和規(guī)劃等。

4.2 神經(jīng)-符號(hào)集成:作者是 Glei?ner, Gottschall, Hesels, Srinivas

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)(所謂的亞符號(hào)AI技術(shù))已被證明能夠在多種類型的模式識(shí)別任務(wù)中取得優(yōu)異的性能:圖像識(shí)別、語言翻譯、醫(yī)療診斷、語音識(shí)別和推薦系統(tǒng)等。


雖然那些需要處理大量噪聲輸入的任務(wù)準(zhǔn)確性通常與人類的能力相當(dāng),甚至更高,但它們也有一些缺點(diǎn):通常無法為輸出提供任何理由,需要(太)多的數(shù)據(jù)和計(jì)算能力來進(jìn)行訓(xùn)練,易受對(duì)抗攻擊,經(jīng)常被批評(píng)在訓(xùn)練分布之外(OOD)泛化能力較弱。另一方面,“經(jīng)典”的所謂符號(hào)AI系統(tǒng),如推理引擎(reasoning engines),可以提供可解釋的輸出,但在處理有噪聲的輸入表現(xiàn)不佳。


符號(hào)AI域和亞符號(hào) AI域的融合方法是神經(jīng)-符號(hào)集成的目的。其目標(biāo)是通過集成這兩個(gè)域的方法來彌補(bǔ)彼此的缺點(diǎn),并結(jié)合彼此優(yōu)點(diǎn)。AAAI 2020上給出第一個(gè)神經(jīng)-符號(hào)集成的分類法:

  • 通過符號(hào)輸入(如機(jī)器翻譯)創(chuàng)建符號(hào)輸出的神經(jīng)網(wǎng)絡(luò)

  • 符號(hào)問題求解器的神經(jīng)模式識(shí)別子程序,例如AlphaGo核心神經(jīng)網(wǎng)絡(luò)中的蒙特卡羅搜索(MCTS)

  • 將神經(jīng)和符號(hào)連接在一起并利用其他系統(tǒng)輸出的系統(tǒng),例如神經(jīng)-符號(hào)概念學(xué)習(xí)者(concept learner)或與符號(hào)規(guī)劃器(symbolic planners)合作的強(qiáng)化智體

  • 將知識(shí)編譯到網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò),例如if-then規(guī)則

  • 嵌入神經(jīng)網(wǎng)絡(luò)的符號(hào)邏輯規(guī)則,執(zhí)行正則化

  • 能夠進(jìn)行符號(hào)推理的神經(jīng)網(wǎng)絡(luò),如定理證明


  • 用于推理的神經(jīng)符號(hào)方法

GNN在解決推理任務(wù)時(shí)有兩個(gè)主要優(yōu)勢(shì)。通過架構(gòu)直接應(yīng)用歸納偏差(inductive bias),由于其更新和聚合功能而提供排列不變性(permutation invariance)。排列不變性簡(jiǎn)化了文字和子句的表征。因此,邏輯符號(hào)的順序并不影響這些子句的學(xué)習(xí)和理解。GNN應(yīng)用視覺場(chǎng)景理解和推理,優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)。


一階邏輯的張量化(Tensorization)是另一種集成深度學(xué)習(xí)和神經(jīng)符號(hào)解決推理任務(wù)的方法。實(shí)邏輯(Real Logic)是一種多值、端到端可微分的一階邏輯,由一系列常量、函數(shù)、關(guān)系和變量符號(hào)組成。根據(jù)這些符號(hào)建立的公式可能部分正確,因此實(shí)邏輯包含模糊語義。


常量、函數(shù)和謂詞也可以是由域符號(hào)表示的不同類型。邏輯還包括連接詞和量詞。語義上,實(shí)邏輯將每個(gè)常量、變量和術(shù)語解釋為實(shí)數(shù)的張量,而每個(gè)函數(shù)和謂詞解釋為實(shí)函數(shù)或張量運(yùn)算。


此外,還有多種相關(guān)方法將邏輯推理和深度學(xué)習(xí)結(jié)合,同時(shí)具有端到端的可微分性:

  • 邏輯神經(jīng)網(wǎng)絡(luò)使用邏輯語言定義其架構(gòu)。通過應(yīng)用加權(quán)實(shí)邏輯,采用不同的激活函數(shù)表示不同的邏輯算子,建立樹狀結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)

  • DeepProbLog是一種概率邏輯程序語言,實(shí)現(xiàn)一個(gè)神經(jīng)網(wǎng)絡(luò),通過應(yīng)用邏輯推理來解決推理任務(wù)


  • 用于上下文理解的神經(jīng)-符號(hào)架構(gòu)

這里討論神經(jīng)符號(hào)的兩種應(yīng)用。


第一個(gè)應(yīng)用側(cè)重于自動(dòng)駕駛,用知識(shí)圖嵌入(Knowledge Graph Embedding)算法將知識(shí)圖轉(zhuǎn)換為向量空間。知識(shí)圖是從NuScenes數(shù)據(jù)集生成的,由給定有場(chǎng)景正式定義的場(chǎng)景本體(Scene Ontology)和分類系統(tǒng)定義的興趣特征(Features-of- Interests)和事件的子集組成。通過創(chuàng)建知識(shí)圖和知識(shí)圖嵌入,可以計(jì)算場(chǎng)景的距離,并找到視覺上看上去不同的類似情況。提出的創(chuàng)建知識(shí)圖嵌入方法有TransE、RESCAL和HoIE,其中TransE在定量知識(shí)圖嵌入質(zhì)量(Knowledge Graph Embeddings-quality)度量上表現(xiàn)出最一致的性能。


第二個(gè)應(yīng)用是“神經(jīng)問答(Neural Question-Answering)”,通過基于注意的注入(attention-based injection)進(jìn)行知識(shí)整合。該方法利用來自ConceptNet 和 ATOMIC的知識(shí),將常識(shí)知識(shí)融合到BERT的輸出,這樣注入選項(xiàng)比較網(wǎng)絡(luò)(Option Comparison Network)。在CommonsenseQA數(shù)據(jù)集評(píng)估分析表明,基于注意的注入更適合于知識(shí)注入。

  • 用于自主駕駛決策模塊設(shè)計(jì)的神經(jīng)符號(hào)程序搜索

采用神經(jīng)結(jié)構(gòu)搜索(NAS)框架,自動(dòng)合成神經(jīng)-符號(hào)決策程序(NSDP,Neuro-Symbolic Decision Program),可以改進(jìn)自動(dòng)駕駛系統(tǒng)的設(shè)計(jì)。神經(jīng)-符號(hào)程序搜索(NSPS,Neuro-Symbolic Program Search)通過融合神經(jīng)符號(hào)推理和表征學(xué)習(xí),合成端到端可微分神經(jīng)符號(hào)程序(NSPS,Neuro-Symbolic Programs)。


駕駛決策的符號(hào)表示用Domain-Specific Language(DSL)描述,用于自動(dòng)駕駛。DSL包含用于駕駛部件的基本原語(basic primitives),以及用于強(qiáng)制執(zhí)行更高級(jí)優(yōu)先級(jí)的條件語句。DSL的設(shè)計(jì)允許在可微分神經(jīng)符號(hào)行為范式指定自動(dòng)駕駛的所有行為。


此外,NSPS被描述為一個(gè)隨機(jī)優(yōu)化問題,可以有效地搜索集成神經(jīng)-符號(hào)操作的程序架構(gòu),確保端到端學(xué)習(xí)的可能性。如圖所示:NSPS與生成對(duì)抗性模仿學(xué)習(xí)(GAIL)相結(jié)合,以端到端的方式學(xué)習(xí)生成神經(jīng)符號(hào)決策程序,向運(yùn)動(dòng)規(guī)劃器和控制器輸出特定指令(例如,目標(biāo)航路點(diǎn)索引和目標(biāo)速度);其中NSPS搜索NSDP,通過反向傳播g更新α和β。

圖片


  • 應(yīng)用

首先是感知。神經(jīng)符號(hào)推理引擎可以利用世界知識(shí)或常識(shí)知識(shí)來理解感知模塊或這些模塊組合的場(chǎng)景。它可以作為一個(gè)正則化器(語義損失函數(shù))在訓(xùn)練感知神經(jīng)網(wǎng)絡(luò)過程中發(fā)揮作用,該神經(jīng)網(wǎng)絡(luò)描述場(chǎng)景,并懲罰被識(shí)別實(shí)體及其屬性或關(guān)系的不合理組合。第二,在推理過程中同樣的原理也適用,在推理過程中,感知模塊輸出多個(gè)可能的場(chǎng)景描述,推理引擎檢查場(chǎng)景中的矛盾元素,從而評(píng)估輸出的合理性。


在某些情況下,基于注意的注入方法可以用于推理,例如通過將Stra?enverkehrsordnung(StVO)注入QA網(wǎng)絡(luò),在BERT中編碼新的句子。DSL可以設(shè)計(jì)為包含StVO邏輯規(guī)則以及基本屬性(例如,速度、加速度、姿勢(shì)、關(guān)聯(lián)車道類型、車道屬性和道路類型),強(qiáng)制執(zhí)行更高級(jí)的機(jī)動(dòng)優(yōu)先級(jí)。


NSPS框架結(jié)合NAS的機(jī)制,可以用于為下游運(yùn)動(dòng)控制和規(guī)劃任務(wù)生成決策策略。類似地,NSPS框架生成神經(jīng)-符號(hào)行為程序(NSBP),對(duì)目標(biāo)車輛的行為進(jìn)行推理,支持場(chǎng)景中的協(xié)同規(guī)劃(cooperative planning)。合成的NSBP應(yīng)是涉及神經(jīng)-符號(hào)運(yùn)算(數(shù)值運(yùn)算和邏輯運(yùn)算)的操作,而不是普通的神經(jīng)網(wǎng)絡(luò)。NSPS框架和GAIL可用于端到端的方式學(xué)習(xí)NSBP。


其次是規(guī)劃。形式化知識(shí)(formalized knowledge)的創(chuàng)建需要一種能夠驗(yàn)證結(jié)果形式化的方法。其中一種方法是對(duì)測(cè)試用例查詢形式化(querying the formalization),比如檢查StVO目前形式化是否包含不需要的屬性,例子是為救護(hù)車讓路而危及行人是可以的。這些查詢也是形式化的語句,并由形式化知識(shí)的神經(jīng)符號(hào)推理引擎(neural-symbolic reasoning engine )來回答。


法律知識(shí)的形式化是檢查特定交通狀況采取或計(jì)劃采取的行動(dòng)是否符合StVO等法規(guī)的先決條件。神經(jīng)符號(hào)推理機(jī)可以執(zhí)行此類合規(guī)性檢查,增強(qiáng)自動(dòng)駕駛領(lǐng)域如下兩個(gè)應(yīng)用:首先,規(guī)劃器用合規(guī)性檢查評(píng)估多個(gè)行動(dòng)方案;其次,在規(guī)劃器的訓(xùn)練階段,合規(guī)性檢查可以被用作正則化,迫使模型更傾向于合規(guī)的、而不是不合規(guī)的解決方案。

4.3 注意機(jī)制:作者是Qiu

人類可以將注意力集中在視野或近期記憶中的特定區(qū)域,以避免過度消耗精力。受人類視覺注意的啟發(fā),算法的注意機(jī)制成為深度學(xué)習(xí)中的一個(gè)流行概念。與NLP的注意概念類似,許多機(jī)器學(xué)習(xí)任務(wù)也需要有效地關(guān)注特定的數(shù)據(jù)或信息。這種特定的關(guān)注點(diǎn)來自于對(duì)目標(biāo)任務(wù)非常有幫助的先驗(yàn)知識(shí)或經(jīng)驗(yàn)。


此外,這些注意力集中的信息通常對(duì)人類的理解是直觀的,并且提供了有用的解釋能力。例如,圖像字幕任務(wù)在輸入圖像上查找熱圖,該熱圖指示字幕詞所指的位置。如果將注意機(jī)制視為人類知識(shí)的一種形式,那么學(xué)習(xí)這種語義知識(shí)有望提高網(wǎng)絡(luò)性能。


在計(jì)算機(jī)視覺(CV)任務(wù)中,注意機(jī)制分為三種不同的建模方法:空間注意、通道注意和自注意。


CV中的注意機(jī)制廣泛應(yīng)用于行人檢測(cè)等自主駕駛感知任務(wù)中。注意機(jī)制不是直接用于規(guī)劃,而是用于規(guī)劃或決策的可解釋性。Berkeley Deep Drive用注意熱圖來解釋為什么車輛會(huì)采取某種控制器行為,并生成文本解釋。注意機(jī)制在訓(xùn)練過程中不斷更新,同時(shí)也最終影響訓(xùn)練結(jié)果。對(duì)于場(chǎng)景理解,它被認(rèn)為不是一種可行的方法。

4.4 數(shù)據(jù)增強(qiáng):作者是Matthes, Latka

數(shù)據(jù)增強(qiáng)(DA)包括一系列技術(shù),以很少的額外成本增加數(shù)據(jù)量。DA提供了一種集成知識(shí)的方法,有關(guān)輸入信號(hào)的具體變化如何影響模型目標(biāo)輸出,例如對(duì)小擾動(dòng)的不變性。使用增強(qiáng)數(shù)據(jù)進(jìn)行訓(xùn)練,通??梢蕴岣吣P偷姆夯芰?,在數(shù)據(jù)稀缺或不平衡的情況下尤其有用。


可以使用哪種技術(shù)取決于輸入數(shù)據(jù)的格式(例如,圖像、音頻、點(diǎn)云)和機(jī)器學(xué)習(xí)的任務(wù)。應(yīng)用的算法必須保留與任務(wù)相關(guān)的信息。例如,顏色空間扭曲可能有助于基于圖像的車牌識(shí)別(使模型對(duì)顏色變化更加魯棒),但可能會(huì)降低鳥類物種分類的性能,因?yàn)轭伾窃S多物種的重要區(qū)別特征。對(duì)于某些任務(wù),例如密度估計(jì),定義適當(dāng)?shù)臄?shù)據(jù)增強(qiáng)本身就很困難。另一方面,DA甚至是一些無監(jiān)督模型的組成部分,例如在對(duì)比學(xué)習(xí)中。


結(jié)構(gòu)因果模型(SCM,Structural Causal Models)對(duì)環(huán)境知識(shí)進(jìn)行編碼。這方面,可以被視為數(shù)據(jù)生成過程。從數(shù)學(xué)上講,SCM無非是一個(gè)有向無循環(huán)圖(DAG),同時(shí)具有一組函數(shù)和DAG根節(jié)點(diǎn)的分布。雖然DAG的節(jié)點(diǎn)對(duì)應(yīng)于環(huán)境變量,但其有向邊表示變量之間的獨(dú)立因果機(jī)制。特別是,因果機(jī)制描述了變量如何以確定性的方式相互影響。


因此,每個(gè)SCM自然地定義了其變量的聯(lián)合分布。所以,其形狀由函數(shù)集和SCM根變量的分布決定。此外,分布飄移可以在SCM框架中建模為干預(yù)措施,例如,將一種功能轉(zhuǎn)換為另一種功能。


SCM非常適合隨意生成有效且一致的樣本,因?yàn)樗鼈兣cSCM中編碼的因果關(guān)系一致。通過這種方式,SCMs可以作為一種輕量級(jí)的底層環(huán)境模擬器,根據(jù)具體的干預(yù)設(shè)置,產(chǎn)生不同的干預(yù)分布。更準(zhǔn)確地說,任意的訓(xùn)練集可以被認(rèn)為是由單個(gè)分布組成的。這些單獨(dú)的分布既可以表示未修改SCM所定義的分布,也可以源于生成數(shù)據(jù)時(shí)應(yīng)用于原始SCM的不同干預(yù)。


因此,干預(yù)措施有效地改變了環(huán)境,涵蓋了環(huán)境的合理變化。通過這種方式,從不同的聯(lián)合分布和干預(yù)分布(由原始SCM構(gòu)建)中采樣數(shù)據(jù),自然會(huì)增加整體訓(xùn)練分布的多樣性,可解釋為某種數(shù)據(jù)增強(qiáng)方法。


作為自動(dòng)駕駛環(huán)境下數(shù)據(jù)增強(qiáng)的另一個(gè)例子,例如,一個(gè)描述車輛軌跡的SCM(即,將車輛狀態(tài)和動(dòng)作連接到新狀態(tài)的物理定律)。車輛運(yùn)動(dòng)的新軌跡可以通過車輛SCM根據(jù)后續(xù)步驟從現(xiàn)有軌跡生成。


首先,外部(通常是)未觀察的隨機(jī)變量是從現(xiàn)有軌跡(稱為誘拐步驟)推斷出來的,有效地重建了記錄觀察軌跡時(shí)車輛所處的情況。


其次,對(duì)車輛SCM應(yīng)用一項(xiàng)干預(yù)或一系列干預(yù)(操作),同時(shí)從誘拐步驟維持更新的分布。


第三,(干預(yù)后的)SCM預(yù)測(cè)一條基于觀察軌跡的新軌跡。剛才描述的過程返回了一個(gè)所謂的反事實(shí)(counterfactual)軌跡,如果采取了另一系列行動(dòng),該軌跡可能已經(jīng)演變。從這個(gè)意義上說,這種技術(shù)將觀察軌跡轉(zhuǎn)換為反事實(shí)軌跡,同時(shí)遵守SCM中未被干預(yù)的其他部分(數(shù)據(jù)轉(zhuǎn)換)。


因此,該技術(shù)允許以一種方式增強(qiáng)數(shù)據(jù),即仍然固定在一個(gè)觀察軌跡上,但同時(shí)生成更多數(shù)據(jù),尤其是覆蓋危險(xiǎn)和代表性不足的場(chǎng)景。此外,該技術(shù)被證明有助于解釋機(jī)器學(xué)習(xí)(ML)模型決策的原因。

4.5 狀態(tài)模型:作者Reichardt

駕駛本身就是一種連續(xù)的動(dòng)態(tài)活動(dòng)。感官信息是通過一系列觀察獲得的,這些觀察在很大范圍的時(shí)間尺度上表現(xiàn)出因果依賴性和相關(guān)性。


作為一個(gè)被動(dòng)觀察者,理解任何動(dòng)態(tài)現(xiàn)象的能力取決于預(yù)測(cè)未來觀察結(jié)果的能力。概率上講,動(dòng)態(tài)過程可能固有的隨機(jī)性,只能根據(jù)分布來理解和建模,而不是單個(gè)結(jié)果。一旦得到必要的分布,就能夠優(yōu)化/規(guī)劃動(dòng)作,增加預(yù)期未來結(jié)果和觀察出現(xiàn)的機(jī)會(huì)。


牢固植根于概率論的狀態(tài)空間模型(SSM),特別適合于研究源自交通現(xiàn)象的穩(wěn)定信息流,已經(jīng)滲透到駕駛的各個(gè)方面,從感知到形勢(shì)理解和規(guī)劃。


在知識(shí)集成的背景下SSMs代表了一個(gè)算法先驗(yàn),提供了概率分布的框架及其相應(yīng)的條件獨(dú)立結(jié)構(gòu)。然后可以使用數(shù)據(jù)驅(qū)動(dòng)的方法來學(xué)習(xí)這些概率分布的參數(shù)化。理想情況下,優(yōu)化和學(xué)習(xí)可以端到端地實(shí)現(xiàn)。


先說在感知的應(yīng)用。

自動(dòng)駕駛的感知階段,通過生成觀測(cè)模型或觀測(cè)似然,可進(jìn)入SSM。原則上,觀測(cè)值可以是原始的感官輸入,如相機(jī)圖像或激光雷達(dá)點(diǎn)云,但如果不做強(qiáng)近似,目前這種思路在計(jì)算上是不可行的。一種替代方法是放棄觀測(cè)模型的生成性,學(xué)習(xí)直接估計(jì)后驗(yàn)狀態(tài)密度,這種方法被稱為鑒別濾波器。然而,請(qǐng)注意,這種方法僅適用于固定歷史長度,因此犧牲了在任意長度時(shí)間內(nèi)標(biāo)準(zhǔn)公式表示相關(guān)性的能力。


第二種方法是通過檢測(cè)算法對(duì)原始傳感器數(shù)據(jù)進(jìn)行預(yù)處理,產(chǎn)生與目標(biāo)級(jí)數(shù)據(jù)相對(duì)應(yīng)的觀測(cè)值。這與“tracking- from-detection”的范式相對(duì)應(yīng)。進(jìn)一步區(qū)分的話,一個(gè)目標(biāo)要么最多只能進(jìn)行一次檢測(cè)(“點(diǎn)檢測(cè)算法”),要么進(jìn)行多次檢測(cè)。如果后者不是偽影(artifacts)而是多個(gè)傳感器讀取目標(biāo)物理擴(kuò)展的結(jié)果,則會(huì)產(chǎn)生所謂的“擴(kuò)展目標(biāo)跟蹤(extended object tracking)”算法。如果可以從每個(gè)可用的傳感器模態(tài)中進(jìn)行檢測(cè),則觀測(cè)似然是執(zhí)行傳感器融合的自然方法?;蛘撸谠紓鞲衅鲬?yīng)用檢測(cè)算法之前,先執(zhí)行傳感器融合。


與在交通中觀察到的一組目標(biāo)相對(duì)應(yīng),檢測(cè)算法將返回一組檢測(cè)結(jié)果。然而,檢測(cè)算法并不完美。可能存在所謂雜波(clutter)的錯(cuò)誤檢測(cè),而這些雜波并非來自實(shí)際目標(biāo)。也可能是由于檢測(cè)算法的遮擋或故障當(dāng)前時(shí)刻不被檢測(cè)的目標(biāo)。


此外,檢測(cè)不一定被標(biāo)注,即,跟蹤目標(biāo)與其檢測(cè)之間不存在已知的對(duì)應(yīng)關(guān)系。由此產(chǎn)生多目標(biāo)跟蹤的所謂數(shù)據(jù)關(guān)聯(lián)問題:需要找到觀測(cè)集元素與被跟蹤目標(biāo)集元素之間的這種對(duì)應(yīng)關(guān)系。有標(biāo)準(zhǔn)算法可以解決這個(gè)問題。一旦建立了這種對(duì)應(yīng)關(guān)系,并且更新了跟蹤目標(biāo)的后驗(yàn)狀態(tài)估計(jì),就無法恢復(fù)任何在更新錯(cuò)誤檢測(cè)目標(biāo)的狀態(tài)向量時(shí)發(fā)生的錯(cuò)誤。


為了緩解這個(gè)問題,所謂的多假設(shè)跟蹤(MHT)算法保留了幾個(gè)看似合理的潛在數(shù)據(jù)關(guān)聯(lián)假設(shè),直到通過額外證據(jù)數(shù)據(jù)關(guān)聯(lián)中可能存在的不確定性得到解決。


SSMs的另外兩個(gè)方面與感知模塊有關(guān),可以知識(shí)集成。第一種是所謂的出生(birth)模型,可以表示傳感器的靈敏度,以及物體將在何處以及如何進(jìn)入自動(dòng)駕駛車輛傳感器范圍的先驗(yàn)。第二個(gè)是可以進(jìn)一步指定觀測(cè)模型的探測(cè)概率、生存概率和雜波強(qiáng)度等。


SSM的一部分吸引力在于,它們可以用于對(duì)移動(dòng)交通參與者以及從移動(dòng)傳感器看到的靜態(tài)環(huán)境進(jìn)行建模。


形勢(shì)理解主要包括兩個(gè)關(guān)鍵任務(wù),即根據(jù)過去的觀測(cè)值估計(jì)和跟蹤系統(tǒng)的當(dāng)前狀態(tài),即狀態(tài)跟蹤和濾波問題。具體而言,這涉及到地圖和定位問題,即根據(jù)觀察結(jié)果建模靜態(tài)環(huán)境,并查找該環(huán)境中自車和其他交通參與者。


需要注意的是,狀態(tài)更新方程的評(píng)估速度通常是新觀測(cè)值可用的速度?T≤ 50ms,因此運(yùn)動(dòng)模型用于非常短的預(yù)測(cè)范圍。所以,人們通常使用簡(jiǎn)單的運(yùn)動(dòng)學(xué)模型,然后可以將模型不確定性充分建模為隨機(jī)噪聲,并使用數(shù)據(jù)來調(diào)整噪聲分布。特別是,在多目標(biāo)跟蹤中,人們可能會(huì)假設(shè)單智體的運(yùn)動(dòng)是獨(dú)立的,而忽略與環(huán)境和其他交通參與者的交互。這種簡(jiǎn)化會(huì)導(dǎo)致一種問題:隨時(shí)間范圍增長,當(dāng)沒有新的觀察結(jié)果(例如由于遮擋)時(shí)候,錯(cuò)誤會(huì)增加。


形勢(shì)理解的第二項(xiàng)任務(wù)是將這種估計(jì)擴(kuò)展到未來,并實(shí)現(xiàn)對(duì)安全舒適駕駛至關(guān)重要的預(yù)期規(guī)劃?,F(xiàn)在預(yù)測(cè)交通的狀態(tài)在時(shí)間尺度上的演變?t通常用于駕駛操作,即幾秒鐘,情況則變得明顯不同??紤]如圖所示的情況:其中描述了兩輛車在高速公路入口匝道上行駛,出現(xiàn)潛在沖突的軌跡規(guī)劃問題;現(xiàn)在,每輛車只有一條合理的未來軌跡,甚至場(chǎng)景未來演變的不確定性也降低了。這強(qiáng)調(diào)了對(duì)交通參與者的意圖(intention)進(jìn)行建模的必要性。

圖片


駕駛員意圖通常被建模為一個(gè)不可觀測(cè)的離散狀態(tài)變量,表示幾種可能的操作之一,如左變道、右轉(zhuǎn)、跟車道。這些類別必須是相互排斥的,并且整體上是全面的,具體類別必須從觀察中推斷出來。通常,專門的運(yùn)動(dòng)模型與一個(gè)機(jī)動(dòng)類別相關(guān)聯(lián),從而為此類機(jī)動(dòng)目標(biāo)提供所謂的多模型過濾器(multiple model filters)。


完全減少關(guān)于未來軌跡的不確定性,不總是可能的,所以必須為未來軌跡提供不止一種可能的選擇。這意味著對(duì)單個(gè)交通參與者的運(yùn)動(dòng)以及場(chǎng)景中的整個(gè)交通參與者來說,預(yù)測(cè)都應(yīng)該是多模態(tài)的。在分解(factorization)假設(shè)下,這可能會(huì)導(dǎo)致整個(gè)交通場(chǎng)景(包括許多具有沖突軌跡的未來場(chǎng)景)可能未來的組合爆炸(combinatorial explosion)。這個(gè)問題的解決可以通過相應(yīng)的計(jì)算努力修剪這些沖突場(chǎng)景。更理想的是為整個(gè)交通場(chǎng)景建立一個(gè)運(yùn)動(dòng)模型,從一開始就產(chǎn)生無沖突的場(chǎng)景集。

4.6 強(qiáng)化學(xué)習(xí):作者是Rudolph, Bogdoll, Josep

強(qiáng)化學(xué)習(xí)(RL)是一組技術(shù),智體在一段時(shí)間內(nèi)在給定獎(jiǎng)勵(lì)信號(hào)的情況下優(yōu)化其行為。智體通過在每個(gè)時(shí)間步中執(zhí)行操作與環(huán)境進(jìn)行交互。根據(jù)當(dāng)前狀態(tài)及其過去經(jīng)驗(yàn)估計(jì)的評(píng)估來決定選擇哪種動(dòng)作。這種從狀態(tài)到動(dòng)作的映射稱為策略。隨后,智體在每個(gè)時(shí)間步中都會(huì)收到獎(jiǎng)勵(lì),這反映了智體行為局部評(píng)估的概念。


但是,通常情況下,僅憑這種即時(shí)獎(jiǎng)勵(lì)不足以判斷一項(xiàng)動(dòng)作有多好,因?yàn)橹挥性谝幌盗杏幸娴膭?dòng)作之后,才會(huì)給予更大的獎(jiǎng)勵(lì),即智體面臨一個(gè)連續(xù)決策問題。例如,智體在多個(gè)時(shí)間步中朝著正確的方向移動(dòng),以達(dá)到一個(gè)定義的目標(biāo)。這就是為什么RL算法的目標(biāo)通常是找到一個(gè)最大化預(yù)期累積獎(jiǎng)勵(lì)而不是即時(shí)獎(jiǎng)勵(lì)的策略。在過去的幾年里,深度學(xué)習(xí)已經(jīng)成為RL的主要形式,深度學(xué)習(xí)被用來實(shí)現(xiàn)RL智體。


RL大致可以分為兩類,即無模型(model free)算法和基于模型(model-based)的算法?;谀P偷乃惴ɡ妙A(yù)先給定或從經(jīng)驗(yàn)中學(xué)習(xí)的環(huán)境顯式模型。另一方面,無模型算法不使用這種模型,總是直接在環(huán)境中運(yùn)行。另一個(gè)常見的分類是帶策略(on-policy)和無策略(off-policy)算法之間的區(qū)別。前者只能改進(jìn)智體當(dāng)前執(zhí)行策略的價(jià)值估計(jì)。相比之下,后者可以獨(dú)立于智體采取的動(dòng)作,提高對(duì)最佳策略價(jià)值的估計(jì)。

  • 多智體強(qiáng)化學(xué)習(xí)

在多智體強(qiáng)化學(xué)習(xí)(Multi-Agent reinforction Learning,MARL)中,將智體與環(huán)境交互的基本思想擴(kuò)展到多個(gè)智體同時(shí)與環(huán)境交互并彼此交互。


所謂聯(lián)盟訓(xùn)練(league training ),其主要思想是與三種類型的智體展開虛擬的自游戲(參見如圖):第一種類型被命名為主智體,使用優(yōu)先虛擬游戲(fictitious play),這意味著根據(jù)對(duì)智體的獲勝率選擇對(duì)手。第二種類型是主剝削者(exploiter),與當(dāng)前的主要智體競(jìng)爭(zhēng),只是為了發(fā)現(xiàn)其行為中的弱點(diǎn)。第三種類型是聯(lián)盟剝削者(league exploiter agents),使用與主智體類似的策略,但不能成為主剝削者的目標(biāo)。因此,他們有機(jī)會(huì)找到策略來利用整個(gè)聯(lián)盟。

圖片


基于MCTS,有一個(gè)多智體的擴(kuò)展已應(yīng)用于簡(jiǎn)單的網(wǎng)格(grid)世界,其中每個(gè)智體必須學(xué)習(xí)移向到定義目標(biāo)的一個(gè),但每個(gè)格(tile)只能由一個(gè)智體使用。該方法用默認(rèn)策略和隨機(jī)策略的MCTS,并與獎(jiǎng)勵(lì)函數(shù)的差異評(píng)估(difference evaluation)相結(jié)合。

  • 逆強(qiáng)化學(xué)習(xí)

當(dāng)前另一種方法是逆強(qiáng)化學(xué)習(xí)(IRL)的思想,其中一個(gè)目標(biāo)是學(xué)習(xí)與環(huán)境交互示例中的獎(jiǎng)勵(lì)函數(shù),這個(gè)也可以和行為克隆一起屬于模仿學(xué)習(xí)。


IRL解決了兩個(gè)核心挑戰(zhàn):“找到一個(gè)能最好地解釋觀測(cè)結(jié)果的獎(jiǎng)勵(lì)函數(shù)基本上是不適定的”和“解決問題的計(jì)算成本往往會(huì)隨著問題規(guī)模不成比例地增長”。這在復(fù)雜的自動(dòng)駕駛領(lǐng)域尤其重要,因?yàn)楝F(xiàn)有的方法“不能合理地?cái)U(kuò)展到幾十個(gè)狀態(tài)或十多個(gè)可能的動(dòng)作”。


根據(jù)四個(gè)類別對(duì)現(xiàn)有IRL方法進(jìn)行分類。Max margin方法試圖“最大化觀察到的動(dòng)作價(jià)值與假設(shè)之間的margin”,而max entropy方法則被設(shè)計(jì)為“最大化動(dòng)作分布的熵”。Bayesian learning 方法“使用貝葉斯規(guī)則學(xué)習(xí)假設(shè)空間上的后驗(yàn)概率”,分類和回歸方法“學(xué)習(xí)預(yù)測(cè)模型,其模仿觀測(cè)行為”。此外,IRL還有許多擴(kuò)展,可分為三類:“不完整和含噪的觀測(cè)方法、多任務(wù)和不完整模型參數(shù)”。

  • 強(qiáng)化學(xué)習(xí)和知識(shí)集成技術(shù)

  1. 獎(jiǎng)勵(lì)成型:知識(shí)集成最常見的形式是獎(jiǎng)勵(lì)成型。其思想是設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),使智體更容易找到最優(yōu)策略,同時(shí)仍在極限內(nèi)優(yōu)化原始目標(biāo)。這在時(shí)間跨度較長且獎(jiǎng)勵(lì)信號(hào)稀疏的情況下尤其有用。

  2. 模型:在RL算法中集成先驗(yàn)知識(shí)的常用方法是利用某種環(huán)境模型。這種方法首先定義基于模型RL的區(qū)域。雖然這種趨勢(shì)傾向于在運(yùn)行時(shí)由智體學(xué)習(xí)的模型,但已經(jīng)證明,人工設(shè)計(jì)的模型可以解決非常復(fù)雜的任務(wù),并通過在學(xué)習(xí)系統(tǒng)中集成知識(shí)提高學(xué)習(xí)速度。

  3. 通過示范學(xué)習(xí):通過示范學(xué)習(xí)(或?qū)W徒學(xué)習(xí))的想法已經(jīng)存在了一段時(shí)間。它定義了一個(gè)范例,人類展示學(xué)習(xí)系統(tǒng)的期望行為以加速學(xué)習(xí)過程。一種常見的方法是使用IRL。其他情況下,已經(jīng)有了獎(jiǎng)勵(lì)信號(hào)也行。

  4. 輔助任務(wù):將先驗(yàn)知識(shí)整合到神經(jīng)網(wǎng)絡(luò)的方法是輔助任務(wù)。其主要思想是在多個(gè)任務(wù)上共享一個(gè)網(wǎng)絡(luò),迫使其創(chuàng)建對(duì)主要任務(wù)有益的結(jié)構(gòu)。

  • 應(yīng)用

有許多可以利用RL的任務(wù),包括路徑規(guī)劃、控制器優(yōu)化和基于場(chǎng)景的策略學(xué)習(xí)。大多是仿真環(huán)境的實(shí)驗(yàn),因?yàn)閿?shù)據(jù)收集和狀態(tài)-動(dòng)作空間維度的限制。

4.7 帶先驗(yàn)知識(shí)圖的深度學(xué)習(xí):作者是Chuo, Chen, Stapelbroek

目標(biāo)檢測(cè)和識(shí)別問題通常通過深度學(xué)習(xí)方法來解決。然而,在模型精度方面,尤其在某些情況下,即物體被遮擋、距離傳感器太遠(yuǎn)或光線條件差,仍然是一個(gè)巨大的挑戰(zhàn)。


在提高數(shù)據(jù)效率方面,尤其是在數(shù)據(jù)容量較低的情況下,也存在挑戰(zhàn),找到一種提取和組合信息的方法變得很重要。

待續(xù)。。。 

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25