日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

首頁 > 汽車技術 > 正文

基于密集深度強化學習的安全關鍵數(shù)據(jù)訓練方法

2023-04-25 21:42:42·  來源:汽車測試網(wǎng)  
 
在自動駕駛領域中,如何進行高效而安全的測試和訓練一直是一個挑戰(zhàn)。本文提出了一種基于密集深度強化學習的安全關鍵數(shù)據(jù)訓練方法,稱為D2RL。該方法利用神經(jīng)網(wǎng)絡識別和刪除非安全關鍵數(shù)據(jù),并重新連接關鍵狀態(tài),大幅降低策略梯度估計的方差。通過該方法,我們

在自動駕駛領域中,如何進行高效而安全的測試和訓練一直是一個挑戰(zhàn)。本文提出了一種基于密集深度強化學習的安全關鍵數(shù)據(jù)訓練方法,稱為D2RL。該方法利用神經(jīng)網(wǎng)絡識別和刪除非安全關鍵數(shù)據(jù),并重新連接關鍵狀態(tài),大幅降低策略梯度估計的方差。通過該方法,我們可以在不損失無偏性的情況下,實現(xiàn)對自動駕駛系統(tǒng)的高效測試和訓練,從而提高測試效率并確保評估的無偏性。


介紹:


隨著自動駕駛技術的發(fā)展,安全性成為了自動駕駛系統(tǒng)的最重要考慮因素之一。如何保證自動駕駛系統(tǒng)的安全性并提高測試效率一直是自動駕駛領域的研究熱點。本文提出了一種基于密集深度強化學習的安全關鍵數(shù)據(jù)訓練方法,稱為D2RL。該方法通過神經(jīng)網(wǎng)絡識別和刪除非安全關鍵數(shù)據(jù),并重新連接關鍵狀態(tài),大幅降低策略梯度估計的方差。通過該方法,我們可以在不損失無偏性的情況下,實現(xiàn)對自動駕駛系統(tǒng)的高效測試和訓練,從而提高測試效率并確保評估的無偏性。


背景:


在自動駕駛系統(tǒng)中,安全關鍵數(shù)據(jù)的訓練和測試是非常重要的。傳統(tǒng)的深度強化學習方法在處理安全關鍵數(shù)據(jù)時存在問題。因為在強化學習中,智能體通過與環(huán)境交互,從而獲得數(shù)據(jù)并進行訓練。但是,傳統(tǒng)的深度強化學習方法往往會收集到大量的非安全關鍵數(shù)據(jù),這些數(shù)據(jù)不利于自動駕駛系統(tǒng)的訓練和測試。因此,需要一種新的方法來處理安全關鍵數(shù)據(jù)。


方法:


我們提出了一種基于密集深度強化學習的安全關鍵數(shù)據(jù)訓練方法,稱為D2RL。該方法的基本思想是識別和刪除非安全關鍵數(shù)據(jù),并利用安全關鍵數(shù)據(jù)來訓練神經(jīng)網(wǎng)絡。具體來說,我們通過刪除非關鍵狀態(tài)并重新連接關鍵狀態(tài)來編輯馬爾科夫決策過程,然后只對編輯過的馬爾可夫過程進行神經(jīng)網(wǎng)絡訓練。因此,對于任何訓練情節(jié),來自最終狀態(tài)的獎勵只沿著編輯好的馬爾可夫鏈逆向傳播,其中只有臨界狀態(tài)。


相比傳統(tǒng)的深度強化學習方法,D2RL方法可以在不損失無偏性的情況下,以多個數(shù)量級大幅降低策略梯度估計的方差。這種大幅度的方差減少可以使神經(jīng)網(wǎng)絡學習并實現(xiàn)DRL方法難以完成的任務。因此,D2RL方法可以應用于復雜的駕駛環(huán)境,包括多條高速公路、十字路口和環(huán)島,這是以前基于場景的方法無法實現(xiàn)的。通過D2RL方法,我們可以將自動駕駛系統(tǒng)的測試里程減少多個數(shù)量級,從而大大提高測試效率和安全性。


應用:


在實際應用中,我們利用D2RL方法,通過神經(jīng)網(wǎng)絡訓練背景車輛(BV),以學習何時執(zhí)行何種對抗性動作,從而提高測試效率并確保評估的無偏性。這就形成了一個基于人工智能的對抗性測試環(huán)境,在確保測試不偏不倚的情況下,可以將自動駕駛系統(tǒng)所需的測試里程減少多個數(shù)量級。這種方法賦予測試代理以智能,以創(chuàng)造一個智能測試環(huán)境,即用人工智能來驗證人工智能。這是一個范式的轉變,它為與其他安全關鍵系統(tǒng)的加速測試和訓練打開了大門。


結論:


本文提出了一種基于密集深度強化學習的安全關鍵數(shù)據(jù)訓練方法,稱為D2RL。該方法利用神經(jīng)網(wǎng)絡識別和刪除非安全關鍵數(shù)據(jù),并重新連接關鍵狀態(tài),大幅降低策略梯度估計的方差。通過該方法,我們可以在不損失無偏性的情況下,實現(xiàn)對自動駕駛系統(tǒng)的高效測試和訓練,從而提高測試效率并確保評估的無偏性。D2RL方法可以應用于復雜的駕駛環(huán)境,包括多條高速公路、十字路口和環(huán)島,這是以前基于場景的方法無法實現(xiàn)的。通過D2RL方法,我們可以將自動駕駛系統(tǒng)的測試里程減少多個數(shù)量級,從而大大提高測試效率和安全性。

分享到:
 
反對 0 舉報 0 收藏 0 評論 0
滬ICP備11026917號-25