基于密集深度強化學習的安全關鍵數(shù)據(jù)訓練方法

2023-04-25 21:42:42· 來源：汽車測試網(wǎng)

在自動駕駛領域中，如何進行高效而安全的測試和訓練一直是一個挑戰(zhàn)。本文提出了一種基于密集深度強化學習的安全關鍵數(shù)據(jù)訓練方法，稱為D2RL。該方法利用神經(jīng)網(wǎng)絡識別和刪除非安全關鍵數(shù)據(jù)，并重新連接關鍵狀態(tài)，大幅降低策略梯度估計的方差。通過該方法，我們

介紹：

隨著自動駕駛技術的發(fā)展，安全性成為了自動駕駛系統(tǒng)的最重要考慮因素之一。如何保證自動駕駛系統(tǒng)的安全性并提高測試效率一直是自動駕駛領域的研究熱點。本文提出了一種基于密集深度強化學習的安全關鍵數(shù)據(jù)訓練方法，稱為D2RL。該方法通過神經(jīng)網(wǎng)絡識別和刪除非安全關鍵數(shù)據(jù)，并重新連接關鍵狀態(tài)，大幅降低策略梯度估計的方差。通過該方法，我們可以在不損失無偏性的情況下，實現(xiàn)對自動駕駛系統(tǒng)的高效測試和訓練，從而提高測試效率并確保評估的無偏性。

背景：

在自動駕駛系統(tǒng)中，安全關鍵數(shù)據(jù)的訓練和測試是非常重要的。傳統(tǒng)的深度強化學習方法在處理安全關鍵數(shù)據(jù)時存在問題。因為在強化學習中，智能體通過與環(huán)境交互，從而獲得數(shù)據(jù)并進行訓練。但是，傳統(tǒng)的深度強化學習方法往往會收集到大量的非安全關鍵數(shù)據(jù)，這些數(shù)據(jù)不利于自動駕駛系統(tǒng)的訓練和測試。因此，需要一種新的方法來處理安全關鍵數(shù)據(jù)。

方法：

我們提出了一種基于密集深度強化學習的安全關鍵數(shù)據(jù)訓練方法，稱為D2RL。該方法的基本思想是識別和刪除非安全關鍵數(shù)據(jù)，并利用安全關鍵數(shù)據(jù)來訓練神經(jīng)網(wǎng)絡。具體來說，我們通過刪除非關鍵狀態(tài)并重新連接關鍵狀態(tài)來編輯馬爾科夫決策過程，然后只對編輯過的馬爾可夫過程進行神經(jīng)網(wǎng)絡訓練。因此，對于任何訓練情節(jié)，來自最終狀態(tài)的獎勵只沿著編輯好的馬爾可夫鏈逆向傳播，其中只有臨界狀態(tài)。

相比傳統(tǒng)的深度強化學習方法，D2RL方法可以在不損失無偏性的情況下，以多個數(shù)量級大幅降低策略梯度估計的方差。這種大幅度的方差減少可以使神經(jīng)網(wǎng)絡學習并實現(xiàn)DRL方法難以完成的任務。因此，D2RL方法可以應用于復雜的駕駛環(huán)境，包括多條高速公路、十字路口和環(huán)島，這是以前基于場景的方法無法實現(xiàn)的。通過D2RL方法，我們可以將自動駕駛系統(tǒng)的測試里程減少多個數(shù)量級，從而大大提高測試效率和安全性。

應用：

在實際應用中，我們利用D2RL方法，通過神經(jīng)網(wǎng)絡訓練背景車輛（BV），以學習何時執(zhí)行何種對抗性動作，從而提高測試效率并確保評估的無偏性。這就形成了一個基于人工智能的對抗性測試環(huán)境，在確保測試不偏不倚的情況下，可以將自動駕駛系統(tǒng)所需的測試里程減少多個數(shù)量級。這種方法賦予測試代理以智能，以創(chuàng)造一個智能測試環(huán)境，即用人工智能來驗證人工智能。這是一個范式的轉變，它為與其他安全關鍵系統(tǒng)的加速測試和訓練打開了大門。

結論：

本文提出了一種基于密集深度強化學習的安全關鍵數(shù)據(jù)訓練方法，稱為D2RL。該方法利用神經(jīng)網(wǎng)絡識別和刪除非安全關鍵數(shù)據(jù)，并重新連接關鍵狀態(tài)，大幅降低策略梯度估計的方差。通過該方法，我們可以在不損失無偏性的情況下，實現(xiàn)對自動駕駛系統(tǒng)的高效測試和訓練，從而提高測試效率并確保評估的無偏性。D2RL方法可以應用于復雜的駕駛環(huán)境，包括多條高速公路、十字路口和環(huán)島，這是以前基于場景的方法無法實現(xiàn)的。通過D2RL方法，我們可以將自動駕駛系統(tǒng)的測試里程減少多個數(shù)量級，從而大大提高測試效率和安全性。

分享到：

微信“掃一掃”
分享到朋友圈

下一篇：基于深度強化學習的自動駕駛評估方法在實際測試中的驗證
上一篇：稀缺性的詛咒與深度學習在安全關鍵系統(tǒng)中的應用

點贊 0 反對 0 舉報 0 收藏 0 評論 0

汽車測試網(wǎng)V課堂
微信公眾號
汽車測試網(wǎng)手機站

相關閱讀

0 條相關評論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預期功能安全應該覆蓋	• 大推力直驅技術助力EPS安全測試，為你的安全出行 “保駕護
• 單機體積，雙倍效能！激光切割機玩轉“降本增效”	• 同步難？空間擠？這款雙出軸電機，是你雙十二的“必囤”硬
• 即刻探索8臺機器人如何解放數(shù)百名工人！	• 考慮驅動單元性能變化的分布式驅動智能車輛強化學習增強運
• eVTOL/飛行汽車→低噪聲氣動設計與主動降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

基于密集深度強化學習的安全關鍵數(shù)據(jù)訓練方法

微信公眾號

編輯推薦

最新資訊

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標準立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

電池耐久評價開始從“電池單體性能指標”轉

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

基于密集深度強化學習的安全關鍵數(shù)據(jù)訓練方法

微信公眾號

編輯推薦

最新資訊

聯(lián)合國法規(guī)R60對兩輪車操縱件與指示裝置的

標準立項|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

電池耐久評價開始從“電池單體性能指標”轉

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將