應(yīng)用D2RL方法解決AV測試問題中的維度詛咒與稀有性詛咒

2023-04-25 21:45:48· 來源：汽車測試網(wǎng)

摘要：人工智能技術(shù)在AV測試中的應(yīng)用已經(jīng)成為了一個(gè)熱點(diǎn)話題。然而，由于維度詛咒和稀有性詛咒的存在，直接應(yīng)用DRL方法是很難學(xué)習(xí)一個(gè)有效的政策的。本文針對(duì)這一挑戰(zhàn)，提出了D2RL方法。該方法利用安全指標(biāo)臨界度來識(shí)別關(guān)鍵狀態(tài)，丟棄非關(guān)鍵狀態(tài)的數(shù)據(jù)，只利用信息數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。同時(shí)，密集學(xué)習(xí)可以明顯降低政策梯度估計(jì)的方差，減少引導(dǎo)方差。該方法的有效性在實(shí)驗(yàn)中得到了驗(yàn)證。

引言

隨著人工智能技術(shù)的不斷發(fā)展，AV測試已經(jīng)成為了一個(gè)熱點(diǎn)話題。然而，AV測試問題是一個(gè)高維度、稀有性問題，直接應(yīng)用DRL方法是很難學(xué)習(xí)一個(gè)有效的政策的。

維度詛咒是指在高維空間中，隨著維度的增加，樣本的數(shù)量呈指數(shù)級(jí)下降。這意味著，高維空間中的數(shù)據(jù)分布變得更加稀疏，對(duì)于DRL算法來說，將很難學(xué)習(xí)一個(gè)有效的政策。

稀有性詛咒是指在某些狀態(tài)下，特定的行為是非常罕見的。這意味著，學(xué)習(xí)到的政策可能無法涵蓋所有可能的情況，因此無法保證評(píng)估效率和無偏見。

為了解決AV測試問題中的維度詛咒和稀有性詛咒，我們提出了一種新的方法——D2RL方法。該方法利用安全指標(biāo)臨界度來識(shí)別關(guān)鍵狀態(tài)，丟棄非關(guān)鍵狀態(tài)的數(shù)據(jù)，只利用信息數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。同時(shí)，密集學(xué)習(xí)可以明顯降低政策梯度估計(jì)的方差，減少引導(dǎo)方差。該方法在實(shí)驗(yàn)中得到了驗(yàn)證，具有很好的效果。

D2RL方法

D2RL方法的關(guān)鍵概念是去除不關(guān)鍵狀態(tài)的數(shù)據(jù)，只利用信息數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。在AV測試問題中，許多安全指標(biāo)可以被用來識(shí)別具有不同效率和效果的關(guān)鍵狀態(tài)。在本研究中，我們利用臨界度指標(biāo)，它是對(duì)從當(dāng)前狀態(tài)開始的特定時(shí)間范圍內(nèi)（例如一秒鐘）的AV碰撞率的外部近似值。具體地說，我們將AV測試問題表述為一個(gè)連續(xù)的馬爾可夫決策過程（MDP），其中BV的機(jī)動(dòng)性是根據(jù)當(dāng)前狀態(tài)信息決定的。我們的目標(biāo)是訓(xùn)練一個(gè)由神經(jīng)網(wǎng)絡(luò)建模的策略（DRL代理），它可以控制BV的機(jī)動(dòng)動(dòng)作與AV互動(dòng)，以最大限度地提高評(píng)估效率并確保無偏見。

在D2RL方法中，我們通過編輯馬爾可夫過程，丟棄非臨界狀態(tài)的數(shù)據(jù)，并將剩余的數(shù)據(jù)用于政策梯度估計(jì)和DRL訓(xùn)練的引導(dǎo)。具體地說，我們可以將馬爾可夫決策過程表示為：

$P(s_{t+1}|s_t,a_t) = \sum_{s'} P(s_{t+1}|s_t,a_t,s')P(s'|s_t,a_t)$

其中，$s_t$表示當(dāng)前狀態(tài)，$a_t$表示當(dāng)前動(dòng)作，$s_{t+1}$表示下一個(gè)狀態(tài)。$P(s_{t+1}|s_t,a_t)$是轉(zhuǎn)移概率，$P(s'|s_t,a_t)$是狀態(tài)轉(zhuǎn)移函數(shù)。

在D2RL方法中，我們使用臨界度指標(biāo)來判斷哪些狀態(tài)是關(guān)鍵狀態(tài)。具體地說，我們定義一個(gè)時(shí)間窗口$\tau$，并計(jì)算從當(dāng)前狀態(tài)$s_t$開始的$\tau$時(shí)間內(nèi)的AV碰撞率。如果這個(gè)碰撞率高于某個(gè)閾值，我們就認(rèn)為當(dāng)前狀態(tài)是關(guān)鍵狀態(tài)。然后，我們將關(guān)鍵狀態(tài)和與之相關(guān)的動(dòng)作和獎(jiǎng)勵(lì)信息存儲(chǔ)下來，其他非關(guān)鍵狀態(tài)的數(shù)據(jù)將被丟棄。

通過這種方式，我們可以減少數(shù)據(jù)的維度，使得訓(xùn)練過程更加高效。同時(shí)，我們只利用關(guān)鍵狀態(tài)的信息，可以提高政策的有效性，并確保評(píng)估的無偏性。具體來說，我們可以將政策梯度表示為：

$\nabla_{\theta} J(\theta) = \mathbb{E}{s_t \in \mathcal{S},a_t \in \mathcal{A},\tau}[\nabla{\theta} \log \pi_{\theta}(a_t|s_t) Q_{\theta}(s_t,a_t,\tau)]$

其中，$J(\theta)$表示策略的目標(biāo)函數(shù)，$\theta$表示神經(jīng)網(wǎng)絡(luò)的參數(shù)，$\mathcal{S}$表示狀態(tài)空間，$\mathcal{A}$表示動(dòng)作空間，$\tau$表示時(shí)間窗口。$Q_{\theta}(s_t,a_t,\tau)$表示從狀態(tài)$s_t$開始，在時(shí)間窗口$\tau$內(nèi)采取動(dòng)作$a_t$的期望回報(bào)，即：

$Q_{\theta}(s_t,a_t,\tau) = \mathbb{E}{s' \sim P(\cdot|s_t,a_t),\tau'}[r(s_t,a_t,s') + \gamma V{\theta}(s',\tau'-1)]$

其中，$r(s_t,a_t,s')$表示從狀態(tài)$s_t$開始采取動(dòng)作$a_t$轉(zhuǎn)移到狀態(tài)$s'$的即時(shí)回報(bào)，$\gamma$表示折扣因子，$V_{\theta}(s_t,\tau)$表示從狀態(tài)$s_t$開始，在時(shí)間窗口$\tau$內(nèi)的狀態(tài)值函數(shù)，即：

$V_{\theta}(s_t,\tau) = \mathbb{E}{a_t \sim \pi{\theta}(\cdot|s_t),\tau'}[Q_{\theta}(s_t,a_t,\tau')]$

在D2RL方法中，我們只利用關(guān)鍵狀態(tài)的信息來訓(xùn)練神經(jīng)網(wǎng)絡(luò)，并且只利用這些數(shù)據(jù)來估計(jì)政策梯度。這樣可以顯著降低方差，并且不會(huì)損失估計(jì)的無偏性。具體來說，我們可以使用重要性采樣的方法來估計(jì)政策梯度。假設(shè)我們有一個(gè)樣本$(s_t,a_t,\tau)$，我們可以計(jì)算其權(quán)重$w_{t,\tau}$，即：

$w_{t,\tau} = \frac{\pi_{\theta}(a_t|s_t)}{\mu(a_t|s_t)}$

其中，$\pi_{\theta}(a_t|s_t)$表示當(dāng)前策略在狀態(tài)$s_t$下選擇動(dòng)作$a_t$的概率，$\mu(a_t|s_t)$表示經(jīng)驗(yàn)分布在狀態(tài)$s_t$下選擇動(dòng)作$a_t$的概率。然后，我們可以將權(quán)重乘到政策梯度估計(jì)中，即：

$\nabla_{\theta} J(\theta) \approx \frac{1}{N}\sum_{t=1}^N \sum_{\tau} w_{t,\tau} \nabla_{\theta} \log \pi_{\theta}(a_t|s_t) Q_{\theta}(s_t,a_t,\tau)$

其中，$N$表示關(guān)鍵狀態(tài)的樣本數(shù)量。由于我們只利用關(guān)鍵狀態(tài)的信息，這樣可以顯著降低政策梯度估計(jì)的方差。

同時(shí)，我們還可以使用密集學(xué)習(xí)來進(jìn)一步降低方差。具體來說，我們可以將關(guān)鍵狀態(tài)的數(shù)據(jù)分成多個(gè)子集，并在每個(gè)子集上進(jìn)行訓(xùn)練。這樣可以減少狀態(tài)轉(zhuǎn)移的時(shí)間間隔，從而減小時(shí)間差，使得學(xué)習(xí)更加密集。這樣可以進(jìn)一步降低方差，并且不會(huì)損失估計(jì)的無偏性。

實(shí)驗(yàn)結(jié)果

為了驗(yàn)證D2RL方法的有效性，我們?cè)诓煌腁V測試問題上進(jìn)行了實(shí)驗(yàn)。我們使用D2RL方法和其他常用的DRL方法進(jìn)行比較，包括DDPG、PPO和SAC。實(shí)驗(yàn)結(jié)果表明，D2RL方法可以在高維空間和稀有狀態(tài)下取得更好的效果，并且具有更好的收斂速度和穩(wěn)定性。

圖1展示了D2RL方法在不同AV測試問題上的效果。我們可以看到，在所有的測試問題上，D2RL方法都可以取得更好的效果，并且具有更好的收斂速度和穩(wěn)定性。具體來說，在稀有狀態(tài)下，D2RL方法的效果更加顯著，可以取得更好的性能提升。

圖1：D2RL方法在不同AV測試問題上的效果比較

我們進(jìn)一步分析了D2RL方法在不同參數(shù)設(shè)置下的效果。具體來說，我們分別調(diào)整了臨界度指標(biāo)的閾值、時(shí)間窗口的大小和密集學(xué)習(xí)的子集數(shù)量，并觀察其對(duì)方法效果的影響。實(shí)驗(yàn)結(jié)果表明，在不同參數(shù)設(shè)置下，D2RL方法仍然可以取得更好的效果，并且可以根據(jù)具體問題進(jìn)行調(diào)整。

結(jié)論

本文提出了一種新的方法——D2RL方法，用于解決AV測試問題中的維度詛咒和稀有性詛咒。該方法利用安全指標(biāo)臨界度來識(shí)別關(guān)鍵狀態(tài)，丟棄非關(guān)鍵狀態(tài)的數(shù)據(jù)，只利用信息數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。同時(shí)，密集學(xué)習(xí)可以明顯降低政策梯度估計(jì)的方差，減少引導(dǎo)方差。實(shí)驗(yàn)結(jié)果表明，D2RL方法可以在高維空間和稀有狀態(tài)下取得更好的效果，并且具有更好的收斂速度和穩(wěn)定性。未來，我們可以進(jìn)一步研究D2RL方法在其他問題上的應(yīng)用，并且探索更加高效的訓(xùn)練方法。

分享到：

微信“掃一掃”
分享到朋友圈

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測試網(wǎng)V課堂
微信公眾號(hào)
汽車測試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 瓦力大作戰(zhàn)｜輕科普——誤碼儀（BERT）架構(gòu)及測試原理解析	• 為什么 HUD 合規(guī)真正“卡人”的不是參數(shù)，而是證據(jù)鏈
• 輔助駕駛撞扛樹枝老人、撞環(huán)衛(wèi)工人是預(yù)期功能安全應(yīng)該覆蓋	• 大推力直驅(qū)技術(shù)助力EPS安全測試，為你的安全出行 “保駕護(hù)
• 單機(jī)體積，雙倍效能！激光切割機(jī)玩轉(zhuǎn)“降本增效”	• 同步難？空間擠？這款雙出軸電機(jī)，是你雙十二的“必囤”硬
• 即刻探索8臺(tái)機(jī)器人如何解放數(shù)百名工人！	• 考慮驅(qū)動(dòng)單元性能變化的分布式驅(qū)動(dòng)智能車輛強(qiáng)化學(xué)習(xí)增強(qiáng)運(yùn)
• eVTOL/飛行汽車→低噪聲氣動(dòng)設(shè)計(jì)與主動(dòng)降噪控制策略1/3	• 比亞迪車輛避撞專利公布

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

應(yīng)用D2RL方法解決AV測試問題中的維度詛咒與稀有性詛咒

微信公眾號(hào)

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價(jià)格

聯(lián)合國法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

應(yīng)用D2RL方法解決AV測試問題中的維度詛咒與稀有性詛咒

微信公眾號(hào)

編輯推薦

最新資訊

開年豪擲1.8億搶用戶，又一車企加入“價(jià)格

聯(lián)合國法規(guī)R60對(duì)兩輪車操縱件與指示裝置的

標(biāo)準(zhǔn)立項(xiàng)|《汽車異種材料鉚接接頭拉伸性能

“汽車大角度座椅 第1部分：通用要求”將有

“汽車大角度座椅 第2部分：可靠性要求”將

開年豪擲1.8億搶用戶，又一車企加入“價(jià)格

“汽車大角度座椅第1部分：通用要求”將有

“汽車大角度座椅第2部分：可靠性要求”將