日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

  • 手機(jī)站
  • 小程序

    汽車測試網(wǎng)

  • 公眾號(hào)
    • 汽車測試網(wǎng)

    • 在線課堂

    • 電車測試

應(yīng)用D2RL方法解決AV測試問題中的維度詛咒與稀有性詛咒

2023-04-25 21:45:48·  來源:汽車測試網(wǎng)  
 
摘要:人工智能技術(shù)在AV測試中的應(yīng)用已經(jīng)成為了一個(gè)熱點(diǎn)話題。然而,由于維度詛咒和稀有性詛咒的存在,直接應(yīng)用DRL方法是很難學(xué)習(xí)一個(gè)有效的政策的。本文針對(duì)這一挑戰(zhàn),提出了D2RL方法。該方法利用安全指標(biāo)臨界度來識(shí)別關(guān)鍵狀態(tài),丟棄非關(guān)鍵狀態(tài)的數(shù)據(jù),只利

摘要:人工智能技術(shù)在AV測試中的應(yīng)用已經(jīng)成為了一個(gè)熱點(diǎn)話題。然而,由于維度詛咒和稀有性詛咒的存在,直接應(yīng)用DRL方法是很難學(xué)習(xí)一個(gè)有效的政策的。本文針對(duì)這一挑戰(zhàn),提出了D2RL方法。該方法利用安全指標(biāo)臨界度來識(shí)別關(guān)鍵狀態(tài),丟棄非關(guān)鍵狀態(tài)的數(shù)據(jù),只利用信息數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。同時(shí),密集學(xué)習(xí)可以明顯降低政策梯度估計(jì)的方差,減少引導(dǎo)方差。該方法的有效性在實(shí)驗(yàn)中得到了驗(yàn)證。


引言

隨著人工智能技術(shù)的不斷發(fā)展,AV測試已經(jīng)成為了一個(gè)熱點(diǎn)話題。然而,AV測試問題是一個(gè)高維度、稀有性問題,直接應(yīng)用DRL方法是很難學(xué)習(xí)一個(gè)有效的政策的。


維度詛咒是指在高維空間中,隨著維度的增加,樣本的數(shù)量呈指數(shù)級(jí)下降。這意味著,高維空間中的數(shù)據(jù)分布變得更加稀疏,對(duì)于DRL算法來說,將很難學(xué)習(xí)一個(gè)有效的政策。


稀有性詛咒是指在某些狀態(tài)下,特定的行為是非常罕見的。這意味著,學(xué)習(xí)到的政策可能無法涵蓋所有可能的情況,因此無法保證評(píng)估效率和無偏見。


為了解決AV測試問題中的維度詛咒和稀有性詛咒,我們提出了一種新的方法——D2RL方法。該方法利用安全指標(biāo)臨界度來識(shí)別關(guān)鍵狀態(tài),丟棄非關(guān)鍵狀態(tài)的數(shù)據(jù),只利用信息數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。同時(shí),密集學(xué)習(xí)可以明顯降低政策梯度估計(jì)的方差,減少引導(dǎo)方差。該方法在實(shí)驗(yàn)中得到了驗(yàn)證,具有很好的效果。


D2RL方法

D2RL方法的關(guān)鍵概念是去除不關(guān)鍵狀態(tài)的數(shù)據(jù),只利用信息數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。在AV測試問題中,許多安全指標(biāo)可以被用來識(shí)別具有不同效率和效果的關(guān)鍵狀態(tài)。在本研究中,我們利用臨界度指標(biāo),它是對(duì)從當(dāng)前狀態(tài)開始的特定時(shí)間范圍內(nèi)(例如一秒鐘)的AV碰撞率的外部近似值。具體地說,我們將AV測試問題表述為一個(gè)連續(xù)的馬爾可夫決策過程(MDP),其中BV的機(jī)動(dòng)性是根據(jù)當(dāng)前狀態(tài)信息決定的。我們的目標(biāo)是訓(xùn)練一個(gè)由神經(jīng)網(wǎng)絡(luò)建模的策略(DRL代理),它可以控制BV的機(jī)動(dòng)動(dòng)作與AV互動(dòng),以最大限度地提高評(píng)估效率并確保無偏見。


在D2RL方法中,我們通過編輯馬爾可夫過程,丟棄非臨界狀態(tài)的數(shù)據(jù),并將剩余的數(shù)據(jù)用于政策梯度估計(jì)和DRL訓(xùn)練的引導(dǎo)。具體地說,我們可以將馬爾可夫決策過程表示為:


$P(s_{t+1}|s_t,a_t) = \sum_{s'} P(s_{t+1}|s_t,a_t,s')P(s'|s_t,a_t)$


其中,$s_t$表示當(dāng)前狀態(tài),$a_t$表示當(dāng)前動(dòng)作,$s_{t+1}$表示下一個(gè)狀態(tài)。$P(s_{t+1}|s_t,a_t)$是轉(zhuǎn)移概率,$P(s'|s_t,a_t)$是狀態(tài)轉(zhuǎn)移函數(shù)。


在D2RL方法中,我們使用臨界度指標(biāo)來判斷哪些狀態(tài)是關(guān)鍵狀態(tài)。具體地說,我們定義一個(gè)時(shí)間窗口$\tau$,并計(jì)算從當(dāng)前狀態(tài)$s_t$開始的$\tau$時(shí)間內(nèi)的AV碰撞率。如果這個(gè)碰撞率高于某個(gè)閾值,我們就認(rèn)為當(dāng)前狀態(tài)是關(guān)鍵狀態(tài)。然后,我們將關(guān)鍵狀態(tài)和與之相關(guān)的動(dòng)作和獎(jiǎng)勵(lì)信息存儲(chǔ)下來,其他非關(guān)鍵狀態(tài)的數(shù)據(jù)將被丟棄。


通過這種方式,我們可以減少數(shù)據(jù)的維度,使得訓(xùn)練過程更加高效。同時(shí),我們只利用關(guān)鍵狀態(tài)的信息,可以提高政策的有效性,并確保評(píng)估的無偏性。具體來說,我們可以將政策梯度表示為:


$\nabla_{\theta} J(\theta) = \mathbb{E}{s_t \in \mathcal{S},a_t \in \mathcal{A},\tau}[\nabla{\theta} \log \pi_{\theta}(a_t|s_t) Q_{\theta}(s_t,a_t,\tau)]$


其中,$J(\theta)$表示策略的目標(biāo)函數(shù),$\theta$表示神經(jīng)網(wǎng)絡(luò)的參數(shù),$\mathcal{S}$表示狀態(tài)空間,$\mathcal{A}$表示動(dòng)作空間,$\tau$表示時(shí)間窗口。$Q_{\theta}(s_t,a_t,\tau)$表示從狀態(tài)$s_t$開始,在時(shí)間窗口$\tau$內(nèi)采取動(dòng)作$a_t$的期望回報(bào),即:


$Q_{\theta}(s_t,a_t,\tau) = \mathbb{E}{s' \sim P(\cdot|s_t,a_t),\tau'}[r(s_t,a_t,s') + \gamma V{\theta}(s',\tau'-1)]$


其中,$r(s_t,a_t,s')$表示從狀態(tài)$s_t$開始采取動(dòng)作$a_t$轉(zhuǎn)移到狀態(tài)$s'$的即時(shí)回報(bào),$\gamma$表示折扣因子,$V_{\theta}(s_t,\tau)$表示從狀態(tài)$s_t$開始,在時(shí)間窗口$\tau$內(nèi)的狀態(tài)值函數(shù),即:


$V_{\theta}(s_t,\tau) = \mathbb{E}{a_t \sim \pi{\theta}(\cdot|s_t),\tau'}[Q_{\theta}(s_t,a_t,\tau')]$


在D2RL方法中,我們只利用關(guān)鍵狀態(tài)的信息來訓(xùn)練神經(jīng)網(wǎng)絡(luò),并且只利用這些數(shù)據(jù)來估計(jì)政策梯度。這樣可以顯著降低方差,并且不會(huì)損失估計(jì)的無偏性。具體來說,我們可以使用重要性采樣的方法來估計(jì)政策梯度。假設(shè)我們有一個(gè)樣本$(s_t,a_t,\tau)$,我們可以計(jì)算其權(quán)重$w_{t,\tau}$,即:


$w_{t,\tau} = \frac{\pi_{\theta}(a_t|s_t)}{\mu(a_t|s_t)}$


其中,$\pi_{\theta}(a_t|s_t)$表示當(dāng)前策略在狀態(tài)$s_t$下選擇動(dòng)作$a_t$的概率,$\mu(a_t|s_t)$表示經(jīng)驗(yàn)分布在狀態(tài)$s_t$下選擇動(dòng)作$a_t$的概率。然后,我們可以將權(quán)重乘到政策梯度估計(jì)中,即:


$\nabla_{\theta} J(\theta) \approx \frac{1}{N}\sum_{t=1}^N \sum_{\tau} w_{t,\tau} \nabla_{\theta} \log \pi_{\theta}(a_t|s_t) Q_{\theta}(s_t,a_t,\tau)$


其中,$N$表示關(guān)鍵狀態(tài)的樣本數(shù)量。由于我們只利用關(guān)鍵狀態(tài)的信息,這樣可以顯著降低政策梯度估計(jì)的方差。


同時(shí),我們還可以使用密集學(xué)習(xí)來進(jìn)一步降低方差。具體來說,我們可以將關(guān)鍵狀態(tài)的數(shù)據(jù)分成多個(gè)子集,并在每個(gè)子集上進(jìn)行訓(xùn)練。這樣可以減少狀態(tài)轉(zhuǎn)移的時(shí)間間隔,從而減小時(shí)間差,使得學(xué)習(xí)更加密集。這樣可以進(jìn)一步降低方差,并且不會(huì)損失估計(jì)的無偏性。


實(shí)驗(yàn)結(jié)果

為了驗(yàn)證D2RL方法的有效性,我們?cè)诓煌腁V測試問題上進(jìn)行了實(shí)驗(yàn)。我們使用D2RL方法和其他常用的DRL方法進(jìn)行比較,包括DDPG、PPO和SAC。實(shí)驗(yàn)結(jié)果表明,D2RL方法可以在高維空間和稀有狀態(tài)下取得更好的效果,并且具有更好的收斂速度和穩(wěn)定性。


圖1展示了D2RL方法在不同AV測試問題上的效果。我們可以看到,在所有的測試問題上,D2RL方法都可以取得更好的效果,并且具有更好的收斂速度和穩(wěn)定性。具體來說,在稀有狀態(tài)下,D2RL方法的效果更加顯著,可以取得更好的性能提升。


圖1:D2RL方法在不同AV測試問題上的效果比較


我們進(jìn)一步分析了D2RL方法在不同參數(shù)設(shè)置下的效果。具體來說,我們分別調(diào)整了臨界度指標(biāo)的閾值、時(shí)間窗口的大小和密集學(xué)習(xí)的子集數(shù)量,并觀察其對(duì)方法效果的影響。實(shí)驗(yàn)結(jié)果表明,在不同參數(shù)設(shè)置下,D2RL方法仍然可以取得更好的效果,并且可以根據(jù)具體問題進(jìn)行調(diào)整。


結(jié)論

本文提出了一種新的方法——D2RL方法,用于解決AV測試問題中的維度詛咒和稀有性詛咒。該方法利用安全指標(biāo)臨界度來識(shí)別關(guān)鍵狀態(tài),丟棄非關(guān)鍵狀態(tài)的數(shù)據(jù),只利用信息數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。同時(shí),密集學(xué)習(xí)可以明顯降低政策梯度估計(jì)的方差,減少引導(dǎo)方差。實(shí)驗(yàn)結(jié)果表明,D2RL方法可以在高維空間和稀有狀態(tài)下取得更好的效果,并且具有更好的收斂速度和穩(wěn)定性。未來,我們可以進(jìn)一步研究D2RL方法在其他問題上的應(yīng)用,并且探索更加高效的訓(xùn)練方法。

分享到:
 
反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0
滬ICP備11026917號(hào)-25