基于深度強(qiáng)化學(xué)習(xí)的連續(xù)性動(dòng)作控制

2018-10-08 20:20:52· 來(lái)源：感知與決策研究室同濟(jì)智能汽車研究所

摘要：我們?cè)谏疃萉-learning成功的基礎(chǔ)思想將其調(diào)整為連續(xù)性領(lǐng)域。我們提出了一種基于確定性策略梯度的執(zhí)行者-評(píng)判者的無(wú)模型算法，該算法可以在連續(xù)動(dòng)作空間上

摘要：我們?cè)谏疃萉-learning成功的基礎(chǔ)思想將其調(diào)整為連續(xù)性領(lǐng)域。我們提出了一種基于確定性策略梯度的執(zhí)行者-評(píng)判者的無(wú)模型算法，該算法可以在連續(xù)動(dòng)作空間上運(yùn)行。使用相同的學(xué)習(xí)算法，網(wǎng)絡(luò)架構(gòu)和超參數(shù)，我們的算法可以有力地解決20多個(gè)模擬物理任務(wù)，包括經(jīng)典問題，如推車擺動(dòng)，靈巧操縱，腿式運(yùn)動(dòng)和汽車駕駛。我們的算法能夠找到在動(dòng)態(tài)領(lǐng)域性能與規(guī)劃算法相競(jìng)爭(zhēng)的策略。我們進(jìn)一步證明，對(duì)于許多任務(wù)，算法可以直接從原始像素輸入學(xué)習(xí)“端到端”策略。

一、介紹

人工智能領(lǐng)域的主要目標(biāo)之一是從原始、高維度的感知輸入中解決復(fù)雜的任務(wù)。最近，通過(guò)將感知處理的深度學(xué)習(xí)（Krizhevsky等，2012）的進(jìn)展與強(qiáng)化學(xué)習(xí)相結(jié)合，取得了重大進(jìn)展，從而產(chǎn)生了深度Q網(wǎng)絡(luò)（DQN）算法（Mnih等，2015），在許多Atari游戲中使用未經(jīng)處理的像素輸入有著人類級(jí)別的表現(xiàn)。為此，他們使用了深度神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器來(lái)估計(jì)動(dòng)作值函數(shù)。

然而，雖然DQN解決了高維觀察空間的問題，但它只能處理離散和低維動(dòng)作空間。DQN不能直接應(yīng)用于連續(xù)域，因?yàn)樗蕾囉谡业阶畲蠡瘎?dòng)作值函數(shù)的動(dòng)作，這在連續(xù)值的情況下需要在每個(gè)步驟進(jìn)行迭代優(yōu)化過(guò)程。

使深度強(qiáng)化學(xué)習(xí)方法（如DQN）適應(yīng)連續(xù)域的一種顯而易見的方法是簡(jiǎn)單地將行動(dòng)空間離散化。然而，這有許多局限性，最顯著的是維度災(zāi)難：動(dòng)作的數(shù)量隨著ai∈{-k,0,k}自由度的數(shù)量呈指數(shù)增長(zhǎng)。例如，具有7自由度的系統(tǒng)（如在人類手臂中）每個(gè)關(guān)節(jié)的導(dǎo)致動(dòng)作空間的維數(shù)為37=2187。對(duì)于需要精確控制動(dòng)作的任務(wù)情況更糟，因?yàn)樗鼈冃枰鄳?yīng)更細(xì)粒度的離散化，導(dǎo)致爆炸的離散動(dòng)作數(shù)量。這樣大的動(dòng)作空間難以有效地探索，因此在這種情況下成功訓(xùn)練類似DQN的網(wǎng)絡(luò)是很難的。此外，動(dòng)作空間的簡(jiǎn)單離散化會(huì)不必要地丟棄關(guān)于動(dòng)作域結(jié)構(gòu)的信息，然而這對(duì)于解決許多問題是很關(guān)鍵的信息。

我們提出了一個(gè)使用深度函數(shù)逼近器的無(wú)模型，離線訓(xùn)練的執(zhí)行者-評(píng)判者算法，可以學(xué)習(xí)高維，連續(xù)動(dòng)作空間中的策略。我們的工作基于確定性策略梯度（DPG）算法（Silver et al.，2014）（（本身類似于NFQCA（Hafner＆Riedmiller，2011），類似的想法可以在(Prokhorov et al., 1997)中找到）。然而，如我們下面所示，這種具有神經(jīng)函數(shù)逼近器的執(zhí)行者-評(píng)判者方法的直接應(yīng)用對(duì)于挑戰(zhàn)性問題時(shí)是不穩(wěn)定的。在這里，我們將執(zhí)行者-評(píng)判者方法與深度Q網(wǎng)絡(luò)（DQN）近期成功的見解結(jié)合起來(lái)（Mnih et al.，2013; 2015）。在DQN之前，人們普遍認(rèn)為使用大的非線性函數(shù)逼近器的學(xué)習(xí)值函數(shù)是困難且不穩(wěn)定的。由于兩項(xiàng)創(chuàng)新，DQN能夠以穩(wěn)定和魯棒的方式使用此類函數(shù)逼近器學(xué)習(xí)價(jià)值函數(shù)：

1.使用來(lái)自重放緩沖器的樣本對(duì)網(wǎng)絡(luò)進(jìn)行離線策略訓(xùn)練，以最小化樣本之間的相關(guān)性;
2.使用目標(biāo)Q網(wǎng)絡(luò)訓(xùn)練網(wǎng)絡(luò)，以在計(jì)算時(shí)間差分損失時(shí)提供一致的目標(biāo)。

在這項(xiàng)工作中，我們使用相同的想法，以及批量歸一化（Ioffe＆Szegedy，2015），這是深度學(xué)習(xí)的最新進(jìn)展。

為了評(píng)估我們的方法，我們構(gòu)建了各種具有挑戰(zhàn)性的物理控制問題，涉及復(fù)雜的多關(guān)節(jié)運(yùn)動(dòng)，不穩(wěn)定和豐富的接觸動(dòng)力學(xué)以及步態(tài)行為。其中有經(jīng)典問題，如推車擺動(dòng)問題，以及許多新的領(lǐng)域。機(jī)器人控制的長(zhǎng)期挑戰(zhàn)是直接從原始感知輸入（如視頻）學(xué)習(xí)動(dòng)作策略。因此，我們將固定視角相機(jī)放置在模擬器中，并使用低維觀測(cè)值（例如關(guān)節(jié)角度）和直接從像素嘗試完成所有任務(wù)。我們稱之為Deep DPG（DDPG）的無(wú)模型方法可以使用相同的超參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)，使用低維觀測(cè)（例如笛卡爾坐標(biāo)或關(guān)節(jié)角度）來(lái)學(xué)習(xí)所有任務(wù)的競(jìng)爭(zhēng)策略。在許多情況下，我們還能夠直接從像素中學(xué)習(xí)優(yōu)秀的策略，同樣保持超參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)不變。該方法的一個(gè)關(guān)鍵特征是它的簡(jiǎn)單性：它只需要一個(gè)簡(jiǎn)單的執(zhí)行者-評(píng)判者架構(gòu)和學(xué)習(xí)算法，只需很少的“移動(dòng)部件”，使其易于實(shí)現(xiàn)和擴(kuò)展到更難的問題和更大的網(wǎng)絡(luò)。對(duì)于物理控制問題，我們將結(jié)果與規(guī)劃方法（Tassa等人，2012）計(jì)算的算法現(xiàn)狀進(jìn)行比較，該算法現(xiàn)狀可以完全解決基礎(chǔ)模擬動(dòng)力學(xué)及其衍生問題（參見補(bǔ)充信息）。有趣的是，DDPG有時(shí)可以找到超出規(guī)劃效果的策略，在某些情況下甚至可以從像素中學(xué)習(xí)（規(guī)劃方法總是通過(guò)低維狀態(tài)空間做出策略）。

二、背景

我們考慮一種標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)設(shè)置，包括在離散時(shí)間步長(zhǎng)中與環(huán)境E交互的智能體。在每個(gè)時(shí)間步，智能體接收觀察xt，采取行動(dòng)αt并獲取獎(jiǎng)勵(lì)rt。在這里考慮的所有環(huán)境中，動(dòng)作都是實(shí)值 at∈IRN。通常，可以部分地觀察環(huán)境，以便需要觀察整個(gè)歷史，動(dòng)作對(duì)st=(x1,αt,……,αt-1,xt)來(lái)描述狀態(tài)。在這里，我們假設(shè)環(huán)境是完全可被觀測(cè)的，因此st=xt。

智能體的行為由策略π定義，該策略將狀態(tài)映射到動(dòng)作π：S→P(A)上的概率分布。環(huán)境E也可以是隨機(jī)的。我們將其建模為具有狀態(tài)空間S，動(dòng)作空間A=IRN，初始狀態(tài)分布p(s1)，轉(zhuǎn)換動(dòng)態(tài)p(st+1|st,αt)和獎(jiǎng)勵(lì)函數(shù)r(st,αt)的馬爾可夫決策過(guò)程。

狀態(tài)回報(bào)被定義為未來(lái)折扣獎(jiǎng)勵(lì)Rt=Γ(i-t)r(si,ai)的總和，折扣因子Γ∈[0,1]。請(qǐng)注意，返回值取決于所選擇的操作，因此取決于策略π，并且可能是隨機(jī)的。強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一種策略，該策略最大化期望回報(bào)J=IEri,si～E,αi～π[R1]。我們將策略π的折扣狀態(tài)分布表示為ρπ。

動(dòng)作值函數(shù)用于許多強(qiáng)化學(xué)習(xí)算法。它描述了在狀態(tài)st中采取行動(dòng)αt之后的預(yù)期回報(bào)，這個(gè)過(guò)程遵循策略π：

強(qiáng)化學(xué)習(xí)中的許多方法都使用Bellman方程的遞歸關(guān)系：

如果目標(biāo)策略是確定性的，我們可以將其描述為函數(shù)μ：S←A，避免因?yàn)椴淮_定導(dǎo)致的內(nèi)部期望的計(jì)算：

期望僅取決于環(huán)境。這意味著可以使用從不同的隨機(jī)行為策略β生成的轉(zhuǎn)換來(lái)學(xué)習(xí)Qμ離線訓(xùn)練策略。

已發(fā)布的Q-learning（Watkins＆Dayan，1992）是一種常用的離線訓(xùn)練策略算法，它使用貪婪策略μ(s)=argmaxαQ(s, α)。我們考慮通過(guò)θQ數(shù)化的函數(shù)逼近器，通過(guò)最小化損失來(lái)優(yōu)化參數(shù)：

其中：

雖然yt也依賴于θQ，但通常會(huì)被忽略。

過(guò)去經(jīng)常避免使用龐大的非線性函數(shù)逼近器來(lái)學(xué)習(xí)價(jià)值或動(dòng)作值函數(shù)，因?yàn)槔碚撋系男阅鼙ＷC是不可能的，并且實(shí)際上學(xué)習(xí)往往是不穩(wěn)定的。最近，（Mnih等人，2013; 2015）采用了Q-learning算法，以便有效地使用大型神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器。他們的算法能夠?qū)W習(xí)從像素中玩Atari游戲。為了擴(kuò)展Q-learning，他們引入了兩個(gè)主要變化：使用重放緩沖區(qū)和單獨(dú)的目標(biāo)網(wǎng)絡(luò)來(lái)計(jì)算。我們?cè)贒DPG的背景下使用它們，并在下一節(jié)中解釋它們的實(shí)現(xiàn)。

三、算法

不可能直接將Q-learning應(yīng)用于連續(xù)動(dòng)作空間，因?yàn)樵谶B續(xù)空間中找到貪婪的策略需要在每個(gè)時(shí)間步長(zhǎng)優(yōu)化αt; 對(duì)于大的，無(wú)約束的函數(shù)逼近器和非凡的動(dòng)作空間，這種優(yōu)化太慢而不實(shí)用。相反，在這里我們使用了基于DPG算法的執(zhí)行者-評(píng)判者方法（Silver et al.，2014）。

DPG算法維護(hù)參數(shù)化的actor函數(shù)，該函數(shù)通過(guò)確定地將狀態(tài)映射到特定動(dòng)作來(lái)指定當(dāng)前策略。評(píng)判Q(s, α)類似Q-learning一樣通過(guò)貝爾曼方程學(xué)習(xí)更新。通過(guò)遵循鏈?zhǔn)椒▌t應(yīng)用于初始分布J相對(duì)于actor參數(shù)的預(yù)期返回來(lái)更新actor：

Silver等人（2014）證明了這是策略梯度，即策略表現(xiàn)的梯度。與Q-learning一樣，引入非線性函數(shù)逼近器意味著不再保證可以收斂。然而，為了學(xué)習(xí)和適應(yīng)大狀態(tài)空間，這些近似似乎是必不可少的。NFQCA（Hafner和Riedmiller，2011）使用與DPG相同的更新規(guī)則但使用神經(jīng)網(wǎng)絡(luò)函數(shù)近似器，使用批量學(xué)習(xí)來(lái)實(shí)現(xiàn)穩(wěn)定性，這對(duì)大型網(wǎng)絡(luò)來(lái)說(shuō)是難以處理的。NFQCA的小批量版本在每次更新時(shí)不會(huì)重置策略，如同擴(kuò)展到大型網(wǎng)絡(luò)所需的那樣，等同于我們?cè)诖吮容^的原始DPG。我們?cè)谶@里的貢獻(xiàn)是在DQN的成功啟發(fā)下對(duì)DPG進(jìn)行修改，這使得它能夠使用神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器在線學(xué)習(xí)大型狀態(tài)和動(dòng)作空間。我們將我們的算法稱為Deep DPG（DDPG，算法1）。

使用神經(jīng)網(wǎng)絡(luò)進(jìn)行強(qiáng)化學(xué)習(xí)時(shí)的一個(gè)挑戰(zhàn)是大多數(shù)優(yōu)化算法假設(shè)樣本是獨(dú)立且相同的分布。顯然，當(dāng)在環(huán)境中順序探索生成樣本時(shí)，這種假設(shè)不再成立。此外，為了有效利用硬件優(yōu)化，必須以小批量采樣學(xué)習(xí)，而不是在線學(xué)習(xí)。

與DQN一樣，我們使用重放緩沖區(qū)來(lái)解決這些問題。重放緩沖區(qū)是有限大小的緩存R。根據(jù)探索策略從環(huán)境中采樣轉(zhuǎn)換，并且元組(st,αt,rt,st+1)存儲(chǔ)在重放緩沖區(qū)中。當(dāng)重放緩沖區(qū)已滿時(shí)，丟棄最舊的樣本。在每個(gè)時(shí)間步驟，通過(guò)從緩沖區(qū)統(tǒng)一采樣小批量來(lái)更新行為者和評(píng)判者。由于DDPG是一種離線訓(xùn)練策略算法，因此重放緩沖區(qū)可能很大，允許算法通過(guò)一組不相關(guān)的轉(zhuǎn)換進(jìn)行學(xué)習(xí)而因此受益。

直接用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)Q-learning（方程式4）在許多環(huán)境中被證明是不穩(wěn)定的。由于正在更新的網(wǎng)絡(luò)也用于計(jì)算目標(biāo)值（等式5），因此Q(s, α|θQ)更新易于發(fā)散。我們的解決方案類似于（Mnih et al.，2013）中使用的目標(biāo)網(wǎng)絡(luò)，但針對(duì)執(zhí)行者評(píng)判者和使用“軟”目標(biāo)更新進(jìn)行了修改，而不是直接復(fù)制權(quán)重。我們分別創(chuàng)建了執(zhí)行者和評(píng)判者網(wǎng)絡(luò)的副本Q’(s, α|θQ’)和μ’(s|θμ’)，用于計(jì)算目標(biāo)值。然后通過(guò)讓他們慢慢跟蹤學(xué)習(xí)的網(wǎng)絡(luò)來(lái)更新這些目標(biāo)網(wǎng)絡(luò)的權(quán)重θ'←τθ+(1-τ)θ'，τ遠(yuǎn)小于1。這意味著目標(biāo)值被限制為緩慢變化，大大提高了學(xué)習(xí)的穩(wěn)定性。這個(gè)簡(jiǎn)單的變化使學(xué)習(xí)行為-價(jià)值函數(shù)的相對(duì)不穩(wěn)定的問題更接近于監(jiān)督學(xué)習(xí)的情況，這是一個(gè)強(qiáng)有力的解決方案的問題我們發(fā)現(xiàn)同時(shí)具有目標(biāo)μ’和Q’需要具有穩(wěn)定的目標(biāo)yi，以便一致地訓(xùn)練評(píng)判者而不會(huì)發(fā)散。這可能會(huì)減慢學(xué)習(xí)速度，因?yàn)槟繕?biāo)網(wǎng)絡(luò)延遲了價(jià)值估計(jì)的傳播。實(shí)踐中，我們發(fā)現(xiàn)學(xué)習(xí)的穩(wěn)定性的重要性遠(yuǎn)遠(yuǎn)超過(guò)了學(xué)習(xí)速度。

當(dāng)從低維特征向量觀察中學(xué)習(xí)時(shí)，觀察的不同分量可以具有不同的物理單位（例如，位置與速度），并且范圍可以在不同環(huán)境中變化。這可能使網(wǎng)絡(luò)難以有效地學(xué)習(xí)并且可能使得難以找到在具有不同狀態(tài)值的環(huán)境的情況下得到的超參數(shù)。

解決此問題的一種方法是人為縮放，使其在不同環(huán)境和單位的范圍內(nèi)相似。我們通過(guò)稱為批量標(biāo)準(zhǔn)化的深度學(xué)習(xí)的最新技術(shù)來(lái)解決這個(gè)問題（Ioffe＆Szegedy，2015）。該技術(shù)將小批量中樣本的每個(gè)維度標(biāo)準(zhǔn)化，使之具有單位均值和方差。此外，它保持了平均值和方差的運(yùn)行平均值，用于測(cè)試期間的標(biāo)準(zhǔn)化（在我們的例子中，在勘探或評(píng)估期間）。在深度網(wǎng)絡(luò)中，它用于通過(guò)確保每層接收白化輸入來(lái)最小化訓(xùn)練期間的協(xié)方差偏移。在低維情況下，我們?cè)趧?dòng)作輸入之前對(duì)狀態(tài)輸入和μ網(wǎng)絡(luò)的所有層以及Q網(wǎng)絡(luò)的所有層使用批量歸一化（網(wǎng)絡(luò)的細(xì)節(jié)在補(bǔ)充材料中給出）。通過(guò)批量標(biāo)準(zhǔn)化，我們能夠有效地學(xué)習(xí)具有不同類型單元的許多不同任務(wù)，而無(wú)需人工確保單元在設(shè)定范圍內(nèi)。

在連續(xù)行動(dòng)空間中學(xué)習(xí)的主要挑戰(zhàn)是探索。DDPG等離線訓(xùn)練策略算法的一個(gè)優(yōu)點(diǎn)是我們可以獨(dú)立于學(xué)習(xí)算法來(lái)處理探索問題。我們通過(guò)將從噪聲過(guò)程N(yùn)采樣的噪聲添加到我們的行為者策略中來(lái)構(gòu)建勘探策略μ’。

可以選擇N以適應(yīng)環(huán)境。正如補(bǔ)充材料中詳述的那樣，我們使用Ornstein-Uhlenbeck過(guò)程（Uhlenbeck＆Ornstein，1930）來(lái)產(chǎn)生時(shí)間上相關(guān)的探索，以探索具有慣性的物理控制問題的探索效率（在（Wawrzynski，2015）中引入了類似的自相關(guān)噪聲的使用）。

四、實(shí)驗(yàn)結(jié)果

我們構(gòu)建了不同難度級(jí)別的模擬物理環(huán)境來(lái)測(cè)試我們的算法。這包括經(jīng)典的強(qiáng)化學(xué)習(xí)環(huán)境，如cartpole，以及困難的高維任務(wù)，如抓手，涉及接觸的任務(wù)，如冰球打擊（加拿大）和運(yùn)動(dòng)任務(wù)比如獵豹（Wawrzynski，2009）。在除獵豹之外的所有領(lǐng)域中，動(dòng)作都是應(yīng)用于驅(qū)動(dòng)關(guān)節(jié)的扭矩。使用MuJoCo模擬這些環(huán)境（Todorov等，2012）。圖1顯示了任務(wù)中使用的一些環(huán)境的渲染圖（補(bǔ)充包含環(huán)境的詳細(xì)信息，您可以在https://goo.gl/J4PIAz上查看一些學(xué)習(xí)的策略）。

圖1：我們嘗試使用DDPG解決的環(huán)境示例的屏幕截圖示例。按順序從左側(cè)開始：推車上升任務(wù)，到達(dá)任務(wù)，喘氣和移動(dòng)任務(wù)，冰球擊打任務(wù)，單聲道平衡任務(wù)，兩個(gè)運(yùn)動(dòng)任務(wù)和Torcs（駕駛模擬器）。我們使用低維特征向量和高維像素輸入來(lái)處理所有任務(wù)。補(bǔ)充中提供了對(duì)環(huán)境的詳細(xì)描述。有關(guān)部分學(xué)習(xí)策略的視頻，請(qǐng)?jiān)L問https://goo.gl/J4PIAz。

在所有任務(wù)中，我們使用低維狀態(tài)描述（例如關(guān)節(jié)角度和位置）和環(huán)境的高維更新進(jìn)行實(shí)驗(yàn)。如在DQN（Mnih等人，2013; 2015）中，為了使問題在高維環(huán)境中幾乎完全可觀察，我們使用了動(dòng)作重復(fù)。對(duì)于智能體的每個(gè)時(shí)間步，我們將模擬步進(jìn)3個(gè)步驟，重復(fù)智能體的操作并每次更新。因此，向智能體報(bào)告的觀察包含9個(gè)特征圖（3次更新中的每一個(gè)的RGB），其允許智能體使用幀之間的差異來(lái)推斷速度。幀被下采樣到64x64像素，并且8位RGB值被轉(zhuǎn)換為縮放到[0,1]的浮點(diǎn)數(shù)。有關(guān)我們的網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù)的詳細(xì)信息，請(qǐng)參閱補(bǔ)充信息。

我們通過(guò)在沒有探索噪聲的情況下進(jìn)行測(cè)試來(lái)定期評(píng)估策略。圖2顯示了一系列環(huán)境的性能曲線。我們還報(bào)告了刪除了我們的算法組件（即目標(biāo)網(wǎng)絡(luò)或批量標(biāo)準(zhǔn)化）的結(jié)果。為了在所有任務(wù)中表現(xiàn)良好，這些添加都是必要的。特別是沒有目標(biāo)網(wǎng)絡(luò)的學(xué)習(xí)，如在DPG的原始網(wǎng)絡(luò)中，在許多環(huán)境中效果非常差。

圖2：使用DPG變體選擇域的性能曲線：具有批量標(biāo)準(zhǔn)化（淺灰色）的原始DPG算法（minibatch NFQCA），具有目標(biāo)網(wǎng)絡(luò)（深灰色），具有目標(biāo)網(wǎng)絡(luò)和批量標(biāo)準(zhǔn)化（綠色），具有目標(biāo)來(lái)自僅像素輸入的網(wǎng)絡(luò)（藍(lán)色）。目標(biāo)網(wǎng)絡(luò)至關(guān)重要。

令人驚訝的是，在一些更簡(jiǎn)單的任務(wù)中，來(lái)自像素的學(xué)習(xí)策略與使用低維狀態(tài)描述符學(xué)習(xí)一樣快。這可能是由于動(dòng)作重復(fù)使問題變得更簡(jiǎn)單。也可能是卷積層提供了易于分離的狀態(tài)空間表示，這對(duì)于較多層快速學(xué)習(xí)是很容易的。

表1總結(jié)了DDPG在所有環(huán)境中的性能（平均超過(guò)5次試驗(yàn)）。我們使用兩個(gè)基線對(duì)分?jǐn)?shù)進(jìn)行標(biāo)準(zhǔn)化。第一個(gè)基線是來(lái)自簡(jiǎn)單策略的平均回報(bào)，該策略從有效行動(dòng)空間的均勻分布中采樣行動(dòng)。第二個(gè)基線是iLQG（Todorov＆Li，2005），一個(gè)基于計(jì)劃的求解器，可以完全訪問基礎(chǔ)物理模型和它的衍生物。我們對(duì)分?jǐn)?shù)進(jìn)行標(biāo)準(zhǔn)化，使得簡(jiǎn)單策略的平均分為0，iLQG的平均分為1。DDPG能夠?qū)W習(xí)許多任務(wù)的良好策略，并且在許多情況下，一些試驗(yàn)學(xué)習(xí)的策略優(yōu)于那些由iLQG發(fā)現(xiàn)的，即使直接從像素學(xué)習(xí)。

表1：在所有環(huán)境中訓(xùn)練后的性能，最多250萬(wàn)步。我們報(bào)告平均值和最佳觀察值（5次運(yùn)行）。除了Torcs之外的所有分?jǐn)?shù)被歸一化，以便隨機(jī)智能體得到分?jǐn)?shù)0，有規(guī)劃算法的智能體得到分?jǐn)?shù)1; 對(duì)于Torcs，我們提供原始獎(jiǎng)勵(lì)分?jǐn)?shù)。

學(xué)習(xí)準(zhǔn)確的價(jià)值估算可能具有挑戰(zhàn)性。例如，Q-learning傾向于高估值（Hasselt，2010）。我們通過(guò)將訓(xùn)練后Q估計(jì)的值與測(cè)試集中看到的真實(shí)回報(bào)進(jìn)行比較，從經(jīng)驗(yàn)上檢驗(yàn)了DDPG的估計(jì)值。圖3顯示，在簡(jiǎn)單任務(wù)中，DDPG估計(jì)準(zhǔn)確地返回而沒有系統(tǒng)偏差。對(duì)于更難的任務(wù)，Q估計(jì)更糟糕，但DDPG仍然能夠?qū)W習(xí)良好的策略。

圖3：密度圖顯示了估計(jì)的Q值與從5個(gè)重復(fù)試驗(yàn)上的測(cè)試事件中采樣的觀察到的回報(bào)。在諸如擺錘和推車的簡(jiǎn)單域中，Q值非常準(zhǔn)確。在更復(fù)雜的任務(wù)中，Q估計(jì)值不太準(zhǔn)確，但仍可用于學(xué)習(xí)合格的策略。虛線表示單位，單位是任意的。

為了展示我們的方法的一般性，我們還包括Torcs，一種賽車游戲，其中的動(dòng)作是加速，制動(dòng)和轉(zhuǎn)向。Torcs以前曾被用作其他策略學(xué)習(xí)方法的試驗(yàn)平臺(tái)（Koutn?k等，2014b）。我們使用相同的網(wǎng)絡(luò)架構(gòu)和學(xué)習(xí)算法超參數(shù)來(lái)完成物理任務(wù)，但由于涉及的時(shí)間尺度非常不同，因此改變了探測(cè)的噪聲過(guò)程。在低維和像素方面，一些試驗(yàn)?zāi)軌驅(qū)W習(xí)合理的策略，能夠完整跑完賽道，盡管其他試驗(yàn)未能學(xué)習(xí)到合理的策略。

五、相關(guān)工作

最初的DPG論文使用編碼和線性函數(shù)逼近器評(píng)估了類似游戲問題的算法。它證明了離線訓(xùn)練策略的DPG對(duì)在線-離線訓(xùn)練隨機(jī)執(zhí)行者-評(píng)判者的數(shù)據(jù)效率優(yōu)勢(shì)。它還解決了一個(gè)更具挑戰(zhàn)性的任務(wù)，其中一個(gè)是多關(guān)節(jié)臂必須與肢體的任何部分撞擊目標(biāo)的任務(wù)。然而，正如我們?cè)谶@里所做的那樣，該論文沒有展示如何擴(kuò)展大型高維觀測(cè)空間的方法。

最近關(guān)于無(wú)模型策略搜索的工作表明，它可能不像以前認(rèn)為的那樣脆弱。Wawrzynski（2009）; Wawrzynski和Tanwani（2013）使用重放緩沖器在執(zhí)行者-評(píng)判者框架中訓(xùn)練隨機(jī)策略。在我們的工作的同時(shí)，Balduzzi和Ghifary（2015）將DPG算法擴(kuò)展為一個(gè)“偏離器”網(wǎng)絡(luò)，該網(wǎng)絡(luò)明確地學(xué)習(xí)了∂Q/∂a。但是，他們只訓(xùn)練兩個(gè)低維域。Heess等人（2015）引入了SVG（0），它也使用了Q-critic，但學(xué)習(xí)了隨機(jī)策略。DPG可以被認(rèn)為是SVG（0）的確定性極限。我們?cè)诖嗣枋龅挠糜诳s放DPG的技術(shù)也適用于通過(guò)使用重新參數(shù)化技巧的隨機(jī)策略（Heess等人，2015; Schulman等人，2015a）。

另一種方法，信任區(qū)域策略優(yōu)化（TRPO）（Schulman等，2015b），直接構(gòu)建隨機(jī)神經(jīng)網(wǎng)絡(luò)策略，而不將問題分解為最優(yōu)控制和監(jiān)督階段。通過(guò)對(duì)策略參數(shù)進(jìn)行精心選擇的更新，約束更新以防止新策略偏離現(xiàn)有策略，這種方法可以產(chǎn)生近乎單調(diào)的改進(jìn)。這種方法不需要學(xué)習(xí)動(dòng)作值函數(shù)，并且（可能因此）似乎顯著降低了數(shù)據(jù)效率。

為了應(yīng)對(duì)行為者–評(píng)論者方法的挑戰(zhàn)，最近使用指導(dǎo)性策略搜索（GPS）算法的工作（例如，（Levine等，2015））將問題分解為三個(gè)相對(duì)容易解決的階段：首先，它使用全狀態(tài)觀測(cè)，以創(chuàng)建圍繞一個(gè)或多個(gè)標(biāo)稱軌跡的動(dòng)力學(xué)的局部線性近似，然后使用最優(yōu)控制來(lái)找到沿這些軌跡的局部線性最優(yōu)策略; 最后，它使用監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練復(fù)雜的非線性策略（例如深度神經(jīng)網(wǎng)絡(luò)）以再現(xiàn)優(yōu)化軌跡的狀態(tài)-動(dòng)作映射。

這種方法有幾個(gè)好處，包括數(shù)據(jù)效率，并已成功應(yīng)用于使用視覺的各種現(xiàn)實(shí)世界的機(jī)器人操作任務(wù)。在這些任務(wù)中，GPS使用與我們類似的卷積策略網(wǎng)絡(luò)，但有兩個(gè)明顯的例外：

1.它使用空間softmax將視覺特征的維度降低為每個(gè)特征映射的單個(gè)（x，y）坐標(biāo)。
2.策略還接收關(guān)于網(wǎng)絡(luò)中第一完全連接層處的機(jī)器人配置的直接低維狀態(tài)信息。

兩者都可能提高算法的效果和數(shù)據(jù)效率，并且可以在DDPG框架內(nèi)輕松利用。

PILCO（Deisenroth和Rasmussen，2011）使用高斯過(guò)程來(lái)學(xué)習(xí)動(dòng)力學(xué)的非參數(shù)概率模型。使用這種學(xué)習(xí)模型，PILCO可計(jì)算分析策略梯度，并在許多控制問題中有著令人印象深刻的數(shù)據(jù)效率。然而，由于高計(jì)算需求，PILCO“對(duì)于高維問題”是不切實(shí)際的（Wahlstrom等，2015）。似乎深度函數(shù)逼近器是將強(qiáng)化學(xué)習(xí)擴(kuò)展到大型高維域的最有前景的方法。

Wahlstrom等（2015）使用深度動(dòng)力學(xué)模型網(wǎng)絡(luò)和模型預(yù)測(cè)控制來(lái)解決從像素輸入的鐘擺擺動(dòng)任務(wù)。他們訓(xùn)練了一個(gè)可微分的前向模型，并將目標(biāo)狀態(tài)編碼到學(xué)習(xí)的潛在空間中。他們使用對(duì)學(xué)習(xí)模型的模型預(yù)測(cè)控制來(lái)找到達(dá)到目標(biāo)的策略。但是，此方法僅適用于具有可向算法演示的目標(biāo)狀態(tài)的域。

最近，已經(jīng)使用進(jìn)化方法從使用壓縮權(quán)重參數(shù)化（Koutn?k等，2014a）或無(wú)監(jiān)督學(xué)習(xí)（Koutn?k等，2014b）的像素學(xué)習(xí)Torcs的競(jìng)爭(zhēng)策略，以減少演化權(quán)重的維數(shù)。目前尚不清楚這些方法對(duì)其他問題的普適性。

六、結(jié)論

這項(xiàng)工作結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的最新進(jìn)展，產(chǎn)生了一種算法，即使在使用原始像素進(jìn)行觀察時(shí)，也可以通過(guò)連續(xù)的動(dòng)作空間穩(wěn)定地解決各種領(lǐng)域的挑戰(zhàn)性問題。與大多數(shù)強(qiáng)化學(xué)習(xí)算法一樣，使用非線性函數(shù)逼近器可以不需要任何收斂保證; 然而，我們的實(shí)驗(yàn)結(jié)果證明了該算法可以穩(wěn)定的學(xué)習(xí)，而無(wú)需在環(huán)境之間進(jìn)行任何修改。有趣的是我們所有的實(shí)驗(yàn)，都使用了比DQN學(xué)習(xí)在Atari域中找到解決方案所用的經(jīng)驗(yàn)步驟少得多的經(jīng)驗(yàn)。我們所看到的幾乎所有問題都在250萬(wàn)步的經(jīng)驗(yàn)中得到了解決（通常要少得多），比DQN對(duì)較優(yōu)Atari解決方案所需的步數(shù)少20倍。這表明，給定更多的模擬時(shí)間，DDPG可以解決比這里考慮的更困難的問題。

我們的方法仍然存在一些局限性。最值得注意的是，與大多數(shù)無(wú)模型強(qiáng)化方法一樣，DDPG需要大量的回合訓(xùn)練才能找到解決方案。然而，我們認(rèn)為魯棒的無(wú)模型方法可能是解決這些限制的大型系統(tǒng)的重要組成部分（Glascher等，2010）。

論文原文、參考文獻(xiàn)及補(bǔ)充材料地址： http://cn.arxiv.org/pdf/1509.02971v5
主要作者：Timothy P. Lillicrap∗
所屬項(xiàng)目：Google DeepMind

分享到：

微信“掃一掃”
分享到朋友圈

點(diǎn)贊 0 反對(duì) 0 舉報(bào) 0 收藏 0 評(píng)論 0

汽車測(cè)試網(wǎng)V課堂
微信公眾號(hào)
汽車測(cè)試網(wǎng)手機(jī)站

相關(guān)閱讀

0 條相關(guān)評(píng)論

• 亦莊：自動(dòng)駕駛之城	• 智能網(wǎng)聯(lián)汽車仿真測(cè)試標(biāo)準(zhǔn)體系研究
• 汽車自動(dòng)駕駛仿真：場(chǎng)景呈現(xiàn)的技術(shù)深度探討	• 汽車自動(dòng)駕駛感知模塊的開發(fā)與驗(yàn)證：技術(shù)挑戰(zhàn)與未來(lái)展望
• 汽車自動(dòng)駕駛感知模塊開發(fā)與驗(yàn)證中的場(chǎng)景仿真技術(shù)探析	• 智能網(wǎng)聯(lián)不確定路口場(chǎng)景下汽車駕駛性能的實(shí)驗(yàn)與評(píng)價(jià)研究
• 智能網(wǎng)聯(lián)汽車產(chǎn)品模擬仿真測(cè)試可信度評(píng)估方法	• 智能網(wǎng)聯(lián)汽車產(chǎn)品模擬仿真測(cè)試可信度評(píng)估框架
• 智能網(wǎng)聯(lián)汽車產(chǎn)品測(cè)試策略：確保安全可靠的駕駛體驗(yàn)	• 智能網(wǎng)聯(lián)汽車視覺感知系統(tǒng)測(cè)評(píng)驗(yàn)證：性能評(píng)估與未來(lái)展望

日本无码免费高清在线|成人日本在线观看高清|A级片免费视频操逼欧美|全裸美女搞黄色大片网站|免费成人a片视频|久久无码福利成人激情久久|国产视频一二国产在线v|av女主播在线观看|五月激情影音先锋|亚洲一区天堂av

基于深度強(qiáng)化學(xué)習(xí)的連續(xù)性動(dòng)作控制

微信公眾號(hào)

編輯推薦

最新資訊

“汽車爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)

十年耐久監(jiān)管時(shí)代：電池系統(tǒng)開發(fā)策略將如何

聯(lián)合國(guó)法規(guī)R59對(duì)機(jī)動(dòng)車備用消聲系統(tǒng)的工程

聯(lián)合國(guó)法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約

聯(lián)合國(guó)法規(guī)R57對(duì)摩托車前照燈配光性能的工