基于深度強(qiáng)化學(xué)習(xí)的連續(xù)性動(dòng)作控制
摘要:我們?cè)谏疃萉-learning成功的基礎(chǔ)思想將其調(diào)整為連續(xù)性領(lǐng)域。我們提出了一種基于確定性策略梯度的執(zhí)行者-評(píng)判者的無(wú)模型算法,該算法可以在連續(xù)動(dòng)作空間上運(yùn)行。使用相同的學(xué)習(xí)算法,網(wǎng)絡(luò)架構(gòu)和超參數(shù),我們的算法可以有力地解決20多個(gè)模擬物理任務(wù),包括經(jīng)典問題,如推車擺動(dòng),靈巧操縱,腿式運(yùn)動(dòng)和汽車駕駛。我們的算法能夠找到在動(dòng)態(tài)領(lǐng)域性能與規(guī)劃算法相競(jìng)爭(zhēng)的策略。我們進(jìn)一步證明,對(duì)于許多任務(wù),算法可以直接從原始像素輸入學(xué)習(xí)“端到端”策略。
一、 介紹
人工智能領(lǐng)域的主要目標(biāo)之一是從原始、高維度的感知輸入中解決復(fù)雜的任務(wù)。最近,通過(guò)將感知處理的深度學(xué)習(xí)(Krizhevsky等,2012)的進(jìn)展與強(qiáng)化學(xué)習(xí)相結(jié)合,取得了重大進(jìn)展,從而產(chǎn)生了深度Q網(wǎng)絡(luò)(DQN)算法(Mnih等,2015),在許多Atari游戲中使用未經(jīng)處理的像素輸入有著人類級(jí)別的表現(xiàn)。為此,他們使用了深度神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器來(lái)估計(jì)動(dòng)作值函數(shù)。
然而,雖然DQN解決了高維觀察空間的問題,但它只能處理離散和低維動(dòng)作空間。DQN不能直接應(yīng)用于連續(xù)域,因?yàn)樗蕾囉谡业阶畲蠡瘎?dòng)作值函數(shù)的動(dòng)作,這在連續(xù)值的情況下需要在每個(gè)步驟進(jìn)行迭代優(yōu)化過(guò)程。
使深度強(qiáng)化學(xué)習(xí)方法(如DQN)適應(yīng)連續(xù)域的一種顯而易見的方法是簡(jiǎn)單地將行動(dòng)空間離散化。然而,這有許多局限性,最顯著的是維度災(zāi)難:動(dòng)作的數(shù)量隨著ai∈{-k,0,k}自由度的數(shù)量呈指數(shù)增長(zhǎng)。例如,具有7自由度的系統(tǒng)(如在人類手臂中)每個(gè)關(guān)節(jié)的導(dǎo)致動(dòng)作空間的維數(shù)為37=2187。對(duì)于需要精確控制動(dòng)作的任務(wù)情況更糟,因?yàn)樗鼈冃枰鄳?yīng)更細(xì)粒度的離散化,導(dǎo)致爆炸的離散動(dòng)作數(shù)量。這樣大的動(dòng)作空間難以有效地探索,因此在這種情況下成功訓(xùn)練類似DQN的網(wǎng)絡(luò)是很難的。此外,動(dòng)作空間的簡(jiǎn)單離散化會(huì)不必要地丟棄關(guān)于動(dòng)作域結(jié)構(gòu)的信息,然而這對(duì)于解決許多問題是很關(guān)鍵的信息。
我們提出了一個(gè)使用深度函數(shù)逼近器的無(wú)模型,離線訓(xùn)練的執(zhí)行者-評(píng)判者算法,可以學(xué)習(xí)高維,連續(xù)動(dòng)作空間中的策略。我們的工作基于確定性策略梯度(DPG)算法(Silver et al.,2014)((本身類似于NFQCA(Hafner&Riedmiller,2011),類似的想法可以在(Prokhorov et al., 1997)中找到)。然而,如我們下面所示,這種具有神經(jīng)函數(shù)逼近器的執(zhí)行者-評(píng)判者方法的直接應(yīng)用對(duì)于挑戰(zhàn)性問題時(shí)是不穩(wěn)定的。在這里,我們將執(zhí)行者-評(píng)判者方法與深度Q網(wǎng)絡(luò)(DQN)近期成功的見解結(jié)合起來(lái)(Mnih et al.,2013; 2015)。在DQN之前,人們普遍認(rèn)為使用大的非線性函數(shù)逼近器的學(xué)習(xí)值函數(shù)是困難且不穩(wěn)定的。由于兩項(xiàng)創(chuàng)新,DQN能夠以穩(wěn)定和魯棒的方式使用此類函數(shù)逼近器學(xué)習(xí)價(jià)值函數(shù):
- 1.使用來(lái)自重放緩沖器的樣本對(duì)網(wǎng)絡(luò)進(jìn)行離線策略訓(xùn)練,以最小化樣本之間的相關(guān)性;
- 2.使用目標(biāo)Q網(wǎng)絡(luò)訓(xùn)練網(wǎng)絡(luò),以在計(jì)算時(shí)間差分損失時(shí)提供一致的目標(biāo)。
在這項(xiàng)工作中,我們使用相同的想法,以及批量歸一化(Ioffe&Szegedy,2015),這是深度學(xué)習(xí)的最新進(jìn)展。
為了評(píng)估我們的方法,我們構(gòu)建了各種具有挑戰(zhàn)性的物理控制問題,涉及復(fù)雜的多關(guān)節(jié)運(yùn)動(dòng),不穩(wěn)定和豐富的接觸動(dòng)力學(xué)以及步態(tài)行為。其中有經(jīng)典問題,如推車擺動(dòng)問題,以及許多新的領(lǐng)域。機(jī)器人控制的長(zhǎng)期挑戰(zhàn)是直接從原始感知輸入(如視頻)學(xué)習(xí)動(dòng)作策略。因此,我們將固定視角相機(jī)放置在模擬器中,并使用低維觀測(cè)值(例如關(guān)節(jié)角度)和直接從像素嘗試完成所有任務(wù)。我們稱之為Deep DPG(DDPG)的無(wú)模型方法可以使用相同的超參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu),使用低維觀測(cè)(例如笛卡爾坐標(biāo)或關(guān)節(jié)角度)來(lái)學(xué)習(xí)所有任務(wù)的競(jìng)爭(zhēng)策略。在許多情況下,我們還能夠直接從像素中學(xué)習(xí)優(yōu)秀的策略,同樣保持超參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)不變。該方法的一個(gè)關(guān)鍵特征是它的簡(jiǎn)單性:它只需要一個(gè)簡(jiǎn)單的執(zhí)行者-評(píng)判者架構(gòu)和學(xué)習(xí)算法,只需很少的“移動(dòng)部件”,使其易于實(shí)現(xiàn)和擴(kuò)展到更難的問題和更大的網(wǎng)絡(luò)。對(duì)于物理控制問題,我們將結(jié)果與規(guī)劃方法(Tassa等人,2012)計(jì)算的算法現(xiàn)狀進(jìn)行比較,該算法現(xiàn)狀可以完全解決基礎(chǔ)模擬動(dòng)力學(xué)及其衍生問題(參見補(bǔ)充信息)。有趣的是,DDPG有時(shí)可以找到超出規(guī)劃效果的策略,在某些情況下甚至可以從像素中學(xué)習(xí)(規(guī)劃方法總是通過(guò)低維狀態(tài)空間做出策略)。
二、背景
我們考慮一種標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)設(shè)置,包括在離散時(shí)間步長(zhǎng)中與環(huán)境E交互的智能體。在每個(gè)時(shí)間步,智能體接收觀察xt,采取行動(dòng)αt并獲取獎(jiǎng)勵(lì)rt。在這里考慮的所有環(huán)境中,動(dòng)作都是實(shí)值 at∈IRN。通常,可以部分地觀察環(huán)境,以便需要觀察整個(gè)歷史,動(dòng)作對(duì)st=(x1,αt,……,αt-1,xt)來(lái)描述狀態(tài)。在這里,我們假設(shè)環(huán)境是完全可被觀測(cè)的,因此st=xt。
智能體的行為由策略π定義,該策略將狀態(tài)映射到動(dòng)作π:S→P(A)上的概率分布。環(huán)境E也可以是隨機(jī)的。我們將其建模為具有狀態(tài)空間S,動(dòng)作空間A=IRN,初始狀態(tài)分布p(s1),轉(zhuǎn)換動(dòng)態(tài)p(st+1|st,αt)和獎(jiǎng)勵(lì)函數(shù)r(st,αt)的馬爾可夫決策過(guò)程。
狀態(tài)回報(bào)被定義為未來(lái)折扣獎(jiǎng)勵(lì)Rt=Γ(i-t)r(si,ai)的總和,折扣因子Γ∈[0,1]。請(qǐng)注意,返回值取決于所選擇的操作,因此取決于策略π,并且可能是隨機(jī)的。強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一種策略,該策略最大化期望回報(bào)J=IEri,si~E,αi~π[R1]。我們將策略π的折扣狀態(tài)分布表示為ρπ。
動(dòng)作值函數(shù)用于許多強(qiáng)化學(xué)習(xí)算法。它描述了在狀態(tài)st中采取行動(dòng)αt之后的預(yù)期回報(bào),這個(gè)過(guò)程遵循策略π:

強(qiáng)化學(xué)習(xí)中的許多方法都使用Bellman方程的遞歸關(guān)系:

如果目標(biāo)策略是確定性的,我們可以將其描述為函數(shù)μ:S←A,避免因?yàn)椴淮_定導(dǎo)致的內(nèi)部期望的計(jì)算:

期望僅取決于環(huán)境。這意味著可以使用從不同的隨機(jī)行為策略β生成的轉(zhuǎn)換來(lái)學(xué)習(xí)Qμ離線訓(xùn)練策略。
已發(fā)布的Q-learning(Watkins&Dayan,1992)是一種常用的離線訓(xùn)練策略算法,它使用貪婪策略μ(s)=argmaxαQ(s, α)。我們考慮通過(guò)θQ數(shù)化的函數(shù)逼近器,通過(guò)最小化損失來(lái)優(yōu)化參數(shù):

其中:

雖然yt也依賴于θQ,但通常會(huì)被忽略。
過(guò)去經(jīng)常避免使用龐大的非線性函數(shù)逼近器來(lái)學(xué)習(xí)價(jià)值或動(dòng)作值函數(shù),因?yàn)槔碚撋系男阅鼙WC是不可能的,并且實(shí)際上學(xué)習(xí)往往是不穩(wěn)定的。最近,(Mnih等人,2013; 2015)采用了Q-learning算法,以便有效地使用大型神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器。他們的算法能夠?qū)W習(xí)從像素中玩Atari游戲。為了擴(kuò)展Q-learning,他們引入了兩個(gè)主要變化:使用重放緩沖區(qū)和單獨(dú)的目標(biāo)網(wǎng)絡(luò)來(lái)計(jì)算。我們?cè)贒DPG的背景下使用它們,并在下一節(jié)中解釋它們的實(shí)現(xiàn)。
三、 算法
不可能直接將Q-learning應(yīng)用于連續(xù)動(dòng)作空間,因?yàn)樵谶B續(xù)空間中找到貪婪的策略需要在每個(gè)時(shí)間步長(zhǎng)優(yōu)化αt; 對(duì)于大的,無(wú)約束的函數(shù)逼近器和非凡的動(dòng)作空間,這種優(yōu)化太慢而不實(shí)用。相反,在這里我們使用了基于DPG算法的執(zhí)行者-評(píng)判者方法(Silver et al.,2014)。
DPG算法維護(hù)參數(shù)化的actor函數(shù),該函數(shù)通過(guò)確定地將狀態(tài)映射到特定動(dòng)作來(lái)指定當(dāng)前策略。評(píng)判Q(s, α)類似Q-learning一樣通過(guò)貝爾曼方程學(xué)習(xí)更新。通過(guò)遵循鏈?zhǔn)椒▌t應(yīng)用于初始分布J相對(duì)于actor參數(shù)的預(yù)期返回來(lái)更新actor:

Silver等人(2014)證明了這是策略梯度,即策略表現(xiàn)的梯度。與Q-learning一樣,引入非線性函數(shù)逼近器意味著不再保證可以收斂。然而,為了學(xué)習(xí)和適應(yīng)大狀態(tài)空間,這些近似似乎是必不可少的。NFQCA(Hafner和Riedmiller,2011)使用與DPG相同的更新規(guī)則但使用神經(jīng)網(wǎng)絡(luò)函數(shù)近似器,使用批量學(xué)習(xí)來(lái)實(shí)現(xiàn)穩(wěn)定性,這對(duì)大型網(wǎng)絡(luò)來(lái)說(shuō)是難以處理的。NFQCA的小批量版本在每次更新時(shí)不會(huì)重置策略,如同擴(kuò)展到大型網(wǎng)絡(luò)所需的那樣,等同于我們?cè)诖吮容^的原始DPG。我們?cè)谶@里的貢獻(xiàn)是在DQN的成功啟發(fā)下對(duì)DPG進(jìn)行修改,這使得它能夠使用神經(jīng)網(wǎng)絡(luò)函數(shù)逼近器在線學(xué)習(xí)大型狀態(tài)和動(dòng)作空間。我們將我們的算法稱為Deep DPG(DDPG,算法1)。
使用神經(jīng)網(wǎng)絡(luò)進(jìn)行強(qiáng)化學(xué)習(xí)時(shí)的一個(gè)挑戰(zhàn)是大多數(shù)優(yōu)化算法假設(shè)樣本是獨(dú)立且相同的分布。顯然,當(dāng)在環(huán)境中順序探索生成樣本時(shí),這種假設(shè)不再成立。此外,為了有效利用硬件優(yōu)化,必須以小批量采樣學(xué)習(xí),而不是在線學(xué)習(xí)。
與DQN一樣,我們使用重放緩沖區(qū)來(lái)解決這些問題。重放緩沖區(qū)是有限大小的緩存R。根據(jù)探索策略從環(huán)境中采樣轉(zhuǎn)換,并且元組(st,αt,rt,st+1)存儲(chǔ)在重放緩沖區(qū)中。當(dāng)重放緩沖區(qū)已滿時(shí),丟棄最舊的樣本。在每個(gè)時(shí)間步驟,通過(guò)從緩沖區(qū)統(tǒng)一采樣小批量來(lái)更新行為者和評(píng)判者。由于DDPG是一種離線訓(xùn)練策略算法,因此重放緩沖區(qū)可能很大,允許算法通過(guò)一組不相關(guān)的轉(zhuǎn)換進(jìn)行學(xué)習(xí)而因此受益。
直接用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)Q-learning(方程式4)在許多環(huán)境中被證明是不穩(wěn)定的。由于正在更新的網(wǎng)絡(luò)也用于計(jì)算目標(biāo)值(等式5),因此Q(s, α|θQ)更新易于發(fā)散。我們的解決方案類似于(Mnih et al.,2013)中使用的目標(biāo)網(wǎng)絡(luò),但針對(duì)執(zhí)行者評(píng)判者和使用“軟”目標(biāo)更新進(jìn)行了修改,而不是直接復(fù)制權(quán)重。我們分別創(chuàng)建了執(zhí)行者和評(píng)判者網(wǎng)絡(luò)的副本Q’(s, α|θQ’)和μ’(s|θμ’),用于計(jì)算目標(biāo)值。然后通過(guò)讓他們慢慢跟蹤學(xué)習(xí)的網(wǎng)絡(luò)來(lái)更新這些目標(biāo)網(wǎng)絡(luò)的權(quán)重θ'←τθ+(1-τ)θ',τ遠(yuǎn)小于1。這意味著目標(biāo)值被限制為緩慢變化,大大提高了學(xué)習(xí)的穩(wěn)定性。這個(gè)簡(jiǎn)單的變化使學(xué)習(xí)行為-價(jià)值函數(shù)的相對(duì)不穩(wěn)定的問題更接近于監(jiān)督學(xué)習(xí)的情況,這是一個(gè)強(qiáng)有力的解決方案的問題我們發(fā)現(xiàn)同時(shí)具有目標(biāo)μ’和Q’需要具有穩(wěn)定的目標(biāo)yi,以便一致地訓(xùn)練評(píng)判者而不會(huì)發(fā)散。這可能會(huì)減慢學(xué)習(xí)速度,因?yàn)槟繕?biāo)網(wǎng)絡(luò)延遲了價(jià)值估計(jì)的傳播。實(shí)踐中,我們發(fā)現(xiàn)學(xué)習(xí)的穩(wěn)定性的重要性遠(yuǎn)遠(yuǎn)超過(guò)了學(xué)習(xí)速度。
當(dāng)從低維特征向量觀察中學(xué)習(xí)時(shí),觀察的不同分量可以具有不同的物理單位(例如,位置與速度),并且范圍可以在不同環(huán)境中變化。這可能使網(wǎng)絡(luò)難以有效地學(xué)習(xí)并且可能使得難以找到在具有不同狀態(tài)值的環(huán)境的情況下得到的超參數(shù)。
解決此問題的一種方法是人為縮放,使其在不同環(huán)境和單位的范圍內(nèi)相似。我們通過(guò)稱為批量標(biāo)準(zhǔn)化的深度學(xué)習(xí)的最新技術(shù)來(lái)解決這個(gè)問題(Ioffe&Szegedy,2015)。該技術(shù)將小批量中樣本的每個(gè)維度標(biāo)準(zhǔn)化,使之具有單位均值和方差。此外,它保持了平均值和方差的運(yùn)行平均值,用于測(cè)試期間的標(biāo)準(zhǔn)化(在我們的例子中,在勘探或評(píng)估期間)。在深度網(wǎng)絡(luò)中,它用于通過(guò)確保每層接收白化輸入來(lái)最小化訓(xùn)練期間的協(xié)方差偏移。在低維情況下,我們?cè)趧?dòng)作輸入之前對(duì)狀態(tài)輸入和μ網(wǎng)絡(luò)的所有層以及Q網(wǎng)絡(luò)的所有層使用批量歸一化(網(wǎng)絡(luò)的細(xì)節(jié)在補(bǔ)充材料中給出)。通過(guò)批量標(biāo)準(zhǔn)化,我們能夠有效地學(xué)習(xí)具有不同類型單元的許多不同任務(wù),而無(wú)需人工確保單元在設(shè)定范圍內(nèi)。
在連續(xù)行動(dòng)空間中學(xué)習(xí)的主要挑戰(zhàn)是探索。DDPG等離線訓(xùn)練策略算法的一個(gè)優(yōu)點(diǎn)是我們可以獨(dú)立于學(xué)習(xí)算法來(lái)處理探索問題。我們通過(guò)將從噪聲過(guò)程N(yùn)采樣的噪聲添加到我們的行為者策略中來(lái)構(gòu)建勘探策略μ’。

可以選擇N以適應(yīng)環(huán)境。正如補(bǔ)充材料中詳述的那樣,我們使用Ornstein-Uhlenbeck過(guò)程(Uhlenbeck&Ornstein,1930)來(lái)產(chǎn)生時(shí)間上相關(guān)的探索,以探索具有慣性的物理控制問題的探索效率(在(Wawrzynski,2015)中引入了類似的自相關(guān)噪聲的使用)。
四、 實(shí)驗(yàn)結(jié)果
我們構(gòu)建了不同難度級(jí)別的模擬物理環(huán)境來(lái)測(cè)試我們的算法。這包括經(jīng)典的強(qiáng)化學(xué)習(xí)環(huán)境,如cartpole,以及困難的高維任務(wù),如抓手,涉及接觸的任務(wù),如冰球打擊(加拿大)和運(yùn)動(dòng)任務(wù)比如獵豹(Wawrzynski,2009)。在除獵豹之外的所有領(lǐng)域中,動(dòng)作都是應(yīng)用于驅(qū)動(dòng)關(guān)節(jié)的扭矩。使用MuJoCo模擬這些環(huán)境(Todorov等,2012)。圖1顯示了任務(wù)中使用的一些環(huán)境的渲染圖(補(bǔ)充包含環(huán)境的詳細(xì)信息,您可以在https://goo.gl/J4PIAz上查看一些學(xué)習(xí)的策略)。

圖1:我們嘗試使用DDPG解決的環(huán)境示例的屏幕截圖示例。按順序從左側(cè)開始:推車上升任務(wù),到達(dá)任務(wù),喘氣和移動(dòng)任務(wù),冰球擊打任務(wù),單聲道平衡任務(wù),兩個(gè)運(yùn)動(dòng)任務(wù)和Torcs(駕駛模擬器)。我們使用低維特征向量和高維像素輸入來(lái)處理所有任務(wù)。補(bǔ)充中提供了對(duì)環(huán)境的詳細(xì)描述。有關(guān)部分學(xué)習(xí)策略的視頻,請(qǐng)?jiān)L問https://goo.gl/J4PIAz。
在所有任務(wù)中,我們使用低維狀態(tài)描述(例如關(guān)節(jié)角度和位置)和環(huán)境的高維更新進(jìn)行實(shí)驗(yàn)。如在DQN(Mnih等人,2013; 2015)中,為了使問題在高維環(huán)境中幾乎完全可觀察,我們使用了動(dòng)作重復(fù)。對(duì)于智能體的每個(gè)時(shí)間步,我們將模擬步進(jìn)3個(gè)步驟,重復(fù)智能體的操作并每次更新。因此,向智能體報(bào)告的觀察包含9個(gè)特征圖(3次更新中的每一個(gè)的RGB),其允許智能體使用幀之間的差異來(lái)推斷速度。幀被下采樣到64x64像素,并且8位RGB值被轉(zhuǎn)換為縮放到[0,1]的浮點(diǎn)數(shù)。有關(guān)我們的網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù)的詳細(xì)信息,請(qǐng)參閱補(bǔ)充信息。
我們通過(guò)在沒有探索噪聲的情況下進(jìn)行測(cè)試來(lái)定期評(píng)估策略。圖2顯示了一系列環(huán)境的性能曲線。我們還報(bào)告了刪除了我們的算法組件(即目標(biāo)網(wǎng)絡(luò)或批量標(biāo)準(zhǔn)化)的結(jié)果。為了在所有任務(wù)中表現(xiàn)良好,這些添加都是必要的。特別是沒有目標(biāo)網(wǎng)絡(luò)的學(xué)習(xí),如在DPG的原始網(wǎng)絡(luò)中,在許多環(huán)境中效果非常差。
圖2:使用DPG變體選擇域的性能曲線:具有批量標(biāo)準(zhǔn)化(淺灰色)的原始DPG算法(minibatch NFQCA),具有目標(biāo)網(wǎng)絡(luò)(深灰色),具有目標(biāo)網(wǎng)絡(luò)和批量標(biāo)準(zhǔn)化(綠色),具有目標(biāo)來(lái)自僅像素輸入的網(wǎng)絡(luò)(藍(lán)色)。目標(biāo)網(wǎng)絡(luò)至關(guān)重要。
令人驚訝的是,在一些更簡(jiǎn)單的任務(wù)中,來(lái)自像素的學(xué)習(xí)策略與使用低維狀態(tài)描述符學(xué)習(xí)一樣快。這可能是由于動(dòng)作重復(fù)使問題變得更簡(jiǎn)單。也可能是卷積層提供了易于分離的狀態(tài)空間表示,這對(duì)于較多層快速學(xué)習(xí)是很容易的。
表1總結(jié)了DDPG在所有環(huán)境中的性能(平均超過(guò)5次試驗(yàn))。我們使用兩個(gè)基線對(duì)分?jǐn)?shù)進(jìn)行標(biāo)準(zhǔn)化。第一個(gè)基線是來(lái)自簡(jiǎn)單策略的平均回報(bào),該策略從有效行動(dòng)空間的均勻分布中采樣行動(dòng)。第二個(gè)基線是iLQG(Todorov&Li,2005),一個(gè)基于計(jì)劃的求解器,可以完全訪問基礎(chǔ)物理模型和它的衍生物。我們對(duì)分?jǐn)?shù)進(jìn)行標(biāo)準(zhǔn)化,使得簡(jiǎn)單策略的平均分為0,iLQG的平均分為1。DDPG能夠?qū)W習(xí)許多任務(wù)的良好策略,并且在許多情況下,一些試驗(yàn)學(xué)習(xí)的策略優(yōu)于那些由iLQG發(fā)現(xiàn)的,即使直接從像素學(xué)習(xí)。
表1:在所有環(huán)境中訓(xùn)練后的性能,最多250萬(wàn)步。我們報(bào)告平均值和最佳觀察值(5次運(yùn)行)。除了Torcs之外的所有分?jǐn)?shù)被歸一化,以便隨機(jī)智能體得到分?jǐn)?shù)0,有規(guī)劃算法的智能體得到分?jǐn)?shù)1; 對(duì)于Torcs,我們提供原始獎(jiǎng)勵(lì)分?jǐn)?shù)。

學(xué)習(xí)準(zhǔn)確的價(jià)值估算可能具有挑戰(zhàn)性。例如,Q-learning傾向于高估值(Hasselt,2010)。我們通過(guò)將訓(xùn)練后Q估計(jì)的值與測(cè)試集中看到的真實(shí)回報(bào)進(jìn)行比較,從經(jīng)驗(yàn)上檢驗(yàn)了DDPG的估計(jì)值。圖3顯示,在簡(jiǎn)單任務(wù)中,DDPG估計(jì)準(zhǔn)確地返回而沒有系統(tǒng)偏差。對(duì)于更難的任務(wù),Q估計(jì)更糟糕,但DDPG仍然能夠?qū)W習(xí)良好的策略。

圖3:密度圖顯示了估計(jì)的Q值與從5個(gè)重復(fù)試驗(yàn)上的測(cè)試事件中采樣的觀察到的回報(bào)。在諸如擺錘和推車的簡(jiǎn)單域中,Q值非常準(zhǔn)確。在更復(fù)雜的任務(wù)中,Q估計(jì)值不太準(zhǔn)確,但仍可用于學(xué)習(xí)合格的策略。虛線表示單位,單位是任意的。
為了展示我們的方法的一般性,我們還包括Torcs,一種賽車游戲,其中的動(dòng)作是加速,制動(dòng)和轉(zhuǎn)向。Torcs以前曾被用作其他策略學(xué)習(xí)方法的試驗(yàn)平臺(tái)(Koutn?k等,2014b)。我們使用相同的網(wǎng)絡(luò)架構(gòu)和學(xué)習(xí)算法超參數(shù)來(lái)完成物理任務(wù),但由于涉及的時(shí)間尺度非常不同,因此改變了探測(cè)的噪聲過(guò)程。在低維和像素方面,一些試驗(yàn)?zāi)軌驅(qū)W習(xí)合理的策略,能夠完整跑完賽道,盡管其他試驗(yàn)未能學(xué)習(xí)到合理的策略。

五、 相關(guān)工作
最初的DPG論文使用編碼和線性函數(shù)逼近器評(píng)估了類似游戲問題的算法。它證明了離線訓(xùn)練策略的DPG對(duì)在線-離線訓(xùn)練隨機(jī)執(zhí)行者-評(píng)判者的數(shù)據(jù)效率優(yōu)勢(shì)。它還解決了一個(gè)更具挑戰(zhàn)性的任務(wù),其中一個(gè)是多關(guān)節(jié)臂必須與肢體的任何部分撞擊目標(biāo)的任務(wù)。然而,正如我們?cè)谶@里所做的那樣,該論文沒有展示如何擴(kuò)展大型高維觀測(cè)空間的方法。
最近關(guān)于無(wú)模型策略搜索的工作表明,它可能不像以前認(rèn)為的那樣脆弱。Wawrzynski(2009); Wawrzynski和Tanwani(2013)使用重放緩沖器在執(zhí)行者-評(píng)判者框架中訓(xùn)練隨機(jī)策略。在我們的工作的同時(shí),Balduzzi和Ghifary(2015)將DPG算法擴(kuò)展為一個(gè)“偏離器”網(wǎng)絡(luò),該網(wǎng)絡(luò)明確地學(xué)習(xí)了∂Q/∂a。但是,他們只訓(xùn)練兩個(gè)低維域。Heess等人(2015)引入了SVG(0),它也使用了Q-critic,但學(xué)習(xí)了隨機(jī)策略。DPG可以被認(rèn)為是SVG(0)的確定性極限。我們?cè)诖嗣枋龅挠糜诳s放DPG的技術(shù)也適用于通過(guò)使用重新參數(shù)化技巧的隨機(jī)策略(Heess等人,2015; Schulman等人,2015a)。
另一種方法,信任區(qū)域策略優(yōu)化(TRPO)(Schulman等,2015b),直接構(gòu)建隨機(jī)神經(jīng)網(wǎng)絡(luò)策略,而不將問題分解為最優(yōu)控制和監(jiān)督階段。通過(guò)對(duì)策略參數(shù)進(jìn)行精心選擇的更新,約束更新以防止新策略偏離現(xiàn)有策略,這種方法可以產(chǎn)生近乎單調(diào)的改進(jìn)。這種方法不需要學(xué)習(xí)動(dòng)作值函數(shù),并且(可能因此)似乎顯著降低了數(shù)據(jù)效率。
為了應(yīng)對(duì)行為者–評(píng)論者方法的挑戰(zhàn),最近使用指導(dǎo)性策略搜索(GPS)算法的工作(例如,(Levine等,2015))將問題分解為三個(gè)相對(duì)容易解決的階段:首先,它使用全狀態(tài)觀測(cè),以創(chuàng)建圍繞一個(gè)或多個(gè)標(biāo)稱軌跡的動(dòng)力學(xué)的局部線性近似,然后使用最優(yōu)控制來(lái)找到沿這些軌跡的局部線性最優(yōu)策略; 最后,它使用監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練復(fù)雜的非線性策略(例如深度神經(jīng)網(wǎng)絡(luò))以再現(xiàn)優(yōu)化軌跡的狀態(tài)-動(dòng)作映射。
這種方法有幾個(gè)好處,包括數(shù)據(jù)效率,并已成功應(yīng)用于使用視覺的各種現(xiàn)實(shí)世界的機(jī)器人操作任務(wù)。在這些任務(wù)中,GPS使用與我們類似的卷積策略網(wǎng)絡(luò),但有兩個(gè)明顯的例外:
- 1.它使用空間softmax將視覺特征的維度降低為每個(gè)特征映射的單個(gè)(x,y)坐標(biāo)。
- 2.策略還接收關(guān)于網(wǎng)絡(luò)中第一完全連接層處的機(jī)器人配置的直接低維狀態(tài)信息。
兩者都可能提高算法的效果和數(shù)據(jù)效率,并且可以在DDPG框架內(nèi)輕松利用。
PILCO(Deisenroth和Rasmussen,2011)使用高斯過(guò)程來(lái)學(xué)習(xí)動(dòng)力學(xué)的非參數(shù)概率模型。使用這種學(xué)習(xí)模型,PILCO可計(jì)算分析策略梯度,并在許多控制問題中有著令人印象深刻的數(shù)據(jù)效率。然而,由于高計(jì)算需求,PILCO“對(duì)于高維問題”是不切實(shí)際的(Wahlstrom等,2015)。似乎深度函數(shù)逼近器是將強(qiáng)化學(xué)習(xí)擴(kuò)展到大型高維域的最有前景的方法。
Wahlstrom等(2015)使用深度動(dòng)力學(xué)模型網(wǎng)絡(luò)和模型預(yù)測(cè)控制來(lái)解決從像素輸入的鐘擺擺動(dòng)任務(wù)。他們訓(xùn)練了一個(gè)可微分的前向模型,并將目標(biāo)狀態(tài)編碼到學(xué)習(xí)的潛在空間中。他們使用對(duì)學(xué)習(xí)模型的模型預(yù)測(cè)控制來(lái)找到達(dá)到目標(biāo)的策略。但是,此方法僅適用于具有可向算法演示的目標(biāo)狀態(tài)的域。
最近,已經(jīng)使用進(jìn)化方法從使用壓縮權(quán)重參數(shù)化(Koutn?k等,2014a)或無(wú)監(jiān)督學(xué)習(xí)(Koutn?k等,2014b)的像素學(xué)習(xí)Torcs的競(jìng)爭(zhēng)策略,以減少演化權(quán)重的維數(shù)。目前尚不清楚這些方法對(duì)其他問題的普適性。
六、 結(jié)論
這項(xiàng)工作結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的最新進(jìn)展,產(chǎn)生了一種算法,即使在使用原始像素進(jìn)行觀察時(shí),也可以通過(guò)連續(xù)的動(dòng)作空間穩(wěn)定地解決各種領(lǐng)域的挑戰(zhàn)性問題。與大多數(shù)強(qiáng)化學(xué)習(xí)算法一樣,使用非線性函數(shù)逼近器可以不需要任何收斂保證; 然而,我們的實(shí)驗(yàn)結(jié)果證明了該算法可以穩(wěn)定的學(xué)習(xí),而無(wú)需在環(huán)境之間進(jìn)行任何修改。有趣的是我們所有的實(shí)驗(yàn),都使用了比DQN學(xué)習(xí)在Atari域中找到解決方案所用的經(jīng)驗(yàn)步驟少得多的經(jīng)驗(yàn)。我們所看到的幾乎所有問題都在250萬(wàn)步的經(jīng)驗(yàn)中得到了解決(通常要少得多),比DQN對(duì)較優(yōu)Atari解決方案所需的步數(shù)少20倍。這表明,給定更多的模擬時(shí)間,DDPG可以解決比這里考慮的更困難的問題。
我們的方法仍然存在一些局限性。最值得注意的是,與大多數(shù)無(wú)模型強(qiáng)化方法一樣,DDPG需要大量的回合訓(xùn)練才能找到解決方案。然而,我們認(rèn)為魯棒的無(wú)模型方法可能是解決這些限制的大型系統(tǒng)的重要組成部分(Glascher等,2010)。
論文原文、參考文獻(xiàn)及補(bǔ)充材料地址: http://cn.arxiv.org/pdf/1509.02971v5
主要作者:Timothy P. Lillicrap∗
所屬項(xiàng)目:Google DeepMind
廣告 編輯推薦
最新資訊
-
“汽車爬坡試驗(yàn)方法”將有國(guó)家標(biāo)準(zhǔn)
2026-03-03 12:44
-
十年耐久監(jiān)管時(shí)代:電池系統(tǒng)開發(fā)策略將如何
2026-03-03 12:44
-
聯(lián)合國(guó)法規(guī)R59對(duì)機(jī)動(dòng)車備用消聲系統(tǒng)的工程
2026-03-03 12:08
-
聯(lián)合國(guó)法規(guī)R58對(duì)后下部防護(hù)裝置的工程化約
2026-03-03 12:07
-
聯(lián)合國(guó)法規(guī)R57對(duì)摩托車前照燈配光性能的工
2026-03-03 12:07





廣告


























































