Google AI 與 DeepMind 聯(lián)合推出可大規(guī)模強(qiáng)化學(xué)習(xí)方法Dreamer
所屬頻道:新聞中心
曾經(jīng),基于模型的強(qiáng)化學(xué)習(xí)(MBRL)提出了SOTA-PLANET,目前Google AI 與 DeepMind 聯(lián)合推出了 Dreamer,這是一種從圖像中學(xué)習(xí)模型并用它來學(xué)習(xí)遠(yuǎn)見性(long-sighted)行為的 RL 智能體。通過模型預(yù)測的反向傳播,Dreamer 能夠利用它學(xué)得的模型高效地展開行為學(xué)習(xí)。通過從原始圖像中學(xué)習(xí)計算緊湊模型狀態(tài),Dreamer 僅使用一塊 GPU 即可以高效地從預(yù)測到的并行序列中學(xué)習(xí)。
Dreamer的基本架構(gòu)
Dreamer和典型的基于模型方法一樣包含三個過程:學(xué)習(xí)世界模型、基于世界模型的預(yù)測學(xué)習(xí)行為、在環(huán)境中執(zhí)行學(xué)習(xí)到的行為來收集新的經(jīng)驗。為了學(xué)習(xí)行為,Dreamer中利用價值網(wǎng)絡(luò)(value network)將規(guī)劃視野外的獎勵納入考量,同時利用行為網(wǎng)絡(luò)(actor network)來高效的計算行為。這三部分可以并行地執(zhí)行,一直重復(fù)運(yùn)行直到達(dá)成目標(biāo):
Dreamer主體的三個過程,世界模型基于過去經(jīng)驗學(xué)習(xí),隨后基于這一模型預(yù)測,主體通過價值網(wǎng)絡(luò)來預(yù)測未來獎勵、行為網(wǎng)絡(luò)來選擇行為。行為網(wǎng)絡(luò)用于與環(huán)境交互。
學(xué)習(xí)世界模型
Dreamer采用了PlaNet的世界模型,通過一系列緊致的模型狀態(tài)來預(yù)測輸出,而這些模型狀態(tài)則通過輸入圖像計算得到,而不是直接利用圖像來進(jìn)行處理。它將自動學(xué)習(xí)得出代表有益于預(yù)測未來輸出概念的模型狀態(tài),例如目標(biāo)類型、位置以及目標(biāo)與周圍環(huán)境的交互等等。給定數(shù)據(jù)集中一個過去的圖像、行為和獎勵序列,Dreamer按照下圖的方式進(jìn)行世界模型的學(xué)習(xí):
Dreamer 從經(jīng)驗中學(xué)習(xí)世界模型,利用過去的圖像(o1–o3)、行為(a1–a2),它將計算出緊致的模型狀態(tài)(綠色圓),并可以基于這些狀態(tài)重建出圖像并預(yù)測出獎勵。
利用PlaNet世界模型的優(yōu)勢在于利用緊致的模型狀態(tài)代替了圖像來進(jìn)行預(yù)測,極大地提高了計算效率。這使得模型可以在單個GPU上預(yù)并行的預(yù)測上千個序列。這種方式同時可以提高模型的泛化性,進(jìn)行精確的長時視頻預(yù)測。為了更好地理解模型的工作原理,下圖展示了將預(yù)測序列模型狀態(tài)解碼回圖像的結(jié)果:
復(fù)雜環(huán)境下的長程預(yù)測結(jié)果,上圖顯示了兩個主體未曾遇到過的序列,給定五張輸入圖像,模型對其進(jìn)行重建并預(yù)測出了后續(xù)到50步的圖像結(jié)果。
高效行為學(xué)習(xí)
先前基于模型的主體選擇行為的方法分為兩種,要么通過多個模型預(yù)測來進(jìn)行規(guī)劃,要么通過將世界模型代替模擬器來復(fù)用無模型方法的技術(shù)。但兩種方法都需要龐大的計算需求,同時也未充分利用學(xué)習(xí)到的世界模型。此外及時強(qiáng)大的世界模型也會受制于精確預(yù)測的長度,很多先前基于模型的主體表現(xiàn)出短視的缺點。Dreamer通過世界模型的預(yù)測進(jìn)行反向傳播學(xué)習(xí)價值網(wǎng)絡(luò)和行為網(wǎng)絡(luò)來克服上述局限。
Dreamer通過預(yù)測的狀態(tài)序列反向傳播獎勵來高效地學(xué)習(xí)行為網(wǎng)絡(luò)用于預(yù)測正確的行為,這在無模型方法中是無法實現(xiàn)的。這將告訴Dreamer其多小的行為變化將會影響未來預(yù)測的獎勵,使得它可以向最大化獎勵的方向上優(yōu)化行為網(wǎng)絡(luò)。為了考慮預(yù)測范圍外的獎勵,價值網(wǎng)絡(luò)將估計每一個模型狀態(tài)未來的獎勵和,獎勵和價值將反向傳播來優(yōu)化行為網(wǎng)絡(luò)去改善行為。
Dreamer通過模型狀態(tài)預(yù)測序列來學(xué)習(xí)長程行為,首先學(xué)習(xí)每個狀態(tài)的長程價值,而后通過反向傳播到行為網(wǎng)絡(luò)來預(yù)測能夠得到高價值和獎勵的行為。
Dreamer與PlaNet有諸多不同,在環(huán)境中的給定狀態(tài)下,PlaNet在不同行為序列的多個預(yù)測中搜索最佳行為,而Dreamer則避開了這種計算消耗巨大的搜索方式,利用規(guī)劃和行為解耦的方式來提高計算效率。一旦在預(yù)測序列上訓(xùn)練好了行為網(wǎng)絡(luò),它將計算與環(huán)境交互的行為而無需額外的搜索。此外Dreamer利用價值函數(shù)考慮到了規(guī)劃以外的獎勵并通過反向傳播提高了規(guī)劃的效率。
控制任務(wù)上的表現(xiàn)
為了測試Dreamer的性能,研究人員在20個不同的任務(wù)上對其進(jìn)行了測評,包括平衡、控制、運(yùn)動等多種復(fù)雜的強(qiáng)化學(xué)習(xí)任務(wù)。
多種復(fù)雜的任務(wù),其輸入為圖像。包括了碰撞、稀疏獎勵、混沌動力學(xué)和高自由度甚至三維視角等復(fù)雜情況。
研究人員將Dreamer與多個先進(jìn)的模型進(jìn)行了比較,包括先前最先進(jìn)的基于模型的方法PlaNet、無模型方法A3C、結(jié)合多種先進(jìn)手段的無模型方法D4PG。實驗表明,基于模型的主體可以在五百萬幀內(nèi)完成高效學(xué)習(xí),大概對應(yīng)28小時的仿真,而無模型的方法則需要近100萬幀的學(xué)習(xí),大概對應(yīng)23天的仿真訓(xùn)練。在20個任務(wù)的測評基準(zhǔn)上,Dreamer領(lǐng)先于目前最先進(jìn)的無模型方法D4PG(平均分823>786),同時其與環(huán)境的交互大概要少二十倍。此外它最終的結(jié)果在所有任務(wù)上也超過了先前最好的基于模型方法PlaNet,最終的結(jié)果如下圖所示:
Dreamer的性能與其他方法的比較,其得分、數(shù)據(jù)效率和計算時間都比先前方法要好。
此外研究人員還在連續(xù)任務(wù)上進(jìn)行了實驗,以驗證Dreamer面對復(fù)雜環(huán)境的能力。下面的任務(wù)需要不僅需要長程行為預(yù)測,同時還需要模型具有空間感知能力。實驗表明Dreamer對于這些更具挑戰(zhàn)的任務(wù)依然能夠很好地進(jìn)行處理:
Dreamer成功地在雅達(dá)利游戲和DeepMind環(huán)境中運(yùn)行,這些離散的任務(wù)更具挑戰(zhàn)性。
Dreamer不僅在性能上超越了原有基于模型的方法,同時在計算效率上也大幅提升。研究人員認(rèn)為Dreamer將為強(qiáng)化學(xué)習(xí)提供更為堅實的發(fā)展根基,同時也將促進(jìn)更好地表示學(xué)習(xí)、基于不確定性的方向探索、時域抽象和多任務(wù)學(xué)習(xí)的發(fā)展。
(審核編輯: 智匯小新)