如何提升強(qiáng)化學(xué)習(xí)算法的樣本效率,提升算法對(duì)噪音環(huán)境的魯棒性?華為云EI創(chuàng)新孵化lab和中科院計(jì)算所給出的答案是:Trust the model when it is confident.
人工智能頂級(jí)會(huì)議NeurIPS 2020將于12月6日-12日線上召開,今年會(huì)議論文投稿數(shù)量創(chuàng)歷史新高,相比去年增長了38%,而接收率卻為史上最低,僅為20.1%。華為云最新強(qiáng)化學(xué)習(xí)成果「Trust the Model When It Is Confident:Masked Model-based Actor-Critic」成功入選。
這篇論文首次探索了有模型強(qiáng)化學(xué)習(xí)該「何時(shí)使用模型」,并基于不確定性預(yù)估提出全新算法M2AC(Masked Model-based Actor-Critic),在樣本效率和噪音環(huán)境下的表現(xiàn)均取得巨大突破。在連續(xù)控制任務(wù)中,M2AC僅用model-free方法SAC 1/5的交互樣本就能達(dá)到同等效果。有噪音環(huán)境下,在之前的model-based算法幾乎失效的情況下,M2AC仍表現(xiàn)魯棒,并實(shí)現(xiàn)多達(dá)數(shù)倍的性能提升。
背景介紹
眾所周知,強(qiáng)化學(xué)習(xí)(RL)是一門專注于「試錯(cuò)」的學(xué)問,它憑借與環(huán)境不斷交互來學(xué)習(xí)如何做出使自身收益最大化的決策?!冈囧e(cuò)」顯然是RL的最大優(yōu)勢(shì)——如果一個(gè)決策任務(wù)只有不斷嘗試才能學(xué)會(huì),那應(yīng)該讓RL來試試。但與此同時(shí),「試錯(cuò)」這一天然屬性也讓許多人對(duì)RL望而卻步:如果試錯(cuò)成本很高,當(dāng)前的RL算法真的能很快學(xué)到好的策略嗎?
為此,更高的樣本效率成為當(dāng)前學(xué)術(shù)界與工業(yè)界對(duì)強(qiáng)化學(xué)習(xí)算法優(yōu)化的核心目標(biāo),也就是希望RL算法能夠「聰明地試錯(cuò)」,通過盡量少的環(huán)境交互學(xué)到盡量好的策略。
人們普遍認(rèn)為有模型的強(qiáng)化學(xué)習(xí)(model-based RL,MBRL)比無模型的強(qiáng)化學(xué)習(xí)(model-free RL)具有更高的樣本效率。MBRL在采集到交互數(shù)據(jù)后,首先使用「環(huán)境模型」(model)來模擬真實(shí)環(huán)境的動(dòng)態(tài)(學(xué)習(xí)狀態(tài)轉(zhuǎn)移和獎(jiǎng)勵(lì)函數(shù)),這樣智能體就可以通過與model互動(dòng)來更新策略(policy),從而避免過多的環(huán)境交互。
但在實(shí)際應(yīng)用中,情況恰恰相反。由于model擬合環(huán)境存在誤差,在復(fù)雜和嘈雜的環(huán)境中,現(xiàn)有的MBRL算法可能反而會(huì)導(dǎo)致策略學(xué)得很差。這種現(xiàn)象在以下兩個(gè)常見情形中極為常見。第一種情況,由于誤差會(huì)隨著model與policy的每一步交互而逐漸累積,因此步數(shù)越多,policy越容易學(xué)偏。從圖1左側(cè)可以看出,MBPO算法(由UC Berkeley在2019年提出,是當(dāng)前MBRL的SOTA算法,原文中顯示其在連續(xù)控制任務(wù)中性能遠(yuǎn)超STEVE等MBRL算法和SAC、PPO等model-free方法)在交互步數(shù)大于1步時(shí),性能迅速降低。第二種情況,即環(huán)境有噪音的情況。當(dāng)環(huán)境有噪音時(shí),model更難學(xué)準(zhǔn)確,這給MBRL算法帶來很大挑戰(zhàn)。如圖1右側(cè)所示,MBPO在環(huán)境有噪音情況下表現(xiàn)并不魯棒,在noisy-2環(huán)境中的分?jǐn)?shù)甚至不到確定性環(huán)境中的一半。
圖1.左:不同模型交互步數(shù)下的性能對(duì)比。右:不同環(huán)境噪音程度下的性能對(duì)比。MBPO是UC Berkeley去年提出的SOTA算法,M2AC為該研究新提出的算法。
華為云等提出新方法
基于此,華為云EI創(chuàng)新孵化lab聯(lián)合中科院計(jì)算所提出M2AC(Masked Model-based Actor-Critic)算法,利用不確定性預(yù)估的技術(shù)突破了這一難題。從圖1也可以看出,M2AC在上述兩種場(chǎng)景中均表現(xiàn)魯棒:在多步交互時(shí),交互步數(shù)越多,算法性能越好;在有噪聲環(huán)境中,即便在噪聲最大的noisy-2中,其性能也超過了確定性環(huán)境中MBPO的性能。
下面我們來看一下這一突破是怎么做到的。
作者提出,解決這一問題的關(guān)鍵是回答「模型什么時(shí)候值得信任」這一問題,如圖2所示。也就是說,如果智能體只在模型誤差小的時(shí)候信任model生成的虛擬數(shù)據(jù)來進(jìn)行策略更新,那么就可以避免因模型誤差過大導(dǎo)致策略學(xué)偏。
圖2.何時(shí)、如何用到MBRL技術(shù)來進(jìn)行策略更新,是M2AC希望解決的問題。
經(jīng)過一系列理論分析,作者發(fā)現(xiàn)即使model在擬合環(huán)境時(shí)存在誤差,也可以通過更改模型使用的方式來達(dá)到樣本效率的提升。他們從理論上證明,如果model生成數(shù)據(jù)的使用范圍僅限于模型誤差較小的狀態(tài)-動(dòng)作對(duì),則策略在model rollout與real rollout之間的性能差距可以縮小。
由此啟發(fā),M2AC算法的核心僅用其論文標(biāo)題中的一句話就可以總結(jié):「Trust the model when it is confident.」只有在模型對(duì)其預(yù)測(cè)有信心時(shí),才使用MBRL技術(shù)進(jìn)行策略更新。
圖3.M2AC算法偽代碼。
具體來說,M2AC基于模型的不確定性實(shí)現(xiàn)了一種mask機(jī)制來決定是否應(yīng)該使用其預(yù)測(cè),如圖4中model-based生成的數(shù)據(jù)中僅有綠色樣本用于策略更新。理論證明表示,它最大化了真實(shí)價(jià)值函數(shù)的一種model-based的下界。因此,這一新算法傾向于給出穩(wěn)健的策略改進(jìn),也就能避免由于多步交互或環(huán)境噪音導(dǎo)致算法失效。
圖4.M2AC利用model進(jìn)行數(shù)據(jù)生成的過程。
實(shí)驗(yàn)效果
在連續(xù)控制MuJoCo基準(zhǔn)實(shí)驗(yàn)中,與model-free算法相比,M2AC僅用SOTA算法SAC 1/5的交互樣本就能達(dá)到同等效果。在4個(gè)MuJoCo基準(zhǔn)環(huán)境中,相比Google提出的STEVE算法分別提升75%、2500%、30%、130%。算法表現(xiàn)非常亮眼。
圖5.MuJoCo基準(zhǔn)實(shí)驗(yàn)結(jié)果。
而在有噪音環(huán)境中,M2AC優(yōu)勢(shì)更為顯著,實(shí)驗(yàn)結(jié)果參見圖6。相比MBPO,M2AC在4種噪音級(jí)別下分別提升38%、360%、230%、340%。這體現(xiàn)出M2AC在各種困難場(chǎng)景中都能夠提供魯棒的策略提升。
圖6.噪音環(huán)境中的實(shí)驗(yàn)結(jié)果。
M2AC算法為強(qiáng)化學(xué)習(xí)的落地打下了一劑定心丸:即便環(huán)境交互成本高或環(huán)境復(fù)雜有噪音,算法依然能夠穩(wěn)健地學(xué)到好的策略。這是現(xiàn)實(shí)世界的智能決策系統(tǒng)必不可少的能力。