不懼噪音環(huán)境提升樣本效率，華為云等最新成果入選NeurIPS

來(lái)源：百家號(hào)

作者：機(jī)器之心Pro

時(shí)間：2020-12-07

如何提升強(qiáng)化學(xué)習(xí)算法的樣本效率，提升算法對(duì)噪音環(huán)境的魯棒性？華為云EI創(chuàng)新孵化lab和中科院計(jì)算所給出的答案是：Trust the model when it is confident.

人工智能頂級(jí)會(huì)議NeurIPS 2020將于12月6日-12日線上召開(kāi)，今年會(huì)議論文投稿數(shù)量創(chuàng)歷史新高，相比去年增長(zhǎng)了38%，而接收率卻為史上最低，僅為20.1%。華為云最新強(qiáng)化學(xué)習(xí)成果「Trust the Model When It Is Confident:Masked Model-based Actor-Critic」成功入選。

這篇論文首次探索了有模型強(qiáng)化學(xué)習(xí)該「何時(shí)使用模型」，并基于不確定性預(yù)估提出全新算法M2AC（Masked Model-based Actor-Critic），在樣本效率和噪音環(huán)境下的表現(xiàn)均取得巨大突破。在連續(xù)控制任務(wù)中，M2AC僅用model-free方法SAC 1/5的交互樣本就能達(dá)到同等效果。有噪音環(huán)境下，在之前的model-based算法幾乎失效的情況下，M2AC仍表現(xiàn)魯棒，并實(shí)現(xiàn)多達(dá)數(shù)倍的性能提升。

背景介紹

眾所周知，強(qiáng)化學(xué)習(xí)（RL）是一門(mén)專注于「試錯(cuò)」的學(xué)問(wèn)，它憑借與環(huán)境不斷交互來(lái)學(xué)習(xí)如何做出使自身收益最大化的決策?！冈囧e(cuò)」顯然是RL的最大優(yōu)勢(shì)——如果一個(gè)決策任務(wù)只有不斷嘗試才能學(xué)會(huì)，那應(yīng)該讓RL來(lái)試試。但與此同時(shí)，「試錯(cuò)」這一天然屬性也讓許多人對(duì)RL望而卻步：如果試錯(cuò)成本很高，當(dāng)前的RL算法真的能很快學(xué)到好的策略嗎？

為此，更高的樣本效率成為當(dāng)前學(xué)術(shù)界與工業(yè)界對(duì)強(qiáng)化學(xué)習(xí)算法優(yōu)化的核心目標(biāo)，也就是希望RL算法能夠「聰明地試錯(cuò)」，通過(guò)盡量少的環(huán)境交互學(xué)到盡量好的策略。

人們普遍認(rèn)為有模型的強(qiáng)化學(xué)習(xí)(model-based RL,MBRL)比無(wú)模型的強(qiáng)化學(xué)習(xí)(model-free RL)具有更高的樣本效率。MBRL在采集到交互數(shù)據(jù)后，首先使用「環(huán)境模型」(model)來(lái)模擬真實(shí)環(huán)境的動(dòng)態(tài)（學(xué)習(xí)狀態(tài)轉(zhuǎn)移和獎(jiǎng)勵(lì)函數(shù)），這樣智能體就可以通過(guò)與model互動(dòng)來(lái)更新策略(policy)，從而避免過(guò)多的環(huán)境交互。

但在實(shí)際應(yīng)用中，情況恰恰相反。由于model擬合環(huán)境存在誤差，在復(fù)雜和嘈雜的環(huán)境中，現(xiàn)有的MBRL算法可能反而會(huì)導(dǎo)致策略學(xué)得很差。這種現(xiàn)象在以下兩個(gè)常見(jiàn)情形中極為常見(jiàn)。第一種情況，由于誤差會(huì)隨著model與policy的每一步交互而逐漸累積，因此步數(shù)越多，policy越容易學(xué)偏。從圖1左側(cè)可以看出，MBPO算法（由UC Berkeley在2019年提出，是當(dāng)前MBRL的SOTA算法，原文中顯示其在連續(xù)控制任務(wù)中性能遠(yuǎn)超STEVE等MBRL算法和SAC、PPO等model-free方法）在交互步數(shù)大于1步時(shí)，性能迅速降低。第二種情況，即環(huán)境有噪音的情況。當(dāng)環(huán)境有噪音時(shí)，model更難學(xué)準(zhǔn)確，這給MBRL算法帶來(lái)很大挑戰(zhàn)。如圖1右側(cè)所示，MBPO在環(huán)境有噪音情況下表現(xiàn)并不魯棒，在noisy-2環(huán)境中的分?jǐn)?shù)甚至不到確定性環(huán)境中的一半。

圖1.左：不同模型交互步數(shù)下的性能對(duì)比。右：不同環(huán)境噪音程度下的性能對(duì)比。MBPO是UC Berkeley去年提出的SOTA算法，M2AC為該研究新提出的算法。

華為云等提出新方法

基于此，華為云EI創(chuàng)新孵化lab聯(lián)合中科院計(jì)算所提出M2AC(Masked Model-based Actor-Critic)算法，利用不確定性預(yù)估的技術(shù)突破了這一難題。從圖1也可以看出，M2AC在上述兩種場(chǎng)景中均表現(xiàn)魯棒：在多步交互時(shí)，交互步數(shù)越多，算法性能越好；在有噪聲環(huán)境中，即便在噪聲最大的noisy-2中，其性能也超過(guò)了確定性環(huán)境中MBPO的性能。

下面我們來(lái)看一下這一突破是怎么做到的。

作者提出，解決這一問(wèn)題的關(guān)鍵是回答「模型什么時(shí)候值得信任」這一問(wèn)題，如圖2所示。也就是說(shuō)，如果智能體只在模型誤差小的時(shí)候信任model生成的虛擬數(shù)據(jù)來(lái)進(jìn)行策略更新，那么就可以避免因模型誤差過(guò)大導(dǎo)致策略學(xué)偏。

圖2.何時(shí)、如何用到MBRL技術(shù)來(lái)進(jìn)行策略更新，是M2AC希望解決的問(wèn)題。

經(jīng)過(guò)一系列理論分析，作者發(fā)現(xiàn)即使model在擬合環(huán)境時(shí)存在誤差，也可以通過(guò)更改模型使用的方式來(lái)達(dá)到樣本效率的提升。他們從理論上證明，如果model生成數(shù)據(jù)的使用范圍僅限于模型誤差較小的狀態(tài)-動(dòng)作對(duì)，則策略在model rollout與real rollout之間的性能差距可以縮小。

由此啟發(fā)，M2AC算法的核心僅用其論文標(biāo)題中的一句話就可以總結(jié)：「Trust the model when it is confident.」只有在模型對(duì)其預(yù)測(cè)有信心時(shí)，才使用MBRL技術(shù)進(jìn)行策略更新。

圖3.M2AC算法偽代碼。

具體來(lái)說(shuō)，M2AC基于模型的不確定性實(shí)現(xiàn)了一種mask機(jī)制來(lái)決定是否應(yīng)該使用其預(yù)測(cè)，如圖4中model-based生成的數(shù)據(jù)中僅有綠色樣本用于策略更新。理論證明表示，它最大化了真實(shí)價(jià)值函數(shù)的一種model-based的下界。因此，這一新算法傾向于給出穩(wěn)健的策略改進(jìn)，也就能避免由于多步交互或環(huán)境噪音導(dǎo)致算法失效。

圖4.M2AC利用model進(jìn)行數(shù)據(jù)生成的過(guò)程。

實(shí)驗(yàn)效果

在連續(xù)控制MuJoCo基準(zhǔn)實(shí)驗(yàn)中，與model-free算法相比，M2AC僅用SOTA算法SAC 1/5的交互樣本就能達(dá)到同等效果。在4個(gè)MuJoCo基準(zhǔn)環(huán)境中，相比Google提出的STEVE算法分別提升75%、2500%、30%、130%。算法表現(xiàn)非常亮眼。

圖5.MuJoCo基準(zhǔn)實(shí)驗(yàn)結(jié)果。

而在有噪音環(huán)境中，M2AC優(yōu)勢(shì)更為顯著，實(shí)驗(yàn)結(jié)果參見(jiàn)圖6。相比MBPO，M2AC在4種噪音級(jí)別下分別提升38%、360%、230%、340%。這體現(xiàn)出M2AC在各種困難場(chǎng)景中都能夠提供魯棒的策略提升。

圖6.噪音環(huán)境中的實(shí)驗(yàn)結(jié)果。

M2AC算法為強(qiáng)化學(xué)習(xí)的落地打下了一劑定心丸：即便環(huán)境交互成本高或環(huán)境復(fù)雜有噪音，算法依然能夠穩(wěn)健地學(xué)到好的策略。這是現(xiàn)實(shí)世界的智能決策系統(tǒng)必不可少的能力。

立即登錄，閱讀全文

華為云

上一篇：Snapchat將于本月舉行AR創(chuàng)作者活動(dòng)Lens Fest

版權(quán)說(shuō)明：

本文內(nèi)容來(lái)自于百家號(hào)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章