不懼噪音環(huán)境提升樣本效率,華為云等最新成果入選NeurIPS

來源: 百家號(hào)
作者:機(jī)器之心Pro
時(shí)間:2020-12-07
17343
如何提升強(qiáng)化學(xué)習(xí)算法的樣本效率,提升算法對(duì)噪音環(huán)境的魯棒性?華為云EI創(chuàng)新孵化lab和中科院計(jì)算所給出的答案是:Trust the model when it is confident.

如何提升強(qiáng)化學(xué)習(xí)算法的樣本效率,提升算法對(duì)噪音環(huán)境的魯棒性?華為云EI創(chuàng)新孵化lab和中科院計(jì)算所給出的答案是:Trust the model when it is confident.

人工智能頂級(jí)會(huì)議NeurIPS 2020將于12月6日-12日線上召開,今年會(huì)議論文投稿數(shù)量創(chuàng)歷史新高,相比去年增長了38%,而接收率卻為史上最低,僅為20.1%。華為云最新強(qiáng)化學(xué)習(xí)成果「Trust the Model When It Is Confident:Masked Model-based Actor-Critic」成功入選。

2fdda3cc7cd98d10e8cf5ccb5d2208097aec90d2.jpeg

這篇論文首次探索了有模型強(qiáng)化學(xué)習(xí)該「何時(shí)使用模型」,并基于不確定性預(yù)估提出全新算法M2AC(Masked Model-based Actor-Critic),在樣本效率和噪音環(huán)境下的表現(xiàn)均取得巨大突破。在連續(xù)控制任務(wù)中,M2AC僅用model-free方法SAC 1/5的交互樣本就能達(dá)到同等效果。有噪音環(huán)境下,在之前的model-based算法幾乎失效的情況下,M2AC仍表現(xiàn)魯棒,并實(shí)現(xiàn)多達(dá)數(shù)倍的性能提升。

背景介紹

眾所周知,強(qiáng)化學(xué)習(xí)(RL)是一門專注于「試錯(cuò)」的學(xué)問,它憑借與環(huán)境不斷交互來學(xué)習(xí)如何做出使自身收益最大化的決策?!冈囧e(cuò)」顯然是RL的最大優(yōu)勢(shì)——如果一個(gè)決策任務(wù)只有不斷嘗試才能學(xué)會(huì),那應(yīng)該讓RL來試試。但與此同時(shí),「試錯(cuò)」這一天然屬性也讓許多人對(duì)RL望而卻步:如果試錯(cuò)成本很高,當(dāng)前的RL算法真的能很快學(xué)到好的策略嗎?

為此,更高的樣本效率成為當(dāng)前學(xué)術(shù)界與工業(yè)界對(duì)強(qiáng)化學(xué)習(xí)算法優(yōu)化的核心目標(biāo),也就是希望RL算法能夠「聰明地試錯(cuò)」,通過盡量少的環(huán)境交互學(xué)到盡量好的策略。

人們普遍認(rèn)為有模型的強(qiáng)化學(xué)習(xí)(model-based RL,MBRL)比無模型的強(qiáng)化學(xué)習(xí)(model-free RL)具有更高的樣本效率。MBRL在采集到交互數(shù)據(jù)后,首先使用「環(huán)境模型」(model)來模擬真實(shí)環(huán)境的動(dòng)態(tài)(學(xué)習(xí)狀態(tài)轉(zhuǎn)移和獎(jiǎng)勵(lì)函數(shù)),這樣智能體就可以通過與model互動(dòng)來更新策略(policy),從而避免過多的環(huán)境交互。

但在實(shí)際應(yīng)用中,情況恰恰相反。由于model擬合環(huán)境存在誤差,在復(fù)雜和嘈雜的環(huán)境中,現(xiàn)有的MBRL算法可能反而會(huì)導(dǎo)致策略學(xué)得很差。這種現(xiàn)象在以下兩個(gè)常見情形中極為常見。第一種情況,由于誤差會(huì)隨著model與policy的每一步交互而逐漸累積,因此步數(shù)越多,policy越容易學(xué)偏。從圖1左側(cè)可以看出,MBPO算法(由UC Berkeley在2019年提出,是當(dāng)前MBRL的SOTA算法,原文中顯示其在連續(xù)控制任務(wù)中性能遠(yuǎn)超STEVE等MBRL算法和SAC、PPO等model-free方法)在交互步數(shù)大于1步時(shí),性能迅速降低。第二種情況,即環(huán)境有噪音的情況。當(dāng)環(huán)境有噪音時(shí),model更難學(xué)準(zhǔn)確,這給MBRL算法帶來很大挑戰(zhàn)。如圖1右側(cè)所示,MBPO在環(huán)境有噪音情況下表現(xiàn)并不魯棒,在noisy-2環(huán)境中的分?jǐn)?shù)甚至不到確定性環(huán)境中的一半。

50da81cb39dbb6fde90a23b974391b1f962b3785.jpeg

圖1.左:不同模型交互步數(shù)下的性能對(duì)比。右:不同環(huán)境噪音程度下的性能對(duì)比。MBPO是UC Berkeley去年提出的SOTA算法,M2AC為該研究新提出的算法。

華為云等提出新方法

基于此,華為云EI創(chuàng)新孵化lab聯(lián)合中科院計(jì)算所提出M2AC(Masked Model-based Actor-Critic)算法,利用不確定性預(yù)估的技術(shù)突破了這一難題。從圖1也可以看出,M2AC在上述兩種場(chǎng)景中均表現(xiàn)魯棒:在多步交互時(shí),交互步數(shù)越多,算法性能越好;在有噪聲環(huán)境中,即便在噪聲最大的noisy-2中,其性能也超過了確定性環(huán)境中MBPO的性能。

下面我們來看一下這一突破是怎么做到的。

作者提出,解決這一問題的關(guān)鍵是回答「模型什么時(shí)候值得信任」這一問題,如圖2所示。也就是說,如果智能體只在模型誤差小的時(shí)候信任model生成的虛擬數(shù)據(jù)來進(jìn)行策略更新,那么就可以避免因模型誤差過大導(dǎo)致策略學(xué)偏。

58ee3d6d55fbb2fbcb8be997355790a34723dcbc.jpeg

圖2.何時(shí)、如何用到MBRL技術(shù)來進(jìn)行策略更新,是M2AC希望解決的問題。

經(jīng)過一系列理論分析,作者發(fā)現(xiàn)即使model在擬合環(huán)境時(shí)存在誤差,也可以通過更改模型使用的方式來達(dá)到樣本效率的提升。他們從理論上證明,如果model生成數(shù)據(jù)的使用范圍僅限于模型誤差較小的狀態(tài)-動(dòng)作對(duì),則策略在model rollout與real rollout之間的性能差距可以縮小。

由此啟發(fā),M2AC算法的核心僅用其論文標(biāo)題中的一句話就可以總結(jié):「Trust the model when it is confident.」只有在模型對(duì)其預(yù)測(cè)有信心時(shí),才使用MBRL技術(shù)進(jìn)行策略更新。

730e0cf3d7ca7bcb20ea1cc6c414db64f724a86f.jpeg

圖3.M2AC算法偽代碼。

具體來說,M2AC基于模型的不確定性實(shí)現(xiàn)了一種mask機(jī)制來決定是否應(yīng)該使用其預(yù)測(cè),如圖4中model-based生成的數(shù)據(jù)中僅有綠色樣本用于策略更新。理論證明表示,它最大化了真實(shí)價(jià)值函數(shù)的一種model-based的下界。因此,這一新算法傾向于給出穩(wěn)健的策略改進(jìn),也就能避免由于多步交互或環(huán)境噪音導(dǎo)致算法失效。

dbb44aed2e738bd42fc0cd18da9637d1267ff9df.jpeg

圖4.M2AC利用model進(jìn)行數(shù)據(jù)生成的過程。

實(shí)驗(yàn)效果

在連續(xù)控制MuJoCo基準(zhǔn)實(shí)驗(yàn)中,與model-free算法相比,M2AC僅用SOTA算法SAC 1/5的交互樣本就能達(dá)到同等效果。在4個(gè)MuJoCo基準(zhǔn)環(huán)境中,相比Google提出的STEVE算法分別提升75%、2500%、30%、130%。算法表現(xiàn)非常亮眼。

cefc1e178a82b90132e3ab3c0d9019703912ef1c.jpeg

圖5.MuJoCo基準(zhǔn)實(shí)驗(yàn)結(jié)果。

而在有噪音環(huán)境中,M2AC優(yōu)勢(shì)更為顯著,實(shí)驗(yàn)結(jié)果參見圖6。相比MBPO,M2AC在4種噪音級(jí)別下分別提升38%、360%、230%、340%。這體現(xiàn)出M2AC在各種困難場(chǎng)景中都能夠提供魯棒的策略提升。

562c11dfa9ec8a13d1bb2c0a8d1e2188a1ecc058.jpeg

圖6.噪音環(huán)境中的實(shí)驗(yàn)結(jié)果。

M2AC算法為強(qiáng)化學(xué)習(xí)的落地打下了一劑定心丸:即便環(huán)境交互成本高或環(huán)境復(fù)雜有噪音,算法依然能夠穩(wěn)健地學(xué)到好的策略。這是現(xiàn)實(shí)世界的智能決策系統(tǒng)必不可少的能力。

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于百家號(hào),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
近6成金融機(jī)構(gòu)的選擇!華為云GaussDB加快金融核心系統(tǒng)轉(zhuǎn)型
近6成金融機(jī)構(gòu)的選擇!華為云GaussDB加快金融核心系統(tǒng)轉(zhuǎn)型
當(dāng)前,數(shù)據(jù)庫在金融機(jī)構(gòu)的應(yīng)用正在從辦公、一般系統(tǒng)逐步邁入核心系統(tǒng)應(yīng)用的深水區(qū)。如何構(gòu)建安全可靠、高效穩(wěn)定的核心系統(tǒng)數(shù)據(jù)庫,支持業(yè)務(wù)運(yùn)營和管理決策,成為了眾多金融機(jī)構(gòu)關(guān)注的焦點(diǎn)問題。
華為云
2024-07-042024-07-04
華為云以系統(tǒng)性創(chuàng)新加速千行萬業(yè)智能化升級(jí)
華為云以系統(tǒng)性創(chuàng)新加速千行萬業(yè)智能化升級(jí)
華為云全球銷售收入達(dá)553億元人民幣,是全球增長最快的主流云廠商之一。
華為云
2024-04-222024-04-22
華為云發(fā)布新型工業(yè)互聯(lián)網(wǎng)平臺(tái)參考架構(gòu)
華為云發(fā)布新型工業(yè)互聯(lián)網(wǎng)平臺(tái)參考架構(gòu)
近日,在華為分析師大會(huì)上,華為混合云副總裁胡玉海重磅發(fā)布《新型工業(yè)互聯(lián)網(wǎng)平臺(tái)參考架構(gòu)》白皮書,在傳統(tǒng)工業(yè)互聯(lián)網(wǎng)的基礎(chǔ)上,融入大模型的能力,讓智能化賦能新型工業(yè)化。
華為云
云服務(wù)
2024-04-222024-04-22
支撐核心系統(tǒng)分布式改造,GaussDB為江南農(nóng)商銀行筑穩(wěn)根基
支撐核心系統(tǒng)分布式改造,GaussDB為江南農(nóng)商銀行筑穩(wěn)根基
在移動(dòng)互聯(lián)網(wǎng)快速普及的當(dāng)下,金融機(jī)構(gòu)能否提供便捷、智能、個(gè)性化的金融服務(wù),成為關(guān)乎業(yè)務(wù)開展和企業(yè)成長的重要命題。
華為云
2024-01-252024-01-25
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家