不懼噪音環(huán)境提升樣本效率,華為云等最新成果入選NeurIPS

來源: 百家號
作者:機器之心Pro
時間:2020-12-07
17361
如何提升強化學(xué)習(xí)算法的樣本效率,提升算法對噪音環(huán)境的魯棒性?華為云EI創(chuàng)新孵化lab和中科院計算所給出的答案是:Trust the model when it is confident.

如何提升強化學(xué)習(xí)算法的樣本效率,提升算法對噪音環(huán)境的魯棒性?華為云EI創(chuàng)新孵化lab和中科院計算所給出的答案是:Trust the model when it is confident.

人工智能頂級會議NeurIPS 2020將于12月6日-12日線上召開,今年會議論文投稿數(shù)量創(chuàng)歷史新高,相比去年增長了38%,而接收率卻為史上最低,僅為20.1%。華為云最新強化學(xué)習(xí)成果「Trust the Model When It Is Confident:Masked Model-based Actor-Critic」成功入選。

2fdda3cc7cd98d10e8cf5ccb5d2208097aec90d2.jpeg

這篇論文首次探索了有模型強化學(xué)習(xí)該「何時使用模型」,并基于不確定性預(yù)估提出全新算法M2AC(Masked Model-based Actor-Critic),在樣本效率和噪音環(huán)境下的表現(xiàn)均取得巨大突破。在連續(xù)控制任務(wù)中,M2AC僅用model-free方法SAC 1/5的交互樣本就能達到同等效果。有噪音環(huán)境下,在之前的model-based算法幾乎失效的情況下,M2AC仍表現(xiàn)魯棒,并實現(xiàn)多達數(shù)倍的性能提升。

背景介紹

眾所周知,強化學(xué)習(xí)(RL)是一門專注于「試錯」的學(xué)問,它憑借與環(huán)境不斷交互來學(xué)習(xí)如何做出使自身收益最大化的決策?!冈囧e」顯然是RL的最大優(yōu)勢——如果一個決策任務(wù)只有不斷嘗試才能學(xué)會,那應(yīng)該讓RL來試試。但與此同時,「試錯」這一天然屬性也讓許多人對RL望而卻步:如果試錯成本很高,當(dāng)前的RL算法真的能很快學(xué)到好的策略嗎?

為此,更高的樣本效率成為當(dāng)前學(xué)術(shù)界與工業(yè)界對強化學(xué)習(xí)算法優(yōu)化的核心目標(biāo),也就是希望RL算法能夠「聰明地試錯」,通過盡量少的環(huán)境交互學(xué)到盡量好的策略。

人們普遍認為有模型的強化學(xué)習(xí)(model-based RL,MBRL)比無模型的強化學(xué)習(xí)(model-free RL)具有更高的樣本效率。MBRL在采集到交互數(shù)據(jù)后,首先使用「環(huán)境模型」(model)來模擬真實環(huán)境的動態(tài)(學(xué)習(xí)狀態(tài)轉(zhuǎn)移和獎勵函數(shù)),這樣智能體就可以通過與model互動來更新策略(policy),從而避免過多的環(huán)境交互。

但在實際應(yīng)用中,情況恰恰相反。由于model擬合環(huán)境存在誤差,在復(fù)雜和嘈雜的環(huán)境中,現(xiàn)有的MBRL算法可能反而會導(dǎo)致策略學(xué)得很差。這種現(xiàn)象在以下兩個常見情形中極為常見。第一種情況,由于誤差會隨著model與policy的每一步交互而逐漸累積,因此步數(shù)越多,policy越容易學(xué)偏。從圖1左側(cè)可以看出,MBPO算法(由UC Berkeley在2019年提出,是當(dāng)前MBRL的SOTA算法,原文中顯示其在連續(xù)控制任務(wù)中性能遠超STEVE等MBRL算法和SAC、PPO等model-free方法)在交互步數(shù)大于1步時,性能迅速降低。第二種情況,即環(huán)境有噪音的情況。當(dāng)環(huán)境有噪音時,model更難學(xué)準(zhǔn)確,這給MBRL算法帶來很大挑戰(zhàn)。如圖1右側(cè)所示,MBPO在環(huán)境有噪音情況下表現(xiàn)并不魯棒,在noisy-2環(huán)境中的分?jǐn)?shù)甚至不到確定性環(huán)境中的一半。

50da81cb39dbb6fde90a23b974391b1f962b3785.jpeg

圖1.左:不同模型交互步數(shù)下的性能對比。右:不同環(huán)境噪音程度下的性能對比。MBPO是UC Berkeley去年提出的SOTA算法,M2AC為該研究新提出的算法。

華為云等提出新方法

基于此,華為云EI創(chuàng)新孵化lab聯(lián)合中科院計算所提出M2AC(Masked Model-based Actor-Critic)算法,利用不確定性預(yù)估的技術(shù)突破了這一難題。從圖1也可以看出,M2AC在上述兩種場景中均表現(xiàn)魯棒:在多步交互時,交互步數(shù)越多,算法性能越好;在有噪聲環(huán)境中,即便在噪聲最大的noisy-2中,其性能也超過了確定性環(huán)境中MBPO的性能。

下面我們來看一下這一突破是怎么做到的。

作者提出,解決這一問題的關(guān)鍵是回答「模型什么時候值得信任」這一問題,如圖2所示。也就是說,如果智能體只在模型誤差小的時候信任model生成的虛擬數(shù)據(jù)來進行策略更新,那么就可以避免因模型誤差過大導(dǎo)致策略學(xué)偏。

58ee3d6d55fbb2fbcb8be997355790a34723dcbc.jpeg

圖2.何時、如何用到MBRL技術(shù)來進行策略更新,是M2AC希望解決的問題。

經(jīng)過一系列理論分析,作者發(fā)現(xiàn)即使model在擬合環(huán)境時存在誤差,也可以通過更改模型使用的方式來達到樣本效率的提升。他們從理論上證明,如果model生成數(shù)據(jù)的使用范圍僅限于模型誤差較小的狀態(tài)-動作對,則策略在model rollout與real rollout之間的性能差距可以縮小。

由此啟發(fā),M2AC算法的核心僅用其論文標(biāo)題中的一句話就可以總結(jié):「Trust the model when it is confident.」只有在模型對其預(yù)測有信心時,才使用MBRL技術(shù)進行策略更新。

730e0cf3d7ca7bcb20ea1cc6c414db64f724a86f.jpeg

圖3.M2AC算法偽代碼。

具體來說,M2AC基于模型的不確定性實現(xiàn)了一種mask機制來決定是否應(yīng)該使用其預(yù)測,如圖4中model-based生成的數(shù)據(jù)中僅有綠色樣本用于策略更新。理論證明表示,它最大化了真實價值函數(shù)的一種model-based的下界。因此,這一新算法傾向于給出穩(wěn)健的策略改進,也就能避免由于多步交互或環(huán)境噪音導(dǎo)致算法失效。

dbb44aed2e738bd42fc0cd18da9637d1267ff9df.jpeg

圖4.M2AC利用model進行數(shù)據(jù)生成的過程。

實驗效果

在連續(xù)控制MuJoCo基準(zhǔn)實驗中,與model-free算法相比,M2AC僅用SOTA算法SAC 1/5的交互樣本就能達到同等效果。在4個MuJoCo基準(zhǔn)環(huán)境中,相比Google提出的STEVE算法分別提升75%、2500%、30%、130%。算法表現(xiàn)非常亮眼。

cefc1e178a82b90132e3ab3c0d9019703912ef1c.jpeg

圖5.MuJoCo基準(zhǔn)實驗結(jié)果。

而在有噪音環(huán)境中,M2AC優(yōu)勢更為顯著,實驗結(jié)果參見圖6。相比MBPO,M2AC在4種噪音級別下分別提升38%、360%、230%、340%。這體現(xiàn)出M2AC在各種困難場景中都能夠提供魯棒的策略提升。

562c11dfa9ec8a13d1bb2c0a8d1e2188a1ecc058.jpeg

圖6.噪音環(huán)境中的實驗結(jié)果。

M2AC算法為強化學(xué)習(xí)的落地打下了一劑定心丸:即便環(huán)境交互成本高或環(huán)境復(fù)雜有噪音,算法依然能夠穩(wěn)健地學(xué)到好的策略。這是現(xiàn)實世界的智能決策系統(tǒng)必不可少的能力。

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于百家號,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
近6成金融機構(gòu)的選擇!華為云GaussDB加快金融核心系統(tǒng)轉(zhuǎn)型
近6成金融機構(gòu)的選擇!華為云GaussDB加快金融核心系統(tǒng)轉(zhuǎn)型
當(dāng)前,數(shù)據(jù)庫在金融機構(gòu)的應(yīng)用正在從辦公、一般系統(tǒng)逐步邁入核心系統(tǒng)應(yīng)用的深水區(qū)。如何構(gòu)建安全可靠、高效穩(wěn)定的核心系統(tǒng)數(shù)據(jù)庫,支持業(yè)務(wù)運營和管理決策,成為了眾多金融機構(gòu)關(guān)注的焦點問題。
華為云
2024-07-042024-07-04
華為云以系統(tǒng)性創(chuàng)新加速千行萬業(yè)智能化升級
華為云以系統(tǒng)性創(chuàng)新加速千行萬業(yè)智能化升級
華為云全球銷售收入達553億元人民幣,是全球增長最快的主流云廠商之一。
華為云
2024-04-222024-04-22
華為云發(fā)布新型工業(yè)互聯(lián)網(wǎng)平臺參考架構(gòu)
華為云發(fā)布新型工業(yè)互聯(lián)網(wǎng)平臺參考架構(gòu)
近日,在華為分析師大會上,華為混合云副總裁胡玉海重磅發(fā)布《新型工業(yè)互聯(lián)網(wǎng)平臺參考架構(gòu)》白皮書,在傳統(tǒng)工業(yè)互聯(lián)網(wǎng)的基礎(chǔ)上,融入大模型的能力,讓智能化賦能新型工業(yè)化。
華為云
云服務(wù)
2024-04-222024-04-22
支撐核心系統(tǒng)分布式改造,GaussDB為江南農(nóng)商銀行筑穩(wěn)根基
支撐核心系統(tǒng)分布式改造,GaussDB為江南農(nóng)商銀行筑穩(wěn)根基
在移動互聯(lián)網(wǎng)快速普及的當(dāng)下,金融機構(gòu)能否提供便捷、智能、個性化的金融服務(wù),成為關(guān)乎業(yè)務(wù)開展和企業(yè)成長的重要命題。
華為云
2024-01-252024-01-25
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家