Meta首席人工智能科學(xué)家Yann LeCun提出了一種新的人工智能模型架構(gòu),能夠克服當(dāng)今人工智能系統(tǒng)的限制,獲得更好的性能。而現(xiàn)在Meta披露了使用這個(gè)新架構(gòu)所開發(fā)的計(jì)算機(jī)視覺模型I-JEPA(Image Joint Embedding Predictive Architecture),其特色在于能夠關(guān)注真正的圖像重點(diǎn),并以更少的GPU訓(xùn)練時(shí)間獲得更好的模型性能。
I-JEPA在多項(xiàng)計(jì)算機(jī)視覺任務(wù)表現(xiàn),較當(dāng)前廣泛使用的計(jì)算機(jī)模型高上不少,而且計(jì)算效率也更好,I-JEPA模型所學(xué)習(xí)的資料表示(Representation),也可以在不需要大量微調(diào)的情況下,用在許多不同的應(yīng)用程序。在機(jī)器學(xué)習(xí)中,表示指得是輸入資料被轉(zhuǎn)化成機(jī)器可以理解和處理的形式,也就是所捕捉到原始資料的特征和模式。
基于I-JEPA架構(gòu),研究人員使用16個(gè)A100 GPU,以72小時(shí)訓(xùn)練了一個(gè)6.32億參數(shù)的視覺Transformer模型,在ImageNet資料集中的少樣本分類任務(wù)性能表現(xiàn),超越當(dāng)前所有模型。研究人員提到,其他方法通常需要2到10倍的GPU訓(xùn)練時(shí)間,而且在使用相同資料訓(xùn)練時(shí),錯(cuò)誤率通常會高得多。
而I-JEPA高性能的秘密,就在其能夠以更像人類理解抽象表示的方式,來預(yù)測缺失的資訊。一般生成式模型的預(yù)測發(fā)生在像素空間,而I-JEPA則是使用抽象的預(yù)測目標(biāo),而這也潛當(dāng)?shù)叵讼袼乜臻g中不必要的細(xì)節(jié),進(jìn)而使模型學(xué)習(xí)更多語義特征。
另一個(gè)I-JEPA重要設(shè)計(jì),是使用一種稱為多區(qū)塊屏蔽策略(Multi-Block Masking Strategy)。I-JEPA在處理圖像復(fù)雜輸入時(shí),不只是關(guān)注一小部分,而是放眼更大的范圍,以便理解和學(xué)習(xí)更多的語義資訊,也就是說,多區(qū)塊屏蔽策略的重要性,在于預(yù)測包含語義資訊的大塊區(qū)域,而且這些區(qū)域的范圍要足夠大,才能有足夠豐富的上下文來進(jìn)行預(yù)測。
I-JEPA以高層次預(yù)測表示而非直接預(yù)測像素值,能夠?qū)W習(xí)有用的表示,避開生成式方法的局限。研究人員指出,生成式方法通過刪除和扭曲模型輸入的部分內(nèi)容來進(jìn)行學(xué)習(xí),像是抹除照片的一部分,或是隱藏文本段落中的某些單詞,接著要求模型嘗試預(yù)測丟失的像素和單詞,來完成訓(xùn)練目的。
但這也造成生成式方法一個(gè)明顯的缺點(diǎn),生成式模型會嘗試填補(bǔ)每一個(gè)缺失的資訊,即便是現(xiàn)實(shí)世界的本質(zhì)并不可預(yù)測。由于生成式方法過于關(guān)注不重要的細(xì)節(jié),導(dǎo)致容易出現(xiàn)人類永遠(yuǎn)不可能犯的錯(cuò)誤,例如在生成人手的時(shí)候,可能出現(xiàn)不同數(shù)量的手指,或是其他明顯的錯(cuò)誤。
I-JEPA預(yù)訓(xùn)練非常高效,而且不需要使用復(fù)雜的資料增強(qiáng)方法,經(jīng)過實(shí)驗(yàn)證實(shí),I-JEPA能夠?qū)W習(xí)出強(qiáng)大的語義表示,在ImageNet-1K的線性探索和半監(jiān)督評估上,超越了像素和權(quán)限重建(Token-Reconstruction)方法,且與依賴人工資料增強(qiáng)的方法相比,I-JEPA在低端的視覺任務(wù),像是物體計(jì)數(shù)和深度預(yù)測上表現(xiàn)得更好。I-JEPA架構(gòu)的模型更簡單,也更能夠適應(yīng)廣泛的任務(wù)。