Google推出全新文本生成圖像AI工具“Imagen”,并公開(kāi)一系列由Imagen生成的圖片。
Google旗下深度學(xué)習(xí)與人工智能科研項(xiàng)目團(tuán)隊(duì)Google Brain,近日發(fā)布了一系列由新的文本生成圖像AI工具“Imagen”制出的成果。Imagen通過(guò)解析用戶所輸入的文本而生成寫實(shí)的圖像,更能突破人類的想象力。
在雪地里戴著空手道腰帶的火龍果。 (A dragon fruit wearing karate belt in the snow.)
機(jī)器人在水浸的莫奈美術(shù)展覽中使用槳板。
(An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.)
泰迪熊在奧運(yùn)400米蝶泳項(xiàng)目中游泳。 (Teddy bears swimming at the Olympics 400m Butterfly event.)
圖片來(lái)源:Google
Google通過(guò)DrawBench圖像模型基準(zhǔn)測(cè)試來(lái)評(píng)估Imagen的文本生成圖像能力,較VQ-GAN、LDM及DALL-E 2等同類型工具比,Imagen生成的圖像逼真度更高,語(yǔ)言理解能力也更好,與輸入的文本較為符合,偏好率更高達(dá)50%。與DALL-E 2相比,Imagen能準(zhǔn)確地為圖像配色,而DALL-E 2則容易混淆多個(gè)顏色指令的文本。
圖片來(lái)源:Google
Google表示,由于Imagen在生成圖像過(guò)程的評(píng)估工作尚有不足,導(dǎo)致在生成圖像時(shí)出現(xiàn)一些社會(huì)和文化偏見(jiàn),也傾向西方對(duì)性別的刻板印象,例如膚色及對(duì)職業(yè)的描繪,更出現(xiàn)色情圖像、種族主義攻擊言論等的不當(dāng)內(nèi)容。因此在有關(guān)問(wèn)題修復(fù)前,將不會(huì)對(duì)外開(kāi)放Imagen的程序代碼,更不會(huì)對(duì)外展示。
數(shù)據(jù)源:Deccan Herald