總結(jié) 2022 年十大技術(shù)趨勢(shì),AIGC(AI-Generated Content)一定能穩(wěn)站一席。
一方面,市場(chǎng)融資火爆,AIGC 創(chuàng)業(yè)公司 Jasper. AI、Stability AI 都分別獲得了超 1 億美元的融資,資本都在盯著這個(gè)具有想象空間的賽道。
另一方面,技術(shù)呈現(xiàn)擴(kuò)圈之姿,尤其在繪畫(huà)領(lǐng)域,一幅名為《太空歌劇院》的 AI 畫(huà)作甚至拿到了美國(guó)科羅拉多州博覽會(huì)藝術(shù)比賽的一等獎(jiǎng)。
AI畫(huà)作《太空歌劇院》
但沉下心來(lái)觀察這個(gè)賽道會(huì)發(fā)現(xiàn)這樣的境況:AIGC 離產(chǎn)業(yè)應(yīng)用有點(diǎn)遠(yuǎn)。一些人會(huì)將生成式 AI 出色的表現(xiàn)與元宇宙等熱門(mén)概念聯(lián)系到一起,認(rèn)為 AIGC 即將成為構(gòu)建元宇宙的重要工具,徹底變革人類(lèi)的生活方式,這一愿景為一些背靠生成式 AI 大模型的初創(chuàng)公司帶來(lái)了大筆融資,但距離落地成真還有一段時(shí)間。
生成式 AI 落地真的還有一段時(shí)間嗎?對(duì)于手握精尖技術(shù)去找應(yīng)用、找落地的企業(yè)或許是這樣的,但對(duì)于已經(jīng)在產(chǎn)業(yè)中摸爬滾打了 20 余年的京東來(lái)說(shuō),從 2017 年喊出“技術(shù)!技術(shù)!技術(shù)!”,到用 AI 技術(shù)武裝自身業(yè)務(wù),再到把反復(fù)歷練的產(chǎn)業(yè) AI 能力通過(guò)京東云對(duì)外輸出服務(wù)產(chǎn)業(yè),京東將 AI 能力滲透到了產(chǎn)業(yè)的毛細(xì)血管里,潤(rùn)物細(xì)無(wú)聲般走進(jìn)了百姓的生活,比如,當(dāng)前應(yīng)用最廣泛的就是交互數(shù)字人。
這是京東云推出的言犀虛擬數(shù)字人主播,高性?xún)r(jià)比和不錯(cuò)的交互體驗(yàn),讓 TA 獲得了眾多商家的青睞。在雙十一期間,言犀虛擬數(shù)字人服務(wù)近 200 家付費(fèi)品牌,帶來(lái)數(shù)百萬(wàn) GMV 轉(zhuǎn)化。
從技術(shù)視角來(lái)看,當(dāng)前數(shù)字人是 AIGC 技術(shù)的集大成者,包含了生成圖片、語(yǔ)言、音頻、視頻和 3D 等等。
從產(chǎn)業(yè)視角來(lái)看,在京東內(nèi)部或許沒(méi)有 AIGC 這樣一個(gè) “時(shí)髦” 的稱(chēng)呼,但在日常業(yè)務(wù)中,他們?cè)缇烷_(kāi)始用技術(shù)幫助商家生成商品文案、對(duì)話(huà)文本、外呼語(yǔ)音…… 現(xiàn)在還能生成數(shù)字人幫商家賣(mài)貨,其應(yīng)用范圍貫穿京東的整個(gè)數(shù)智供應(yīng)鏈。同時(shí),他們的各種 AIGC 模型也從這條供應(yīng)鏈上 “學(xué)習(xí)” 新的東西,把更好的技術(shù)、服務(wù)向外輸出,讓我們看到了這套技術(shù)更貼近產(chǎn)業(yè)的一面。
與數(shù)智供應(yīng)鏈深度耦合的 AIGC
AIGC 并不是一個(gè)新概念,其萌芽階段可以追溯到上世紀(jì) 50 年代,90 年代從實(shí)驗(yàn)性向?qū)嵱眯灾饾u轉(zhuǎn)變。從 2014 年起,隨著以生成對(duì)抗網(wǎng)絡(luò)(GAN)為代表的深度學(xué)習(xí)算法的提出和迭代更新,AIGC 迎來(lái)了新時(shí)代,生成內(nèi)容百花齊放,效果逐漸逼真直至人類(lèi)難以分辨。2018 年,AI 生成的畫(huà)作以 43.25 萬(wàn)美元的價(jià)格被成功拍賣(mài),引發(fā)各界關(guān)注。
彼時(shí),在京東 AI 團(tuán)隊(duì)的研究中,AI 作畫(huà)已不是新鮮事,他們的研究涉及多模態(tài)、大模型等方面的基礎(chǔ)研究以及 AI 寫(xiě)詩(shī)、AI 生成文案、AI 畫(huà)圖、AI 寫(xiě)書(shū)法等一些實(shí)用性研究,為之后的 AIGC 產(chǎn)品問(wèn)世打下了基礎(chǔ)。其中一篇典型論文成果 AttnGAN 引用過(guò) 1000 多次,是 AIGC 領(lǐng)域的經(jīng)典工作之一。
AttnGAN 生成結(jié)果示例。
但同時(shí),京東也意識(shí)到,如果真的想用這些 AIGC 技術(shù)變革行業(yè),僅靠研究是不夠的,還需要結(jié)合業(yè)務(wù)實(shí)際來(lái)解決一些工程化難點(diǎn)。于是,從 2019 年開(kāi)始,生成式 AI 如何一頭扎進(jìn)京東的多個(gè)供應(yīng)鏈環(huán)節(jié)成了團(tuán)隊(duì)的第一要?jiǎng)?wù)。
供應(yīng)鏈?zhǔn)且粋€(gè)極端復(fù)雜的、上下貫通的、跟千行百業(yè)都息息相關(guān)的實(shí)體鏈條,小至快消品、3C 電子、服裝,大至汽車(chē)、高鐵、飛機(jī)制造…… 只要有生產(chǎn),有流轉(zhuǎn),有消費(fèi),就有供應(yīng)鏈。作為一家以供應(yīng)鏈技術(shù)和服務(wù)為底層邏輯、擁有復(fù)雜供應(yīng)鏈場(chǎng)景的新型實(shí)體企業(yè),京東在數(shù)智供應(yīng)鏈中醞釀以 AIGC、語(yǔ)音識(shí)別、語(yǔ)義理解等為代表的產(chǎn)業(yè) AI 能力,然后再通過(guò)與產(chǎn)業(yè)的深度融合,釋放其 “生萬(wàn)物” 的潛力,其價(jià)值無(wú)疑是巨大的。但在此之前,他們必須先解決這些 AIGC 模型在供應(yīng)鏈各環(huán)節(jié)的應(yīng)用效果和效率的問(wèn)題。
比如,語(yǔ)音生成的難點(diǎn)在于如何讓生成的語(yǔ)音更像真人,傳統(tǒng)的 TTS(語(yǔ)音合成)技術(shù)往往會(huì)因?yàn)槿狈Νh(huán)境音和語(yǔ)調(diào)、重音、情緒方面的變化而讓人感覺(jué)不真實(shí)。
京東語(yǔ)音算法負(fù)責(zé)人張政臣介紹,這種不真實(shí)在一定程度上是由訓(xùn)練數(shù)據(jù)造成的,因?yàn)楫?dāng)前的大部分語(yǔ)音數(shù)據(jù)是在錄音棚里錄的,導(dǎo)致生成結(jié)果偏播音主持場(chǎng)景,用到直播等場(chǎng)景中就不太合適。
因此,京東的語(yǔ)音團(tuán)隊(duì)首先考慮從語(yǔ)料入手來(lái)解決這個(gè)問(wèn)題,這也是京東龐大供應(yīng)鏈的優(yōu)勢(shì)所在:這條數(shù)智化供應(yīng)鏈每天都會(huì)產(chǎn)生大量真實(shí)場(chǎng)景的對(duì)話(huà),既有客服的也有主播的,拿這些語(yǔ)料訓(xùn)練出的語(yǔ)音模型生成結(jié)果明顯要更加自然。此外,他們也用了一些技術(shù)性的方法,比如對(duì)于某些語(yǔ)氣詞、聲音的韻律變化單獨(dú)建模和控制。
當(dāng)然,也有很多客戶(hù)會(huì)提出使用真人錄音的需求,同時(shí)又要往里面加入一些變量,比如把一段外呼錄音中的地點(diǎn)由 “經(jīng)海路” 改成 “科創(chuàng)街” 或其他幾百個(gè)不同的地址。由于錄音成本很高,被改動(dòng)的變量是需要用技術(shù)來(lái)合成的,同時(shí)又要保證合成的聲音和原有的錄音無(wú)縫銜接,聽(tīng)不出差別。
得益于多年來(lái)利用供應(yīng)鏈數(shù)據(jù)訓(xùn)練出的大型基線模型,京東的語(yǔ)音團(tuán)隊(duì)現(xiàn)在已經(jīng)能夠以一種低成本的方式解決這個(gè)問(wèn)題,只需要少量的數(shù)據(jù)(比如錄音師的十幾句話(huà))就能實(shí)現(xiàn)個(gè)性化的 TTS,達(dá)到之前需要很多訓(xùn)練數(shù)據(jù)才能達(dá)到的效果。
文本生成最大的問(wèn)題是“可控性”,即想辦法讓模型生成我們想要的內(nèi)容。
“我們?cè)缙诘哪P涂梢陨珊芰鲿车奈谋荆呛芏鄷r(shí)候我們發(fā)現(xiàn),可控這件事并沒(méi)有得到很好的解決,大家還是沉浸于生成超出想象的、天馬行空的內(nèi)容。但是在真正的產(chǎn)業(yè)應(yīng)用中,(模型)必須可解釋、可控。”京東 NLP 算法工程師李浩然回憶說(shuō)。
具體到言犀虛擬數(shù)字人這樣的商品營(yíng)銷(xiāo)文案自動(dòng)生成,“可控”就意味著模型生成的文本必須滿(mǎn)足可讀性(Readability)、忠實(shí)性(Faithfulness)、信息性(Informativeness)等幾個(gè)要求,長(zhǎng)文本(比如直播劇本)還要具備多樣性(Diversity)和篇章連貫性(Coherence)。京東 NLP 團(tuán)隊(duì)提出的基于領(lǐng)域知識(shí)增強(qiáng)的預(yù)訓(xùn)練語(yǔ)言模型 K-PLUG 就是用來(lái)解決這些問(wèn)題的。
在 K-PLUG 誕生之前,一些通用的預(yù)訓(xùn)練語(yǔ)言模型也可以用來(lái)生成商品文案,但在商品賣(mài)點(diǎn)的獨(dú)特性等方面仍有所欠缺,比如下面這段油煙機(jī)的文案:
為了讓模型更精通電商場(chǎng)景,K-PLUG 首先會(huì)定義電商領(lǐng)域的領(lǐng)域知識(shí),包括商品的知識(shí)圖譜、要素知識(shí)、類(lèi)別知識(shí)以及賣(mài)點(diǎn)知識(shí),然后針對(duì)這些不同的知識(shí)去設(shè)計(jì)不同的下游任務(wù)。有了這些知識(shí),模型就學(xué)會(huì)了如何去 “閱讀” 商家給的商品說(shuō)明材料以及去哪兒找規(guī)格、賣(mài)點(diǎn)等信息,然后通過(guò) “Only Copy” 的機(jī)制將一些關(guān)鍵信息復(fù)制到生成文本中。
更重要的是,這里用到的電商知識(shí)是京東供應(yīng)鏈已經(jīng)積累了很多年的,覆蓋超過(guò) 1000 萬(wàn)種自營(yíng)商品。有了這些知識(shí)做基礎(chǔ),K-PLUG 僅用 1 億參數(shù)量(約為 Google T5 的三分之一)就超過(guò)了 Google T5 的商品文案生成效果,而且因?yàn)轶w積小,更容易在業(yè)務(wù)中部署,實(shí)用性非常強(qiáng)。
據(jù)統(tǒng)計(jì),基于 K-PLUG 的商品文案生成模型已經(jīng)覆蓋了京東的 3000 多個(gè)三級(jí)品類(lèi),累計(jì)生成文案 30 億字,應(yīng)用于京東發(fā)現(xiàn)好貨頻道、搭配購(gòu)、AI 直播帶貨等,累計(jì)帶來(lái)超過(guò) 3 億元 GMV。
目前,京東的 NLP 團(tuán)隊(duì)還在進(jìn)一步優(yōu)化 K-PLUG 的長(zhǎng)文本生成效果,以適應(yīng)直播劇本撰寫(xiě)等長(zhǎng)文本場(chǎng)景。據(jù)悉,他們將嘗試?yán)镁〇|平臺(tái)上現(xiàn)有的大量長(zhǎng)文本以及領(lǐng)域知識(shí)來(lái)訓(xùn)練更大的模型,使其生成的文本句與句之間更加有邏輯。
當(dāng)然,未來(lái)的這個(gè)模型也不會(huì)很大(參數(shù)量約為 10 億),因?yàn)樵谑褂脮r(shí),大模型帶來(lái)的價(jià)值和成本有一個(gè)平衡點(diǎn),在關(guān)注如何訓(xùn)練超大規(guī)模參數(shù)模型、提高模型通用性的同時(shí),京東更關(guān)注大模型在供應(yīng)鏈各環(huán)節(jié)的應(yīng)用效果。
“我們(在做業(yè)務(wù)的時(shí)候)并沒(méi)有追求千億級(jí)、萬(wàn)億級(jí)的生成式大模型,因?yàn)樗鼈冊(cè)趯?shí)際應(yīng)用的時(shí)候會(huì)有多方面的問(wèn)題,比如對(duì)服務(wù)器要求很高,這樣的模型在很多場(chǎng)景下可能都用不起來(lái),所以我們會(huì)從效率的角度去做模型的設(shè)計(jì)。在有些場(chǎng)景下,即使是 10 億參數(shù)的模型,我們也會(huì)通過(guò)蒸餾、量化的方式讓它進(jìn)一步提升效率,減少對(duì)服務(wù)器配置的要求。很多時(shí)候,我們的推理(理解或生成)模型既支持 GPU 的部署環(huán)境,也支持 CPU 的部署環(huán)境。”京東集團(tuán)高級(jí)算法總監(jiān)吳友政解釋說(shuō)。
“融”生萬(wàn)物,向“實(shí)”而升
經(jīng)過(guò)幾年的發(fā)展,當(dāng)前的 AIGC 算法已經(jīng)具備了真實(shí)復(fù)刻和創(chuàng)造某類(lèi)既定內(nèi)容的能力,同時(shí)相關(guān)模型對(duì)簡(jiǎn)單場(chǎng)景的內(nèi)容生成也取得了比較好的成果。但面對(duì)產(chǎn)業(yè)供應(yīng)鏈中多樣性變化和復(fù)雜場(chǎng)景內(nèi)容生成的挑戰(zhàn),現(xiàn)有 AIGC 的算法能力仍需進(jìn)一步提升。
舉例來(lái)說(shuō),當(dāng)前的算法已經(jīng)可以應(yīng)對(duì)高清人臉和數(shù)字人頭像的生成,但在動(dòng)畫(huà)視頻內(nèi)容的生成上仍然稍顯乏力,因?yàn)楹笳叩膭?dòng)態(tài)復(fù)雜性和可能性的復(fù)雜程度以幾何倍數(shù)增長(zhǎng)。
“這意味著我們現(xiàn)在的算法其實(shí)已經(jīng)不再是單點(diǎn)迭代,而是多種算法互相之間聯(lián)合優(yōu)化,變成一種系統(tǒng)級(jí)的優(yōu)化。”京東集團(tuán)副總裁、智能產(chǎn)品與服務(wù)部總裁何曉冬坦言。
他回憶道,以前做 AI 算法的時(shí)候會(huì)局限于怎么做一個(gè)單點(diǎn),比如語(yǔ)音識(shí)別、圖像識(shí)別,包括把這個(gè)單點(diǎn)的能力上云,讓別人調(diào)用。但從供應(yīng)鏈的角度來(lái)看,很多技術(shù)要在鏈條里面產(chǎn)生價(jià)值,就必然是融合性的。
這種 “融合” 不僅是不同模態(tài)的技術(shù)(語(yǔ)音、文本、圖像等)之間的融合,也包括技術(shù)與各行各業(yè)的特異性場(chǎng)景的深度融合。
當(dāng)然,融合的前提是前期有比較全面的積累,而這正是京東云做 AIGC 的優(yōu)勢(shì)所在:京東自身的供應(yīng)鏈環(huán)節(jié)就足夠多,足夠復(fù)雜,每天都會(huì)提出很多新的挑戰(zhàn),這幫助他們擺脫了單點(diǎn)技術(shù)思維,更多地從產(chǎn)業(yè)需求的角度去看這些技術(shù),對(duì)每個(gè)方向都做更全面的思考和更深刻的理解。
這種融合性的做事方法已經(jīng)幫助京東云在 “生萬(wàn)物” 的道路上邁出了很大的一步,除了常規(guī)的對(duì)話(huà)生成、文本生成、語(yǔ)音生成等應(yīng)用外,京東云還會(huì)用融合性的 AIGC 去做數(shù)字人生成和數(shù)字孿生。
由實(shí)而生,向?qū)嵍>〇|是實(shí)體經(jīng)濟(jì)高質(zhì)量發(fā)展的見(jiàn)證者,更是深度的參與者。目前,他們正通過(guò)京東云向千行百業(yè)釋放自己的 AIGC 能力,這些能力降低了內(nèi)容制作分發(fā)門(mén)檻,讓更多的中小企業(yè)可以參與到數(shù)字經(jīng)濟(jì)中來(lái),進(jìn)而實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,這是實(shí)現(xiàn)產(chǎn)業(yè)升級(jí)的關(guān)鍵一步。
以實(shí)助實(shí)、增強(qiáng)實(shí)體經(jīng)濟(jì)活力的效果,這既是 AIGC 的機(jī)會(huì)所在,也是京東云做 AIGC 的使命所在。