2022穩(wěn)居C位的AIGC,到底有什么用?

來源:機器之心
作者:Synced、張倩
時間:2022-11-16
2261
元宇宙之外,AIGC有其貼近產(chǎn)業(yè)的一面

總結(jié) 2022 年十大技術(shù)趨勢,AIGC(AI-Generated Content)一定能穩(wěn)站一席。

一方面,市場融資火爆,AIGC 創(chuàng)業(yè)公司 Jasper. AI、Stability AI 都分別獲得了超 1 億美元的融資,資本都在盯著這個具有想象空間的賽道。

另一方面,技術(shù)呈現(xiàn)擴圈之姿,尤其在繪畫領(lǐng)域,一幅名為《太空歌劇院》的 AI 畫作甚至拿到了美國科羅拉多州博覽會藝術(shù)比賽的一等獎。

微信圖片_20221116142726.png

AI畫作《太空歌劇院》

但沉下心來觀察這個賽道會發(fā)現(xiàn)這樣的境況:AIGC 離產(chǎn)業(yè)應(yīng)用有點遠(yuǎn)。一些人會將生成式 AI 出色的表現(xiàn)與元宇宙等熱門概念聯(lián)系到一起,認(rèn)為 AIGC 即將成為構(gòu)建元宇宙的重要工具,徹底變革人類的生活方式,這一愿景為一些背靠生成式 AI 大模型的初創(chuàng)公司帶來了大筆融資,但距離落地成真還有一段時間。

生成式 AI 落地真的還有一段時間嗎?對于手握精尖技術(shù)去找應(yīng)用、找落地的企業(yè)或許是這樣的,但對于已經(jīng)在產(chǎn)業(yè)中摸爬滾打了 20 余年的京東來說,從 2017 年喊出“技術(shù)!技術(shù)!技術(shù)!”,到用 AI 技術(shù)武裝自身業(yè)務(wù),再到把反復(fù)歷練的產(chǎn)業(yè) AI 能力通過京東云對外輸出服務(wù)產(chǎn)業(yè),京東將 AI 能力滲透到了產(chǎn)業(yè)的毛細(xì)血管里,潤物細(xì)無聲般走進(jìn)了百姓的生活,比如,當(dāng)前應(yīng)用最廣泛的就是交互數(shù)字人。

這是京東云推出的言犀虛擬數(shù)字人主播,高性價比和不錯的交互體驗,讓 TA 獲得了眾多商家的青睞。在雙十一期間,言犀虛擬數(shù)字人服務(wù)近 200 家付費品牌,帶來數(shù)百萬 GMV 轉(zhuǎn)化。

從技術(shù)視角來看,當(dāng)前數(shù)字人是 AIGC 技術(shù)的集大成者,包含了生成圖片、語言、音頻、視頻和 3D 等等。

從產(chǎn)業(yè)視角來看,在京東內(nèi)部或許沒有 AIGC 這樣一個 “時髦” 的稱呼,但在日常業(yè)務(wù)中,他們早就開始用技術(shù)幫助商家生成商品文案、對話文本、外呼語音…… 現(xiàn)在還能生成數(shù)字人幫商家賣貨,其應(yīng)用范圍貫穿京東的整個數(shù)智供應(yīng)鏈。同時,他們的各種 AIGC 模型也從這條供應(yīng)鏈上 “學(xué)習(xí)” 新的東西,把更好的技術(shù)、服務(wù)向外輸出,讓我們看到了這套技術(shù)更貼近產(chǎn)業(yè)的一面。


與數(shù)智供應(yīng)鏈深度耦合的 AIGC

AIGC 并不是一個新概念,其萌芽階段可以追溯到上世紀(jì) 50 年代,90 年代從實驗性向?qū)嵱眯灾饾u轉(zhuǎn)變。從 2014 年起,隨著以生成對抗網(wǎng)絡(luò)(GAN)為代表的深度學(xué)習(xí)算法的提出和迭代更新,AIGC 迎來了新時代,生成內(nèi)容百花齊放,效果逐漸逼真直至人類難以分辨。2018 年,AI 生成的畫作以 43.25 萬美元的價格被成功拍賣,引發(fā)各界關(guān)注。

彼時,在京東 AI 團隊的研究中,AI 作畫已不是新鮮事,他們的研究涉及多模態(tài)、大模型等方面的基礎(chǔ)研究以及 AI 寫詩、AI 生成文案、AI 畫圖、AI 寫書法等一些實用性研究,為之后的 AIGC 產(chǎn)品問世打下了基礎(chǔ)。其中一篇典型論文成果 AttnGAN 引用過 1000 多次,是 AIGC 領(lǐng)域的經(jīng)典工作之一。

微信圖片_20221116142739.jpg

AttnGAN 生成結(jié)果示例。

但同時,京東也意識到,如果真的想用這些 AIGC 技術(shù)變革行業(yè),僅靠研究是不夠的,還需要結(jié)合業(yè)務(wù)實際來解決一些工程化難點。于是,從 2019 年開始,生成式 AI 如何一頭扎進(jìn)京東的多個供應(yīng)鏈環(huán)節(jié)成了團隊的第一要務(wù)。

供應(yīng)鏈?zhǔn)且粋€極端復(fù)雜的、上下貫通的、跟千行百業(yè)都息息相關(guān)的實體鏈條,小至快消品、3C 電子、服裝,大至汽車、高鐵、飛機制造…… 只要有生產(chǎn),有流轉(zhuǎn),有消費,就有供應(yīng)鏈。作為一家以供應(yīng)鏈技術(shù)和服務(wù)為底層邏輯、擁有復(fù)雜供應(yīng)鏈場景的新型實體企業(yè),京東在數(shù)智供應(yīng)鏈中醞釀以 AIGC、語音識別、語義理解等為代表的產(chǎn)業(yè) AI 能力,然后再通過與產(chǎn)業(yè)的深度融合,釋放其 “生萬物” 的潛力,其價值無疑是巨大的。但在此之前,他們必須先解決這些 AIGC 模型在供應(yīng)鏈各環(huán)節(jié)的應(yīng)用效果和效率的問題。

比如,語音生成的難點在于如何讓生成的語音更像真人,傳統(tǒng)的 TTS(語音合成)技術(shù)往往會因為缺乏環(huán)境音和語調(diào)、重音、情緒方面的變化而讓人感覺不真實。

京東語音算法負(fù)責(zé)人張政臣介紹,這種不真實在一定程度上是由訓(xùn)練數(shù)據(jù)造成的,因為當(dāng)前的大部分語音數(shù)據(jù)是在錄音棚里錄的,導(dǎo)致生成結(jié)果偏播音主持場景,用到直播等場景中就不太合適。

因此,京東的語音團隊首先考慮從語料入手來解決這個問題,這也是京東龐大供應(yīng)鏈的優(yōu)勢所在:這條數(shù)智化供應(yīng)鏈每天都會產(chǎn)生大量真實場景的對話,既有客服的也有主播的,拿這些語料訓(xùn)練出的語音模型生成結(jié)果明顯要更加自然。此外,他們也用了一些技術(shù)性的方法,比如對于某些語氣詞、聲音的韻律變化單獨建模和控制。 

當(dāng)然,也有很多客戶會提出使用真人錄音的需求,同時又要往里面加入一些變量,比如把一段外呼錄音中的地點由 “經(jīng)海路” 改成 “科創(chuàng)街” 或其他幾百個不同的地址。由于錄音成本很高,被改動的變量是需要用技術(shù)來合成的,同時又要保證合成的聲音和原有的錄音無縫銜接,聽不出差別。

得益于多年來利用供應(yīng)鏈數(shù)據(jù)訓(xùn)練出的大型基線模型,京東的語音團隊現(xiàn)在已經(jīng)能夠以一種低成本的方式解決這個問題,只需要少量的數(shù)據(jù)(比如錄音師的十幾句話)就能實現(xiàn)個性化的 TTS,達(dá)到之前需要很多訓(xùn)練數(shù)據(jù)才能達(dá)到的效果。


文本生成最大的問題是“可控性”,即想辦法讓模型生成我們想要的內(nèi)容。

“我們早期的模型可以生成很流暢的文本,但是很多時候我們發(fā)現(xiàn),可控這件事并沒有得到很好的解決,大家還是沉浸于生成超出想象的、天馬行空的內(nèi)容。但是在真正的產(chǎn)業(yè)應(yīng)用中,(模型)必須可解釋、可控。”京東 NLP 算法工程師李浩然回憶說。

具體到言犀虛擬數(shù)字人這樣的商品營銷文案自動生成,“可控”就意味著模型生成的文本必須滿足可讀性(Readability)、忠實性(Faithfulness)、信息性(Informativeness)等幾個要求,長文本(比如直播劇本)還要具備多樣性(Diversity)和篇章連貫性(Coherence)。京東 NLP 團隊提出的基于領(lǐng)域知識增強的預(yù)訓(xùn)練語言模型 K-PLUG 就是用來解決這些問題的。

在 K-PLUG 誕生之前,一些通用的預(yù)訓(xùn)練語言模型也可以用來生成商品文案,但在商品賣點的獨特性等方面仍有所欠缺,比如下面這段油煙機的文案:

微信圖片_20221116142752.png

為了讓模型更精通電商場景,K-PLUG 首先會定義電商領(lǐng)域的領(lǐng)域知識,包括商品的知識圖譜、要素知識、類別知識以及賣點知識,然后針對這些不同的知識去設(shè)計不同的下游任務(wù)。有了這些知識,模型就學(xué)會了如何去 “閱讀” 商家給的商品說明材料以及去哪兒找規(guī)格、賣點等信息,然后通過 “Only Copy” 的機制將一些關(guān)鍵信息復(fù)制到生成文本中。

更重要的是,這里用到的電商知識是京東供應(yīng)鏈已經(jīng)積累了很多年的,覆蓋超過 1000 萬種自營商品。有了這些知識做基礎(chǔ),K-PLUG 僅用 1 億參數(shù)量(約為 Google T5 的三分之一)就超過了 Google T5 的商品文案生成效果,而且因為體積小,更容易在業(yè)務(wù)中部署,實用性非常強。

據(jù)統(tǒng)計,基于 K-PLUG 的商品文案生成模型已經(jīng)覆蓋了京東的 3000 多個三級品類,累計生成文案 30 億字,應(yīng)用于京東發(fā)現(xiàn)好貨頻道、搭配購、AI 直播帶貨等,累計帶來超過 3 億元 GMV。

目前,京東的 NLP 團隊還在進(jìn)一步優(yōu)化 K-PLUG 的長文本生成效果,以適應(yīng)直播劇本撰寫等長文本場景。據(jù)悉,他們將嘗試?yán)镁〇|平臺上現(xiàn)有的大量長文本以及領(lǐng)域知識來訓(xùn)練更大的模型,使其生成的文本句與句之間更加有邏輯。

當(dāng)然,未來的這個模型也不會很大(參數(shù)量約為 10 億),因為在使用時,大模型帶來的價值和成本有一個平衡點,在關(guān)注如何訓(xùn)練超大規(guī)模參數(shù)模型、提高模型通用性的同時,京東更關(guān)注大模型在供應(yīng)鏈各環(huán)節(jié)的應(yīng)用效果。

“我們(在做業(yè)務(wù)的時候)并沒有追求千億級、萬億級的生成式大模型,因為它們在實際應(yīng)用的時候會有多方面的問題,比如對服務(wù)器要求很高,這樣的模型在很多場景下可能都用不起來,所以我們會從效率的角度去做模型的設(shè)計。在有些場景下,即使是 10 億參數(shù)的模型,我們也會通過蒸餾、量化的方式讓它進(jìn)一步提升效率,減少對服務(wù)器配置的要求。很多時候,我們的推理(理解或生成)模型既支持 GPU 的部署環(huán)境,也支持 CPU 的部署環(huán)境?!本〇|集團高級算法總監(jiān)吳友政解釋說。


“融”生萬物,向“實”而升

經(jīng)過幾年的發(fā)展,當(dāng)前的 AIGC 算法已經(jīng)具備了真實復(fù)刻和創(chuàng)造某類既定內(nèi)容的能力,同時相關(guān)模型對簡單場景的內(nèi)容生成也取得了比較好的成果。但面對產(chǎn)業(yè)供應(yīng)鏈中多樣性變化和復(fù)雜場景內(nèi)容生成的挑戰(zhàn),現(xiàn)有 AIGC 的算法能力仍需進(jìn)一步提升。

舉例來說,當(dāng)前的算法已經(jīng)可以應(yīng)對高清人臉和數(shù)字人頭像的生成,但在動畫視頻內(nèi)容的生成上仍然稍顯乏力,因為后者的動態(tài)復(fù)雜性和可能性的復(fù)雜程度以幾何倍數(shù)增長。

“這意味著我們現(xiàn)在的算法其實已經(jīng)不再是單點迭代,而是多種算法互相之間聯(lián)合優(yōu)化,變成一種系統(tǒng)級的優(yōu)化?!本〇|集團副總裁、智能產(chǎn)品與服務(wù)部總裁何曉冬坦言。

他回憶道,以前做 AI 算法的時候會局限于怎么做一個單點,比如語音識別、圖像識別,包括把這個單點的能力上云,讓別人調(diào)用。但從供應(yīng)鏈的角度來看,很多技術(shù)要在鏈條里面產(chǎn)生價值,就必然是融合性的。

這種 “融合” 不僅是不同模態(tài)的技術(shù)(語音、文本、圖像等)之間的融合,也包括技術(shù)與各行各業(yè)的特異性場景的深度融合。

當(dāng)然,融合的前提是前期有比較全面的積累,而這正是京東云做 AIGC 的優(yōu)勢所在:京東自身的供應(yīng)鏈環(huán)節(jié)就足夠多,足夠復(fù)雜,每天都會提出很多新的挑戰(zhàn),這幫助他們擺脫了單點技術(shù)思維,更多地從產(chǎn)業(yè)需求的角度去看這些技術(shù),對每個方向都做更全面的思考和更深刻的理解。

這種融合性的做事方法已經(jīng)幫助京東云在 “生萬物” 的道路上邁出了很大的一步,除了常規(guī)的對話生成、文本生成、語音生成等應(yīng)用外,京東云還會用融合性的 AIGC 去做數(shù)字人生成和數(shù)字孿生。

微信圖片_20221116142758.jpg

由實而生,向?qū)嵍?。京東是實體經(jīng)濟高質(zhì)量發(fā)展的見證者,更是深度的參與者。目前,他們正通過京東云向千行百業(yè)釋放自己的 AIGC 能力,這些能力降低了內(nèi)容制作分發(fā)門檻,讓更多的中小企業(yè)可以參與到數(shù)字經(jīng)濟中來,進(jìn)而實現(xiàn)數(shù)字化轉(zhuǎn)型,這是實現(xiàn)產(chǎn)業(yè)升級的關(guān)鍵一步。

以實助實、增強實體經(jīng)濟活力的效果,這既是 AIGC 的機會所在,也是京東云做 AIGC 的使命所在。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
文章來源:機器之心
版權(quán)說明:本文內(nèi)容來自于機器之心,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼關(guān)注
獲取更多出海資訊的相關(guān)信息
優(yōu)質(zhì)服務(wù)商推薦
更多
個人VIP