2022穩(wěn)居C位的AIGC，到底有什么用？

來源：機(jī)器之心

作者：Synced、張倩

時間：2022-11-16

元宇宙之外，AIGC有其貼近產(chǎn)業(yè)的一面

總結(jié) 2022 年十大技術(shù)趨勢，AIGC（AI-Generated Content）一定能穩(wěn)站一席。

一方面，市場融資火爆，AIGC 創(chuàng)業(yè)公司 Jasper. AI、Stability AI 都分別獲得了超 1 億美元的融資，資本都在盯著這個具有想象空間的賽道。

另一方面，技術(shù)呈現(xiàn)擴(kuò)圈之姿，尤其在繪畫領(lǐng)域，一幅名為《太空歌劇院》的 AI 畫作甚至拿到了美國科羅拉多州博覽會藝術(shù)比賽的一等獎。

微信圖片_20221116142726.png

AI畫作《太空歌劇院》

但沉下心來觀察這個賽道會發(fā)現(xiàn)這樣的境況：AIGC 離產(chǎn)業(yè)應(yīng)用有點(diǎn)遠(yuǎn)。一些人會將生成式 AI 出色的表現(xiàn)與元宇宙等熱門概念聯(lián)系到一起，認(rèn)為 AIGC 即將成為構(gòu)建元宇宙的重要工具，徹底變革人類的生活方式，這一愿景為一些背靠生成式 AI 大模型的初創(chuàng)公司帶來了大筆融資，但距離落地成真還有一段時間。

生成式 AI 落地真的還有一段時間嗎？對于手握精尖技術(shù)去找應(yīng)用、找落地的企業(yè)或許是這樣的，但對于已經(jīng)在產(chǎn)業(yè)中摸爬滾打了 20 余年的京東來說，從 2017 年喊出“技術(shù)！技術(shù)！技術(shù)！”，到用 AI 技術(shù)武裝自身業(yè)務(wù)，再到把反復(fù)歷練的產(chǎn)業(yè) AI 能力通過京東云對外輸出服務(wù)產(chǎn)業(yè)，京東將 AI 能力滲透到了產(chǎn)業(yè)的毛細(xì)血管里，潤物細(xì)無聲般走進(jìn)了百姓的生活，比如，當(dāng)前應(yīng)用最廣泛的就是交互數(shù)字人。

這是京東云推出的言犀虛擬數(shù)字人主播，高性價比和不錯的交互體驗(yàn)，讓 TA 獲得了眾多商家的青睞。在雙十一期間，言犀虛擬數(shù)字人服務(wù)近 200 家付費(fèi)品牌，帶來數(shù)百萬 GMV 轉(zhuǎn)化。

從技術(shù)視角來看，當(dāng)前數(shù)字人是 AIGC 技術(shù)的集大成者，包含了生成圖片、語言、音頻、視頻和 3D 等等。

從產(chǎn)業(yè)視角來看，在京東內(nèi)部或許沒有 AIGC 這樣一個 “時髦” 的稱呼，但在日常業(yè)務(wù)中，他們早就開始用技術(shù)幫助商家生成商品文案、對話文本、外呼語音…… 現(xiàn)在還能生成數(shù)字人幫商家賣貨，其應(yīng)用范圍貫穿京東的整個數(shù)智供應(yīng)鏈。同時，他們的各種 AIGC 模型也從這條供應(yīng)鏈上 “學(xué)習(xí)” 新的東西，把更好的技術(shù)、服務(wù)向外輸出，讓我們看到了這套技術(shù)更貼近產(chǎn)業(yè)的一面。

與數(shù)智供應(yīng)鏈深度耦合的 AIGC

AIGC 并不是一個新概念，其萌芽階段可以追溯到上世紀(jì) 50 年代，90 年代從實(shí)驗(yàn)性向?qū)嵱眯灾饾u轉(zhuǎn)變。從 2014 年起，隨著以生成對抗網(wǎng)絡(luò)（GAN）為代表的深度學(xué)習(xí)算法的提出和迭代更新，AIGC 迎來了新時代，生成內(nèi)容百花齊放，效果逐漸逼真直至人類難以分辨。2018 年，AI 生成的畫作以 43.25 萬美元的價格被成功拍賣，引發(fā)各界關(guān)注。

彼時，在京東 AI 團(tuán)隊(duì)的研究中，AI 作畫已不是新鮮事，他們的研究涉及多模態(tài)、大模型等方面的基礎(chǔ)研究以及 AI 寫詩、AI 生成文案、AI 畫圖、AI 寫書法等一些實(shí)用性研究，為之后的 AIGC 產(chǎn)品問世打下了基礎(chǔ)。其中一篇典型論文成果 AttnGAN 引用過 1000 多次，是 AIGC 領(lǐng)域的經(jīng)典工作之一。

微信圖片_20221116142739.jpg

AttnGAN 生成結(jié)果示例。

但同時，京東也意識到，如果真的想用這些 AIGC 技術(shù)變革行業(yè)，僅靠研究是不夠的，還需要結(jié)合業(yè)務(wù)實(shí)際來解決一些工程化難點(diǎn)。于是，從 2019 年開始，生成式 AI 如何一頭扎進(jìn)京東的多個供應(yīng)鏈環(huán)節(jié)成了團(tuán)隊(duì)的第一要務(wù)。

供應(yīng)鏈?zhǔn)且粋€極端復(fù)雜的、上下貫通的、跟千行百業(yè)都息息相關(guān)的實(shí)體鏈條，小至快消品、3C 電子、服裝，大至汽車、高鐵、飛機(jī)制造…… 只要有生產(chǎn)，有流轉(zhuǎn)，有消費(fèi)，就有供應(yīng)鏈。作為一家以供應(yīng)鏈技術(shù)和服務(wù)為底層邏輯、擁有復(fù)雜供應(yīng)鏈場景的新型實(shí)體企業(yè)，京東在數(shù)智供應(yīng)鏈中醞釀以 AIGC、語音識別、語義理解等為代表的產(chǎn)業(yè) AI 能力，然后再通過與產(chǎn)業(yè)的深度融合，釋放其 “生萬物” 的潛力，其價值無疑是巨大的。但在此之前，他們必須先解決這些 AIGC 模型在供應(yīng)鏈各環(huán)節(jié)的應(yīng)用效果和效率的問題。

比如，語音生成的難點(diǎn)在于如何讓生成的語音更像真人，傳統(tǒng)的 TTS（語音合成）技術(shù)往往會因?yàn)槿狈Νh(huán)境音和語調(diào)、重音、情緒方面的變化而讓人感覺不真實(shí)。

京東語音算法負(fù)責(zé)人張政臣介紹，這種不真實(shí)在一定程度上是由訓(xùn)練數(shù)據(jù)造成的，因?yàn)楫?dāng)前的大部分語音數(shù)據(jù)是在錄音棚里錄的，導(dǎo)致生成結(jié)果偏播音主持場景，用到直播等場景中就不太合適。

因此，京東的語音團(tuán)隊(duì)首先考慮從語料入手來解決這個問題，這也是京東龐大供應(yīng)鏈的優(yōu)勢所在：這條數(shù)智化供應(yīng)鏈每天都會產(chǎn)生大量真實(shí)場景的對話，既有客服的也有主播的，拿這些語料訓(xùn)練出的語音模型生成結(jié)果明顯要更加自然。此外，他們也用了一些技術(shù)性的方法，比如對于某些語氣詞、聲音的韻律變化單獨(dú)建模和控制。

當(dāng)然，也有很多客戶會提出使用真人錄音的需求，同時又要往里面加入一些變量，比如把一段外呼錄音中的地點(diǎn)由 “經(jīng)海路” 改成 “科創(chuàng)街” 或其他幾百個不同的地址。由于錄音成本很高，被改動的變量是需要用技術(shù)來合成的，同時又要保證合成的聲音和原有的錄音無縫銜接，聽不出差別。

得益于多年來利用供應(yīng)鏈數(shù)據(jù)訓(xùn)練出的大型基線模型，京東的語音團(tuán)隊(duì)現(xiàn)在已經(jīng)能夠以一種低成本的方式解決這個問題，只需要少量的數(shù)據(jù)（比如錄音師的十幾句話）就能實(shí)現(xiàn)個性化的 TTS，達(dá)到之前需要很多訓(xùn)練數(shù)據(jù)才能達(dá)到的效果。

文本生成最大的問題是“可控性”，即想辦法讓模型生成我們想要的內(nèi)容。

“我們早期的模型可以生成很流暢的文本，但是很多時候我們發(fā)現(xiàn)，可控這件事并沒有得到很好的解決，大家還是沉浸于生成超出想象的、天馬行空的內(nèi)容。但是在真正的產(chǎn)業(yè)應(yīng)用中，（模型）必須可解釋、可控?！本〇| NLP 算法工程師李浩然回憶說。

具體到言犀虛擬數(shù)字人這樣的商品營銷文案自動生成，“可控”就意味著模型生成的文本必須滿足可讀性（Readability）、忠實(shí)性（Faithfulness）、信息性（Informativeness）等幾個要求，長文本（比如直播劇本）還要具備多樣性（Diversity）和篇章連貫性（Coherence）。京東 NLP 團(tuán)隊(duì)提出的基于領(lǐng)域知識增強(qiáng)的預(yù)訓(xùn)練語言模型 K-PLUG 就是用來解決這些問題的。

在 K-PLUG 誕生之前，一些通用的預(yù)訓(xùn)練語言模型也可以用來生成商品文案，但在商品賣點(diǎn)的獨(dú)特性等方面仍有所欠缺，比如下面這段油煙機(jī)的文案：

微信圖片_20221116142752.png

為了讓模型更精通電商場景，K-PLUG 首先會定義電商領(lǐng)域的領(lǐng)域知識，包括商品的知識圖譜、要素知識、類別知識以及賣點(diǎn)知識，然后針對這些不同的知識去設(shè)計不同的下游任務(wù)。有了這些知識，模型就學(xué)會了如何去 “閱讀” 商家給的商品說明材料以及去哪兒找規(guī)格、賣點(diǎn)等信息，然后通過 “Only Copy” 的機(jī)制將一些關(guān)鍵信息復(fù)制到生成文本中。

更重要的是，這里用到的電商知識是京東供應(yīng)鏈已經(jīng)積累了很多年的，覆蓋超過 1000 萬種自營商品。有了這些知識做基礎(chǔ)，K-PLUG 僅用 1 億參數(shù)量（約為 Google T5 的三分之一）就超過了 Google T5 的商品文案生成效果，而且因?yàn)轶w積小，更容易在業(yè)務(wù)中部署，實(shí)用性非常強(qiáng)。

據(jù)統(tǒng)計，基于 K-PLUG 的商品文案生成模型已經(jīng)覆蓋了京東的 3000 多個三級品類，累計生成文案 30 億字，應(yīng)用于京東發(fā)現(xiàn)好貨頻道、搭配購、AI 直播帶貨等，累計帶來超過 3 億元 GMV。

目前，京東的 NLP 團(tuán)隊(duì)還在進(jìn)一步優(yōu)化 K-PLUG 的長文本生成效果，以適應(yīng)直播劇本撰寫等長文本場景。據(jù)悉，他們將嘗試?yán)镁〇|平臺上現(xiàn)有的大量長文本以及領(lǐng)域知識來訓(xùn)練更大的模型，使其生成的文本句與句之間更加有邏輯。

當(dāng)然，未來的這個模型也不會很大（參數(shù)量約為 10 億），因?yàn)樵谑褂脮r，大模型帶來的價值和成本有一個平衡點(diǎn)，在關(guān)注如何訓(xùn)練超大規(guī)模參數(shù)模型、提高模型通用性的同時，京東更關(guān)注大模型在供應(yīng)鏈各環(huán)節(jié)的應(yīng)用效果。

“我們（在做業(yè)務(wù)的時候）并沒有追求千億級、萬億級的生成式大模型，因?yàn)樗鼈冊趯?shí)際應(yīng)用的時候會有多方面的問題，比如對服務(wù)器要求很高，這樣的模型在很多場景下可能都用不起來，所以我們會從效率的角度去做模型的設(shè)計。在有些場景下，即使是 10 億參數(shù)的模型，我們也會通過蒸餾、量化的方式讓它進(jìn)一步提升效率，減少對服務(wù)器配置的要求。很多時候，我們的推理（理解或生成）模型既支持 GPU 的部署環(huán)境，也支持 CPU 的部署環(huán)境。”京東集團(tuán)高級算法總監(jiān)吳友政解釋說。

“融”生萬物，向“實(shí)”而升

經(jīng)過幾年的發(fā)展，當(dāng)前的 AIGC 算法已經(jīng)具備了真實(shí)復(fù)刻和創(chuàng)造某類既定內(nèi)容的能力，同時相關(guān)模型對簡單場景的內(nèi)容生成也取得了比較好的成果。但面對產(chǎn)業(yè)供應(yīng)鏈中多樣性變化和復(fù)雜場景內(nèi)容生成的挑戰(zhàn)，現(xiàn)有 AIGC 的算法能力仍需進(jìn)一步提升。

舉例來說，當(dāng)前的算法已經(jīng)可以應(yīng)對高清人臉和數(shù)字人頭像的生成，但在動畫視頻內(nèi)容的生成上仍然稍顯乏力，因?yàn)楹笳叩膭討B(tài)復(fù)雜性和可能性的復(fù)雜程度以幾何倍數(shù)增長。

“這意味著我們現(xiàn)在的算法其實(shí)已經(jīng)不再是單點(diǎn)迭代，而是多種算法互相之間聯(lián)合優(yōu)化，變成一種系統(tǒng)級的優(yōu)化。”京東集團(tuán)副總裁、智能產(chǎn)品與服務(wù)部總裁何曉冬坦言。

他回憶道，以前做 AI 算法的時候會局限于怎么做一個單點(diǎn)，比如語音識別、圖像識別，包括把這個單點(diǎn)的能力上云，讓別人調(diào)用。但從供應(yīng)鏈的角度來看，很多技術(shù)要在鏈條里面產(chǎn)生價值，就必然是融合性的。

這種 “融合” 不僅是不同模態(tài)的技術(shù)（語音、文本、圖像等）之間的融合，也包括技術(shù)與各行各業(yè)的特異性場景的深度融合。

當(dāng)然，融合的前提是前期有比較全面的積累，而這正是京東云做 AIGC 的優(yōu)勢所在：京東自身的供應(yīng)鏈環(huán)節(jié)就足夠多，足夠復(fù)雜，每天都會提出很多新的挑戰(zhàn)，這幫助他們擺脫了單點(diǎn)技術(shù)思維，更多地從產(chǎn)業(yè)需求的角度去看這些技術(shù)，對每個方向都做更全面的思考和更深刻的理解。

這種融合性的做事方法已經(jīng)幫助京東云在 “生萬物” 的道路上邁出了很大的一步，除了常規(guī)的對話生成、文本生成、語音生成等應(yīng)用外，京東云還會用融合性的 AIGC 去做數(shù)字人生成和數(shù)字孿生。

微信圖片_20221116142758.jpg

由實(shí)而生，向?qū)嵍＞〇|是實(shí)體經(jīng)濟(jì)高質(zhì)量發(fā)展的見證者，更是深度的參與者。目前，他們正通過京東云向千行百業(yè)釋放自己的 AIGC 能力，這些能力降低了內(nèi)容制作分發(fā)門檻，讓更多的中小企業(yè)可以參與到數(shù)字經(jīng)濟(jì)中來，進(jìn)而實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型，這是實(shí)現(xiàn)產(chǎn)業(yè)升級的關(guān)鍵一步。

以實(shí)助實(shí)、增強(qiáng)實(shí)體經(jīng)濟(jì)活力的效果，這既是 AIGC 的機(jī)會所在，也是京東云做 AIGC 的使命所在。

AI 互聯(lián)網(wǎng) 金融云物聯(lián)網(wǎng)

上一篇：現(xiàn)金使用率逐漸降低，中東零售業(yè)新趨勢

原文鏈接：點(diǎn)擊前往 >

版權(quán)說明：本文內(nèi)容來自于機(jī)器之心，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點(diǎn)，不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章