人人都在聊 AIGC(AI Generated Content,人工智能生成內(nèi)容)。
先是今年 9 月份一幅由 AI 繪圖工具 Midjourney 創(chuàng)作的作品《太空歌劇院》獲得了藝術(shù)比賽的首獎引起爭議,而與此同時,Stable Diffusion、Copy.ai、Jasper.ai 等多個 AIGC 平臺宣布了融資消息,一時間涌現(xiàn)出了多個獨角獸公司。
另一方面,AIGC 正面臨著不少商業(yè)和技術(shù)的爭議,內(nèi)容本身的版權(quán)、良品率和工業(yè)標準問題,技術(shù)倫理的挑戰(zhàn),以及算力可能會集中在頭部大公司的問題,未來的新機會究竟在哪里尚未可知。
很多報道關(guān)注的都是國外 AIGC 創(chuàng)業(yè)動態(tài),對于國內(nèi)賽道的創(chuàng)業(yè)卻少有報道,國內(nèi) AIGC 創(chuàng)業(yè)的機會在哪里?和國外產(chǎn)品有何不同?Founder Park 特意邀請到了國內(nèi) AIGC 領(lǐng)域的多位創(chuàng)業(yè)者,來一起聊一聊 AIGC 當前的技術(shù)發(fā)展和國內(nèi)創(chuàng)業(yè)的商業(yè)可能性。
AIGC 內(nèi)容如何更好地進行內(nèi)容版權(quán)保護?到底 AIGC 會讓人工智能取代人類,還是輔助人類更高效地進行生產(chǎn)創(chuàng)作?關(guān)于這些問題,在這場圓桌討論中也都有深入的討論。
01
AIGC
的現(xiàn)狀和爭議
Founder Park:很多人說 AIGC 的大進步得益于底層大模型的進步,到底是哪些技術(shù)發(fā)生了革命性的變化?
李京梅:大模型到底是什么?嚴格說來應(yīng)該叫預訓練模型,可以追溯到 2017 年谷歌提出的 Transformer 技術(shù)*,在之后有真正的預訓練模型開始涌現(xiàn),谷歌的 BERT、T5 以及 OpenAI、GPT-3 模型等,還有阿里、百度、華為等推出的預訓練模型。
Transformer 模型:最早是由 Google 于 2017 年在「Attention is all you need」一文中提出,在論文中該模型主要是被用于克服機器翻譯任務(wù)中傳統(tǒng)網(wǎng)絡(luò)訓練時間過長,難以較好實現(xiàn)并行計算的問題。后來,由于該方法在語序特征的提取效果由于傳統(tǒng)的 RNN、LSTM 而被逐漸應(yīng)用至各個領(lǐng)域。
預訓練模型在技術(shù)上實現(xiàn)了哪些突破呢?首先是認知智能,NLP 也就是自然語言處理,我們可以用人工智能技術(shù)去理解人類的自然語言。2019 年機器 AI 的閱讀理解的水平已經(jīng)超過人類的水準了。
其次是感知智能,就是視覺上能看得懂、語音上能聽得懂。為什么說 NLP 會被視為人工智能皇冠上的明珠,是因為當 AI 能夠像人類一樣做到能聽會看,下一步的突破就是理解、思考以及決策了。
預訓練模型跟以往傳統(tǒng)的學習模型最大的不同,是預訓練模型基于互聯(lián)網(wǎng)公開的海量數(shù)據(jù),可以做到無監(jiān)督或者次監(jiān)督學習,不需要人工打標,比如識別一只貓、一只狗,或者說這是一個名詞還是動詞等,都是通過機器自己的無監(jiān)督學習,讓模型 AI 有了基本的閱讀理解、分類和分詞的能力。
但是天下并沒有一個可以解決所有問題的預訓練模型,可以一套預訓練技術(shù)解決不同語言、不同的任務(wù),可以快速針對具體的某個領(lǐng)域、場景做針對性微調(diào)。而在此之前的學習模型都必須從零開始訓練。也就是說,NLP 大模型進入到了一個工業(yè)化實施的階段,可以作為生意去商業(yè)化了。
還有就是,近來 Stable Diffusion 模型開源,并且這個模型的規(guī)模相比于 GPT-3 小很多,能夠在消費級顯卡甚至手機上運行,瞬間讓 AIGC 這件事的門檻降低了,普通消費者或者一般的公司都可以來嘗試,公眾可以來嘗試各種發(fā)揮想象力的應(yīng)用。瀾舟科技也是自研開發(fā)了預訓練大模型——孟子,并且通過輕量化技術(shù),做到了十億級參數(shù)量的預訓練模型可以比肩超大規(guī)模的預訓練模型。
俞佳:在京梅老師的回答上,我稍微補充下當下存在的問題。
實際上當我們真正面對用戶的時候,會發(fā)現(xiàn)大模型還是存在著一小步的距離。不管是 GPT-3 還是 T5, 獲取到行業(yè)信息生成通用文章的效果都還不錯,但是文章的知識性或者言之有物的一面距離工業(yè)級應(yīng)用還會有一些差距。這是目前商業(yè)化中會遇到的一些問題。
還有就是,除了生成質(zhì)量之外,人對大模型的控制能力,或者說大模型如何能更好理解人的指令也是很重要的。
張詩瑩:圖像這邊的變化主要源于 Diffusion models(擴散模型),是學術(shù)圈和商業(yè)圈重新把之前的東西撿了起來。大家之前都是在研究 GANs(對抗生成網(wǎng)絡(luò)),OpenAI 的研究人員發(fā)表了一篇論文說擴散模型在圖像合成上優(yōu)于目前最先進的生成模型的圖像質(zhì)量,然后大家就都去做 Diffusion models 了,事實也證明這確實是一條更好的路,后來出現(xiàn)的很多開源框架都基于 Diffusion models。
其次,我也比較同意京梅老師的看法,大模型雖然很廣,但是也沒法解決所有行業(yè)的問題,也許未來算法突破后,算法集變大以及 GPU 變得更便宜后可以。當下還是要基于不同行業(yè)的需求,對模型進行修改和優(yōu)化。
Founder Park:AIGC 現(xiàn)在在不同領(lǐng)域生成內(nèi)容的成熟度是什么樣的?
李京梅:文本生成是其中相對比較成熟的,瀾舟科技在去年成立之后就在營銷文案領(lǐng)域進行了布局。
文本生成在技術(shù)上關(guān)注的是可控性,今天還做不到給 AI 一個題目,讓 AI 直接生成千字文萬字文,更多的是可控文本生成。在營銷文案領(lǐng)域,需要提供商品信息、以及一些常識信息,比如人在白天戴墨鏡,夜里不戴;白天擦防曬霜等這類信息。
在營銷文案領(lǐng)域,我們和數(shù)說故事旗下的橫琴容徽合作推出了 contentnote 智能文案,已經(jīng)在去年年底就上線了。另外就是在文學寫作輔助領(lǐng)域的應(yīng)用也已經(jīng)落地,和網(wǎng)文平臺中文在線進行合作,主要給網(wǎng)文作者提供一些靈感和輔助,目前已經(jīng)集成在他們的寫作平臺中。
圖像生成比文本生成的進度稍微慢一些,還有一些細節(jié)問題待解決,比如人臉和手部的細節(jié)真實度等,臉部有扭曲或者六指這樣的問題還有待去解決。
相比較文本生成和圖片生成這種背靠開源紅利,視頻生成目前還存在不少門檻,至少有兩個問題需要解決,首先是 AI 需要能夠識別圖片中的內(nèi)容,然后基于此做一些插幀,這才能讓生成的視頻是一個比較真實連貫的視頻。
不過不管是視頻,還是文本生成,對于輸入長度都會有限制,幾百字的文本還行,再長可控性難度就比較高了。
張濤:3D 內(nèi)容生成這塊確實存在很多問題待解決。
Stable Diffusion 推出之后,我們就快速將其引入到了 3D 內(nèi)容生產(chǎn)的環(huán)境中。優(yōu)點顯而易見,在大量的內(nèi)容貼圖生成環(huán)節(jié)中可以幫我們降低成本。缺點的話,跟以前 GANs 類似,大家目前只能做一些很簡單的風格控制,比如馬變斑馬、長發(fā)變短發(fā)等,離偏精細化的控制還有一段距離。
不像文本有海量的數(shù)據(jù)可以訓練,網(wǎng)絡(luò)上目前沒有大量開源的 3D 資產(chǎn)數(shù)據(jù)可以直接用來訓練大模型。我們現(xiàn)在走的路是一條比較艱辛的路,就是把 3D 的資產(chǎn)拆解后,用不同的方式去做,有些用傳統(tǒng)的圖形渲染的方式求解,另外一些通過 Stable Diffusion 或者類似模型生成后再去做組合。
張詩瑩:特別認同張濤老師的說法。
3D 內(nèi)容生成是很重要的,這是現(xiàn)在的游戲、動畫以及未來的 AR/VR 場景下的痛點。如果 3D 內(nèi)容生成可用,將極大顛覆游戲、動畫乃至未來世界的敘事方式。
現(xiàn)在圖片生成還是 2D 的形式,我們希望未來可以直接輸入文本生成 3D 內(nèi)容,用一種 human friendly 的方式去生成,也不需要很多工程師。現(xiàn)在 2D 生成 3D,是一個自由度更高的挑戰(zhàn),不僅要改變形狀和呈現(xiàn)形式,還要考慮移動方式等,而到了視頻時代,還要考慮不同的角度,以及光影等,難度更大,但也會更加震撼。
俞佳:從技術(shù)成熟度來看,文本生成確實比圖片生成更成熟,但是這個成熟度如果和人類的本身能力去比較的話,其結(jié)果可能是反過來的。
大部分用戶都有一些基礎(chǔ)的寫作能力,可以寫出 75-80 分的文章,現(xiàn)在的文本生成模型可能在 70 分左右;而對于圖片生成來說,大部分用戶不經(jīng)過幾年專業(yè)畫圖訓練的話,可能是無法超過現(xiàn)在的圖片生成模型的。圖片生成模型的成熟度在這幾個月內(nèi)得到了極大的突破,可能在未來幾個月也會有更快的調(diào)整。
Founder Park:如何看待 AIGC 內(nèi)容的版權(quán)問題?
俞佳:盜夢師現(xiàn)在遵循的是 CC 協(xié)議,版權(quán)屬于創(chuàng)作者本人。不過現(xiàn)在確實有一些藝術(shù)創(chuàng)作者擔心自己的作品被喂給大模型訓練后,可能會喪失對自己的圖片的版權(quán)保護,我有一些更開放性的想法。
版權(quán)的本質(zhì)是對創(chuàng)作者的知識產(chǎn)權(quán)和收益權(quán)的保護,版權(quán)的概念早在互聯(lián)網(wǎng)出現(xiàn)之前就有了,本身的內(nèi)涵也在隨著技術(shù)的發(fā)展而變化,也許將來對創(chuàng)作者的收益分成機制也叫版權(quán),比如說使用區(qū)塊鏈技術(shù)或者其他大家認可的一種分配方式。如果是你的圖被模型訓練了,那么將來使用這個模型創(chuàng)造出來的所有的作品的商業(yè)收益你都獲得分成;或者是使用你的圖訓練了一個私有模型,那么別人可以直接進行付費購買這個私有模型進行內(nèi)容創(chuàng)作。
所以我覺得,版權(quán)問題,或者說創(chuàng)作者的收益保護問題一定會隨著行業(yè)的發(fā)展得到更好的解決方案。
張詩瑩:如果把 AI 看做一位小朋友的話,一定會經(jīng)歷從模仿到創(chuàng)新的過程,一開始是從臨摹開始,后來才會有創(chuàng)造和超越。AIGC 中最強調(diào)的就是 AI 的創(chuàng)造能力,不是只去模仿,是可以在學習的基礎(chǔ)上創(chuàng)造新的東西。所以我們也鼓勵所有的創(chuàng)作者,來和 AI 一起創(chuàng)造一些更美更有趣的內(nèi)容,也更鼓勵我們的用戶去用更創(chuàng)新的方式去創(chuàng)作新的內(nèi)容,而不是只模仿某一位藝術(shù)家的風格。
02
AIGC 產(chǎn)品
在國內(nèi)的商業(yè)落地
Founder Park:ZMO.AI 的產(chǎn)品主要布局在哪些方向?
張詩瑩:我們很早就意識到 AIGC 是 AI 的下一波浪潮,上一波浪潮是感知智能,下一波應(yīng)該就是怎么感知。目前我們在海外商業(yè)化落地的時候,主要圍繞三個方向。
首先是電商營銷,電商營銷分為博客營銷和社交媒體營銷。博客創(chuàng)作需要配圖,傳統(tǒng)都是在圖片素材庫購買,成本比較高,現(xiàn)在可以直接用 AIGC 生成。社交媒體的營銷對于圖片的 photorealism(照片寫實主義)要求比較高,尤其是細節(jié)和光影等,我們目前也優(yōu)先從這個點切入。
ZMO.AI 生成的寫實照片 | 來源:ZMO.AI
第二個方向是 3D 素材的生成,目前還沒有到可以直接驅(qū)動生成 3D 人物形象的階段,但是可以幫助游戲和動畫原畫師,去更好地獲得靈感。因為之前設(shè)計師都是靠畫很多張草稿,然后從中選出一張滿意的,不一定需要很精細的素材。
最后是設(shè)計領(lǐng)域的參考素材庫,微軟前一陣也發(fā)布了 Designer 軟件,為用戶免費提供設(shè)計模版。AIGC 在其中既是生成器又是編輯器,可以生成設(shè)計師需要的素材,也可以進一步編輯成為更加完整的設(shè)計。
Founder Park:ZMO.AI 的產(chǎn)品基于開源的 Stable Diffusion 做了哪些創(chuàng)新改進?
張詩瑩:最大的不同是我們一開始就聚焦在真實照片的生成。這也導致我們選取的模型不同,Stable Diffusion 是在隱空間直接生成圖片的方式,而我們需要一些更真實的照片,光影包括細節(jié)需要更細膩,所以更多是在像素等級,基于多層級的方式去做模型的結(jié)構(gòu)優(yōu)化。
還有就是,我們是圍繞商用的場景,對圖片分辨率比較看重,一般會輸出 1k 以上分辨率的圖片,整個的算法、模型結(jié)構(gòu)和優(yōu)化策略也會有所不同。
語言處理上,中文的語法和英文很不一樣,開源數(shù)據(jù)集也是以英文為主,對英文的處理會更好。因為產(chǎn)品面向海外市場,所以中文、英文的數(shù)據(jù)都進行了訓練。后期可能會針對不同國家,在數(shù)據(jù)上做更多的優(yōu)化,比如針對國內(nèi)市場的應(yīng)用,使用更多的中文數(shù)據(jù)集。
Founder Park:介紹下盜夢師這款產(chǎn)品,你們的底層技術(shù)是如何實現(xiàn)的?做了哪些創(chuàng)新?
俞佳:我們現(xiàn)在有三款產(chǎn)品:圖片生成的盜夢師、文本生成的 Friday AI 和心理聊天機器人。盜夢師目前有接近 50 萬用戶,用戶粘性還是很強的,次日留存接近 40%。
盜夢師的用戶分為兩類,第一類是興趣型用戶,對 AIGC 的技術(shù)感興趣,頭腦中有很多故事和畫面但是自己沒法畫出來,于是用盜夢師實現(xiàn)了自己的夢想,很多用戶都在訪談中表示使用盜夢師創(chuàng)作小故事,這也是我們一直說的要賦予用戶畫出言之有物的圖像的能力。
還有一部分用戶是專業(yè)畫師或者設(shè)計師,他們更多把盜夢師當做素材和概念來源,對他們來說,可以很清楚地進行需求描述,很快得到概念稿。對于這樣的專業(yè)用戶,我們做了一定程度的優(yōu)化,而對于普通用戶是免費的。
盜夢師的作品演示 | 來源:西湖心辰
我們也是基于 diffusion 技術(shù)進行開發(fā)。在我看來,當下的 AIGC 會有兩個比較關(guān)鍵的問題還沒有被很好地解決。一個是模型本身的理解能力,給模型一段文字或者一張圖,它能理解多少,這其中有很多的 gap,比如說語言的隔閡,模型訓練時使用的都是英文,自然對中文的理解會存在問題。基于此我們做了模型的前置理解部分,讓模型去更好理解文本的內(nèi)容。
除此之外,如果想在工業(yè)級別或者企業(yè)級別上使用內(nèi)容生成,當下的圖片生成更多是做到了好看,但是沒有細節(jié),缺少言之有物的東西。重要的是模型要能夠有常識和邏輯,理解語義的能力,我們在這個方面做了比較多的創(chuàng)新和優(yōu)化,這是現(xiàn)在的開源模型或者其他競品所不具備的。
還有就是,我們會根據(jù)用戶的輸入,通過強化學習的方法來增強模型的能力,因為有不少專業(yè)用戶輸出了專業(yè)的描述詞匯來生成很好的內(nèi)容。
Founder Park:瀾舟科技的文本生成產(chǎn)品現(xiàn)在發(fā)展得怎么樣?
李京梅:瀾舟科技是做自然語言入手的,我們?nèi)ツ曜鱿茸龅木褪俏谋旧?,目前的產(chǎn)品就是 contentnote 智能文案,主要針對營銷文案的智能化寫作。
AI 輔助創(chuàng)作營銷文案主要是三步,首先是選擇寫作模版,產(chǎn)品營銷、好物推薦還是科普等,然后確定文案的標題,輸入品牌和具體的商品,這樣其實就有了初步文案的生成,用戶可以在最后進行關(guān)鍵詞選擇,比如雅詩蘭黛的護膚產(chǎn)品,就會有類似清爽、淡斑之類的關(guān)鍵詞可選。營銷人員基于生成的內(nèi)容進行二次編輯,很多時候可以做到 80 分的水準,可以滿足批量或者緊急情況下的內(nèi)容生成,提高了效率。
我們還有一個文學創(chuàng)作輔助的應(yīng)用,現(xiàn)在已經(jīng)開放了 api 接口,大家可以去瀾舟科技的官網(wǎng)申請試用。這款產(chǎn)品主要針對網(wǎng)文等商業(yè)化寫作,幫助作者提高效率,提供靈感。比如用戶想創(chuàng)作一個從課堂穿越到清朝的小說,輸入一些關(guān)鍵字后,AI 可以幫助他生成一段細節(jié)描述,給用戶提供一些新的靈感,也鼓舞用戶繼續(xù)創(chuàng)作下去。目前這個 api 已經(jīng)在中文在線的寫作平臺上進行了部署。
而具備了文本生成和圖像生成的能力,我們就可以給用戶提供更多的可能性,比如圖文并茂內(nèi)容的一鍵生成等。
瀾舟科技圖片演示 | 來源:瀾舟科技
另外我們也上線了一款小程序——熊貓小說家,提供小說接龍的功能,你可以邀請你的朋友,大家一起來集體創(chuàng)作一個故事,AI 會根據(jù)你選擇的關(guān)鍵詞生成故事走向,分享給你的朋友后他可以進行續(xù)寫。
我們目前還是在垂直場景進行發(fā)力,在孟子這個預訓練模型的基礎(chǔ)上,整體走輕量化的策略,持續(xù)進行自研,去做多模態(tài)跨模態(tài)的融合,面向不同的場景做融合。
Founder Park:數(shù)字力場在 AIGC 上的探索方向是怎么樣的?
張濤:我們主要聚焦在數(shù)字人和數(shù)字人服裝的低門檻生成?,F(xiàn)階段流程已經(jīng)打通,不過還需要進一步提升品質(zhì)。
對服裝來說,3D 服裝面對的挑戰(zhàn)也有很多,光線、人物動作、周圍環(huán)境等的影響,還要配合不同的 avatar,衣服的材質(zhì)建模以及物理仿真等,這些環(huán)節(jié)都有一系列的挑戰(zhàn),我們目前算是磕磕碰碰跑完了整個流程,不過還處于調(diào)優(yōu)級別。
為什么切入這個方向,我們認為當 AIGC 的可以大量生產(chǎn)內(nèi)容之后,數(shù)字人也許也可以通過這樣的方式生產(chǎn),包括數(shù)字人的服裝、配飾等,畢竟行業(yè)內(nèi)總是需要低門檻的生成方式,而不是全靠建模師、美術(shù)師一件一件去生產(chǎn),這是我們目前比較看好的點。
03
AIGC 創(chuàng)業(yè)最終面對
的是內(nèi)容創(chuàng)作者
Founder Park:ZMO.AI 的產(chǎn)品功能上,還有哪些創(chuàng)新的點?
張詩瑩:我們一直覺得從內(nèi)容生成到內(nèi)容編輯是非常完善的內(nèi)部鏈條,生成圖片只是第一步,后續(xù)用戶還可以對圖片進行編輯,加入文字等。我們?nèi)プ?Editor 這款產(chǎn)品也是希望能帶給用戶完整的體驗。尤其是對于很多設(shè)計師來說,很多時候都是從生成元素開始,然后在元素的基礎(chǔ)上設(shè)計海報或者包裝,這些都是鏈條上不可或缺的一環(huán)。
我們的 Editor 產(chǎn)品嘗試將編輯的門檻降得更低,用戶不需要去學習復雜的 PS 技術(shù)等。未來在包裝、建筑和服裝設(shè)計領(lǐng)域等,AIGC 能夠幫助到大家很多,不管是提供靈感還是幫助他們直接生成內(nèi)容,而在 3D 生成成熟后甚至可以直接對接到制造業(yè)。
Founder Park:ZMO.AI 的產(chǎn)品是 ToC 還是 ToB 的?會聚焦在哪些領(lǐng)域?
張詩瑩:我們的 IMAGECREATOR 最早在國外上線,最近在國內(nèi)也推出了 YUAN 初小程序,為什么叫這個名字是因為覺得 YUAN 很有想象力,可以叫它源遠的「源」,也可以叫它為遠大的「遠」或者愿景的「愿」都可以。
產(chǎn)品的定位是 to creator,所有的創(chuàng)作者,沒有嚴格說一定是 ToB 或者 ToC。我們認為在未來,當 AIGC 變成所有人都可以使用的時候,B 和 C 的界限會很模糊。很多人一開始可能是個人消費者 C,他通過自己的設(shè)計和作畫,有了自己的作品開始掙錢了,慢慢就變成一個小型的 B 了。大家都是創(chuàng)作者,人人都可以創(chuàng)造。
目前會聚焦在電商方向,但是會在此基礎(chǔ)上進行拓展。因為模型的生成能力是底層的能力,最后的落地可以有很多場景,電商只是其中的一部分。具體來說我們會聚焦在三個領(lǐng)域。
第一個是真實圖片的生成能力,第二個是 3D 內(nèi)容的能力,第三個是專業(yè)的插圖能力,這種插圖包括后現(xiàn)代、兒童等各種插畫風格。本質(zhì)上是一個內(nèi)容生成和創(chuàng)造的平臺,能夠在上面創(chuàng)造各種內(nèi)容,幫助到用戶更好創(chuàng)造價值。
Founder Park:對于圖片生成,ToC 會是更值得期待的方向嗎?
俞佳:在我看來,AIGC 的 ToC 領(lǐng)域一定會出現(xiàn)非常大的平臺,因為人類的創(chuàng)作成本史無前例地降低了,創(chuàng)作形式的變化會帶來內(nèi)容消費形式的變化。因為有了智能手機,人們可以更方便地拍攝視頻,才出現(xiàn)了抖音,當大家可以更快速地去創(chuàng)作圖片或者視頻內(nèi)容的時候,一定會出現(xiàn)另一種內(nèi)容消費平臺。也許將來會出現(xiàn)很多的網(wǎng)絡(luò)漫畫,因為只要有故事和想象力,你就可以自己創(chuàng)作自己的漫畫。這種創(chuàng)作生產(chǎn)力的突變會帶來一些新的機會,當然競爭也會很激烈。
Founder Park:文本生成類產(chǎn)品,海內(nèi)外的產(chǎn)品有什么區(qū)別?
俞佳:海外的文本生成應(yīng)用也有現(xiàn)象級的公司比如 Jasper、copy.ai 等,海外公司的優(yōu)勢在于起步較早,國外用戶對于 SaaS 類產(chǎn)品付費接受度比較高,對于能夠節(jié)省時間的產(chǎn)品,他們的付費意愿是很高的。
國內(nèi)用戶對于工具類產(chǎn)品付費意愿沒那么高,但是對于那些工具確實能夠幫他們掙錢的用戶,比如跨境電商、新媒體創(chuàng)作的用戶,付費意愿就比較高,所以我們除了這一類用戶外,也會發(fā)展一些 ToB 的合作。
04
AIGC
的未來可能性
Founder Park:從商業(yè)化角度考慮,如何提高 AIGC 的良品率?
張濤:兩個層面吧,首先是從模型的底層控制入手,朝著更精準的方向優(yōu)化。底層改造需要投入大量的資源和數(shù)據(jù)資源。
其次是生產(chǎn)層面,對于大模型來說,想進行精準的調(diào)整是有難度的,我覺得可以在運營層面投入更多的資源進行調(diào)整,比如輸入更準確的描述,內(nèi)容把控上更嚴格等。
李京梅:當下其實還沒有放之四海而皆準的解決方案。從技術(shù)層面來看,我們更關(guān)注垂直場景的落地,這樣對我們來說是比較可控的,在這個場景下進行持續(xù)優(yōu)化,提升良品率。其次是工程層面的優(yōu)化,讓產(chǎn)品的用戶體驗更好。
還有一個最根本的理念,不管是 NLP 還是 AIGC,大多數(shù)場景下應(yīng)該都是人機互動的方式生成最后的成品,也就是說最終能否產(chǎn)出良品,還是把握在操作者的手中。這是目前以人機交互的形式產(chǎn)出內(nèi)容的客觀局限性。
俞佳:現(xiàn)階段討論建立工業(yè)標準可能有點言之過早,可能文章的完整性、并發(fā)數(shù)、QPS 等這些傳統(tǒng)指標是可以作為監(jiān)測標準的。
我覺得在很長的一段時間內(nèi),人一定是和 AI 共同完成創(chuàng)作。早期階段人需要做的是不讓 AI 跑偏,隨著 AI 能力的上升,人需要去提供創(chuàng)意,或者按照自己的審美從結(jié)果中選擇好的內(nèi)容。不管是短期還是長期,這種交互關(guān)系是值得深入去研究的。
張濤:我們現(xiàn)在更多是聚焦,在垂類上更加聚焦,逐步提高產(chǎn)出的細節(jié)、光照等質(zhì)量。
其次是重視用戶反饋,當生成的圖越來越多,用戶的反饋就很重要,可以幫助大模型進一步優(yōu)化,達到更好的狀態(tài)。
Founder Park:3D AI 模型訓練進展比較緩慢,你們?nèi)绾谓鉀Q 3D 模型訓練素材少的問題?
張詩瑩:我們會使用渲染引擎專門生成一些數(shù)據(jù)來做訓練,這些能夠覆蓋到我們聚焦的場景,但是沒辦法泛化到所有場景,而且相對來說獲取成本有些高。未來還是期待會有大廠無私放出一些數(shù)據(jù)幫助大家。
張濤:我覺得進展慢是正常的發(fā)展規(guī)律。14、15 年多模態(tài)發(fā)展起來的時候,很多人去做文本生成和圖片生成,也是積累了很長時間,即便是到了今天的 DALL·E 2,也是經(jīng)歷了一段時間才爆發(fā)?,F(xiàn)在數(shù)據(jù)比較難,將來一定是要依靠某些開源數(shù)據(jù)的大力推進,這一點我是認同詩瑩老師的。
但是即便是這樣,我仍然覺得目前 3D 的進展不慢?;氐皆钪娓拍畋l(fā)之前,行業(yè)內(nèi)的 3D 資產(chǎn)很多是在游戲行業(yè),這個賽道是相對更封閉,有固定的盈利模式,人才培養(yǎng)和生態(tài)也是有自己的閉環(huán),人才很少流入到其他行業(yè)。隨著元宇宙賽道的火熱,以及游戲行業(yè)這兩年受到的牌照、疫情的沖擊等,整個行業(yè)的人才流失到了其他行業(yè)。當這些不同行業(yè)的人才碰撞在一起,開始探討 AIGC 的內(nèi)容突破的時候,我覺得這個賽道才剛剛開始。
現(xiàn)階段大模型很難取得讓人驚訝的成績,因為大家現(xiàn)在習慣影視和游戲高成本制作的 3D 模型,但是一年之后,3D 模型生成的狀態(tài)一定不是今天這種粗糙的狀態(tài)。要知道,三年以前文本和圖像大模型的狀態(tài)也是不可控的。
Founder Park:很多 AIGC 公司都是在開源模型的基礎(chǔ)上進行優(yōu)化和產(chǎn)品開發(fā),應(yīng)該如何搭建自己的技術(shù)壁壘?
李京梅:瀾舟科技是一直堅定走開源路線,孟子的面向不同場景的 17 個開源模型都可以在開源站上體驗到。對我們來說,首先讓社區(qū)內(nèi)盡可能多的伙伴把東西用起來,收集更多的反饋,然后再找到不同場景里存在的不足,再去優(yōu)化我們的大模型。
作為創(chuàng)業(yè)公司,上游的數(shù)據(jù)采集和硬件顯然不是我們要走的方向,我們走的是更落地的路線,所以要去不斷打磨我們的大模型,以客戶的應(yīng)用場景為導向,提供輕量化的可快速落地的方案。
人工智能的三要素:算力、算法和數(shù)據(jù)。當大家共創(chuàng)生態(tài)圈的時候,自然是有算力的出算力、有數(shù)據(jù)的出數(shù)據(jù),我們做模型也是希望能改進算法。大家一起把蛋糕做大,讓更多應(yīng)用開發(fā)者和廠商能夠有更多想象空間,一起促進產(chǎn)業(yè)生態(tài)發(fā)展。
俞佳:AI 的三要素,算法模型目前有比較好的基礎(chǔ),而且模型的創(chuàng)新可能要面臨整個開源社區(qū)和學術(shù)界的挑戰(zhàn);算力面臨著大公司的挑戰(zhàn),在數(shù)據(jù)層面我覺得是可能有自己的護城河的,這也是我們選擇去做 ToC 產(chǎn)品的出發(fā)點。我們能夠直面用戶,切到具體的行業(yè),獲得非常好的一手數(shù)據(jù),這是我們的一個優(yōu)勢。
Founder Park:長遠來看,AIGC 還有哪些方向的創(chuàng)新值得關(guān)注?
俞佳:在動漫化、元宇宙等強內(nèi)容消費行業(yè),AIGC 會有非常大的發(fā)展。
張詩瑩:首先是在設(shè)計領(lǐng)域會有一個爆發(fā),比如已經(jīng)出現(xiàn)的 Figma 插件等。然后營銷領(lǐng)域的發(fā)展應(yīng)該也是比較快的。
而在日常生活中,大部分人都會接觸到設(shè)計的需求,比如短視頻、廣告語、產(chǎn)品包裝設(shè)計等,這些工作在未來會跟 AIGC 有越來越多的結(jié)合,能夠幫助到更多人在線下、線上更好地進行內(nèi)容創(chuàng)造。
張濤:第一,因為 AIGC 能夠更高效地生產(chǎn)內(nèi)容,目前主流的短視頻平臺肯定會大量通過 AIGC 生產(chǎn)內(nèi)容,這是目前比較旺盛的需求。
第二,通過 AIGC 協(xié)助設(shè)計師,降低成本、提高生產(chǎn)效率。
第三,游戲領(lǐng)域,更高效地產(chǎn)出 NPC 和提高生產(chǎn)力。
第四,目前的元宇宙和 3D 內(nèi)容生產(chǎn)領(lǐng)域,生產(chǎn)力還是很低下的,大量內(nèi)容生產(chǎn)需要人工去填補,AIGC 在這個領(lǐng)域還是比較有前途的。
李京梅:還是回歸到人類和人工智能的關(guān)系上,我覺得人類不要放棄去做有創(chuàng)造力的工作,機器還是要跟人學習的。在未來幾年,人工智能會用在那些幫助人類提升效率的地方,虛一點說,把創(chuàng)造力、創(chuàng)意相關(guān)的工作留給人類,人工智能去提升效率。人類和機器能夠更加和諧相處,找到自己的位置,最終還是機器為人類創(chuàng)造價值。
技術(shù)最終的價值其實并不是取代人,而是真的去幫助人更好創(chuàng)造價值。