前段時間,做過一期關于AIGC的分享。
緣起于近兩年看到 DELL E 到 Stable Diffusion 多模態(tài)文本可控圖像生成的大火,讓AIGC概念漲了一大波流量。百度等一些頭部大廠,以及關注元宇宙、web3.0領域的很多媒體和公司,都蹭上了這波熱點瘋狂宣傳。
似乎有種,辭舊迎新,新時代到來的趕腳,世界仿佛一夜之間,就要發(fā)生翻天覆地的變革。AI生成的炫酷圖像,遍布各個媒體在聊,公眾號,頭條,視頻號,抖音,B站,小紅書。有的創(chuàng)投機構迅速做出行業(yè)研報,組建AIGC論壇,有的UP主,就光發(fā)自己用AI作圖的過程,粉絲三連就蹭蹭上漲。
作為一位關注AIGC領域五年的技術從業(yè)者、創(chuàng)業(yè)家,這件事我有不同的看法(也想蹭個熱度)。
先說結論:
AIGC是歷史的必然節(jié)點
AIGC的爆火來源于我們過去對「從量變到質變」發(fā)展的AI技術的預期低估,但現在我們對它的商業(yè)化可能性卻過于高估。
技術發(fā)展的階段可以縮短,但不可跨越。最終它還是要走「回到量變積累下一個質變」的周期。投資人和創(chuàng)業(yè)者都需要十足的耐心。
下面是我上次分享的大綱
每個時代有每個時代的主題,我們可以簡單回顧一下工業(yè)革命發(fā)展的歷程:
蒸汽機促進了機械化生產,掀起了第一次工業(yè)革命。(1780~1870 持續(xù)約90年)
電力應用勞動分工和批量生產的實現,拉開了第二次工業(yè)革命的大幕。(1870-1970 持續(xù)約100年)
微電子實現了自動化的IT系統(tǒng)、信息物理系統(tǒng)開創(chuàng)了第三次工業(yè)革命。(1970 - 至今)
有人說我們當今屬于第四次工業(yè)革命開端,當前智能化解決的核心問題也還是降本增效,自動化。
信息化是當前時代的挑戰(zhàn),怎么讓信息流更高效地在節(jié)點之間傳播是核心要解決的問題。信息差的不對稱帶來了人與人認知上的差異,也孕育出了更多的商業(yè)機會。結果就是催生出了很多以信息流為生的新興產業(yè)。粗粒度看,從感官象限去分,從視覺的圖像,到聽到的聲音,到語言的理解,在最近10年內極速擴張。一方面,依賴于IT通信這些基礎設施的完善,另一方面,也依賴于搜索推薦這樣的智能信息分發(fā)平臺的精準推送。
進一步說,從最早的內容生產方式來說,整體趨勢在向「更多樣的內容」,「更高效的生產和傳播」發(fā)展。多樣意味著,不再是只有權威機構才有發(fā)聲話語權,普通人,創(chuàng)作者也可以生產出有意思的內容。內容不限于傳統(tǒng)的媒體,它變得更廣域化,碎片化,生活化。載體也從聲音圖像文本,到視頻,甚至3D影像。而高效意味著信息被更精準地推送給那些對內容感興趣的人消費。于是就有了搜索推薦廣告智能化技術的發(fā)展。
于是,從「信息化」這一主題去推理,我們可以得出結論。AIGC一定是歷史的必然節(jié)點。因為它提升了信息生產的效率,讓內容的創(chuàng)作變得簡單和無門檻。而隨著算法技術和芯片算力發(fā)展,它的成本會不斷降得越來越低。就好比以前的電信小靈通短信,一毛錢一條。到現在發(fā)微信幾乎不用錢。我們也可以類比做個想象,現在我們創(chuàng)作寫文章,做音樂,畫畫需要很多時間:市場需求的調研,工具的學習上手使用,事后的調整編輯等。時間和精力是最大的成本。而AI輔助創(chuàng)作會讓創(chuàng)意變得廉價。因為從創(chuàng)意到原型的實現變得簡單了。
然而,商業(yè)機會并不在技術本身,而在于依托于技術基礎之上的人、社會、生態(tài)和模式。技術起到的是一個將紅利自動化、規(guī)?;母軛U作用。你用微信發(fā)信息并不是因為它免費,而是因為你周邊的好友都在使用它,你需要與他們聯系不得不用到它。再比如,你會上淘寶買東西并不完全是因為它便宜,而是因為它能節(jié)省你自己去店里外面找東西的搜索成本。
這是因為和技術性能掛鉤的可以比價。但與人社群體驗服務掛鉤的卻難比價。比如說,同樣是語音合成服務,A公司賣60塊每小時,B公司賣50塊每小時。想使用該服務稍微有點調研能力的人就會了解到,兩家公司效果差不多,應該選更便宜的B公司。因為市面上訓練的數據差不多,算法沒多大差別,最后拼都是數據。然而,現在C公司做了這樣一件事,它讓語音合成服務幾乎免費,但為定制化聲音服務收費。比如說,你是一個自媒體人,有大量的錄稿需求,現在我們可以定制化你的聲音,讓你只輸入文字,就可以讓AI念稿。因為定制化聲音,它是專屬于你的。因你所在行業(yè),收入水平,需求程度而變化。它是一個帶主觀色彩的事情,就很難定價。因此當你把聲音定制和合成時長打包賣時,就有更大的溢價空間。
那些潛藏在普通人共識之外,但又在大眾需求情理之中的信息差才是機會點、盈利點。
回顧歷史你就會知道,技術一直都是指數級復利發(fā)展的。
但我們對新事物的預期會遵循一個技術成熟曲線。要不是期盼它更早到來,過于樂觀,要不就是認為它到來還要很久,過于悲觀。這是因為,我們身為人這一生物屬性,需要適應環(huán)境,天生喜新厭舊。從后往前看,你就會發(fā)現這個規(guī)律?,F在的最新出的蘋果 iphone 14 pro手機,對于5-10年前的你,你會覺得這是魔法,這是科技的奇跡。對于3-5年前,你會極度渴望想要體驗。但現在你會大罵蘋果越來越沒有創(chuàng)新。而這樣的感受,和10年前你拿著裝載著塞班系統(tǒng)的諾基亞手機一樣體驗過。人對數碼產品的反應,和對新興技術的感知共用同一套神經系統(tǒng)。
早在1950年前,圖靈剛提出AI概念起,到馮諾依曼第一代計算機架構被發(fā)明出來,到現今,人工智能技術一直是指數級增長的。而期間歷經的資本寒冬,它幾經波折,起起伏伏,最終走出了現今的模樣。人們對它的展望,設想,需求和預期卻一直在變化。好奇它指向更多的可能性。
我們來回顧一下2017年,現有技術,早在5年前,就已經初具雛形。AI畫畫,自動生成唇形視頻,圖像高清化,圖像編輯,圖像風格遷移,wavnet語音合成等。
到了2018年,為降低標注成本,陸續(xù)出現了以預訓練語言模型為主導模型。先前是圖像領域的遷移學習大火,接著bert在自然語言處理領域出圈火遍全球研究界,到現今去噪自編碼器成為了一種標準的預訓練范式。這一年,神經翻譯機,圖像分割,視覺推理,高清人臉的生成也得到了進一步發(fā)展。
2018年的預訓練模型大火,讓AI可以使用更多的無標注數據訓練更好的模型。這也激發(fā)了多模態(tài)多任務終身學習/元學習的研究領域興起。而海量訓練數據中混雜著用戶隱私問題,被加強了監(jiān)管,進而促進了支持數據保護的聯邦學習的解決方案。
不到3年時間,自監(jiān)督學習成為了業(yè)界的主流,機器視覺和語音領域開始向NLP靠齊。模型變得越來越大。其中里程碑事件便是openai發(fā)布了 175 Billion參數的GPT3。與此同時,低資源,知識增強,跨語言,跨模態(tài),進一步得到了發(fā)展。因為它們的進展將拓寬人們更大的想象空間。
到2020年,以GAN為主導的深度生成模型漸漸成熟。其難訓練,易崩塌的缺陷也隨著后來研究者一步步填補上坑。海量的應用得到產品化,最典型的就是圖像的可控編輯,換臉換風景換裝,變動圖這些全都不在話下。但這些大開眼界的純技術產品并沒有支持一家足夠大的商業(yè)公司崛起。理由很簡單。技術不是商業(yè)模式。與此同時,基于流和基于擴散的另一波深度生成模型的在這時開始初見萌芽。短短一年后就成為全球吸睛最亮的崽。
2021年,AI最顯著的進化里程碑是MAE,視覺終于可以用NLP自然語言同樣的架構訓練預訓練模型,再加上多模態(tài)多任務最近2年的發(fā)展,催漲了文本圖像對齊的研究高潮。文本細粒度可控生成圖像有了重要進展。而怎樣挖掘大模型的零樣本/少樣本能力,也催生出了模板工程這一新的細分領域。
簡單總結一下這五年的趨勢:
模型需要越來越少的人類世界知識干預
更少的人工標注數據
更少的任務、模態(tài)領域知識依賴
性能越來越好,從感知到認知的發(fā)展
模型和參數越來越大,預訓練成本越來越高
呈現出多模態(tài),多任務大統(tǒng)一收斂的趨勢
技術上持續(xù)突破,產品創(chuàng)新和商業(yè)模式創(chuàng)新還未跟上
2022年今年,最近一年,究竟發(fā)生了什么。首先是擴散生成模型,它在數學上更直觀優(yōu)美,比GAN更好訓練,生成多樣性上有更大的潛力和展望空間。因此被廣泛使用,大量涌現
而大模型的訓練發(fā)布,相比于過去每一年都來得更頻繁,更具顛覆性。從最近半年來看,超出了過去一年的進展。
其中最顯著的是文本生成圖像模型。它成為當今媒體熱議的點。得益于clip訓練的圖像文本對齊模型,AI可以很輕松地捕獲語義中的物品描述風格空間和顏色信息,進行內容的生成創(chuàng)作。
緊接著是deepmind發(fā)布的通用型人工智能Goto,它驗證了,AI可以在完全不同的領域的數據,在同一個神經網絡訓練后,同一套參數,各自的任務都能有很好的表現。這也是多模態(tài)收斂的重要里程碑。
把AIGC創(chuàng)作最終推向平民化的是stability.ai推出的stable diffusion。打著AI by the people, for the people的slogen,開源免費了比openai更好的 DALL·E 2。每個人都可以在自己帶GPU的個人電腦上跑動它。打破了人們對遙不可及的大模型的刻板印象。
提兩個商業(yè)化落地的場景
AI作畫對藝術界產生了巨大沖擊,也催生出了AI輔助創(chuàng)作這一新興領域的發(fā)展。最典型的例子是工業(yè)設計。現在你可以把任意元素和鞋子混合,激發(fā)你新的設計靈感。
另一個場景是AI的動捕。你可以實時地通過圖像動捕自己的表情動作去操縱任意人物(這對直播視頻會議,元宇宙場景極其有用)。但技術本身還是作為提升效率帶來便利的工具。它可以吸引你過來體驗,賺點買賣。但它單獨的售賣會陷入之前提到的比價困境。就好比stable diffusion 之于 DALL·E 2。只要有人把你的技術免費開源出來,你的買賣就一文不值。技術專利的門檻只有在高精尖行業(yè)(比如醫(yī)藥、芯片)才比較彰顯它核心價值。在產品應用層面,它難做大。
因此在AIGC技術熱潮興起的今天,我們尤其要保持冷靜和清醒。我們需要提前思考好,我是想做賣短信的生意,還是想做免費的微信。
AIGC 對于我們是什么,以及未來會變成什么?
AI對數字化進程的貢獻可以總結為三大能力:
孿生能力。將現實物理世界中數字世界復刻一遍
照相機,留聲機,錄影機,打字機,midi電子琴
數碼相機,錄音機,PC word打字,midi虛擬樂器
手機(包含照相錄像,錄音,打字,社交,付款,等近乎一切功能)
虛擬數字人→基于你錄像和語音,生成你沒說過的內容和畫面,語義理解,ASR轉錄等
編輯能力。將數字世界的化身數據進行修改編輯
音視頻的剪輯,圖像的美化,DAW 宿主軟件對音樂的編輯
圖像風格遷移,AI圖像編輯
個性化可控定制
創(chuàng)作能力
模仿學習,自動作畫,AI文案,AI編曲,AI作曲,自動音樂的生成
最近幾周,我下載了近200個app,體驗總結出了一些商業(yè)化場景。更詳細的調研和總結會另開一期細講。
你會看到,他們其中賺錢盈利的,幾乎沒有一個是純賣技術起家的。更多的是生態(tài)運營,面向切實的用戶需求,解決實際問題的產品。以新奇體驗為主的應用可能爆款(概率也不高),但較難留住用戶。
關于未來的變化,AIGC會存在很長一段時間的基于prompt的新的輔助創(chuàng)作模式,和新的收益模式。比如賣算力,社區(qū)交易,賣創(chuàng)意靈感。對模型期望變得更小,性能更好,效果更逼真、自然、貼近人的理解,更有沉浸感。AI慢慢可以生成更復雜的3D場景,動作序列和故事腳本。多模態(tài)之間的語義聯系會對齊得更好,更加可控。
參考了量子位發(fā)布的《AIGC深度產業(yè)報告》,比較有前景的方向是,現有需求成熟度高,但技術成熟度還差1-2年的領域。我國目前還未真正進入AIGC階段。即便細分賽道出現一些個別優(yōu)秀的公司和研究機構,但還未進入大規(guī)模驗證和體系化發(fā)展的階段。場景上,內容領域的需求也較為飽和,降本增效不迫切。細分看,虛擬人是產業(yè)的中短期增長動力,玩家需要容錯率高專業(yè)度和創(chuàng)意要求有限的場景。長期去看,AIGC還缺乏更加清晰和明確消費落地的場景,比如實時互動和高度個性化生成。
結尾
技術還未成熟的時候,創(chuàng)始人會告訴消費者和投資人,我們需要耐心,等技術做成熟。比如VR/AR領域的發(fā)展就是這樣。創(chuàng)始人說的對,但實際人們對它的預期和反應都是反過來——毫無耐心可言。因為市場就是急功近利的。
歷史的經驗告訴我們,越是3-5年內沒成熟的技術,我們就越應該不報期望,加大投入搶占賽道。為了避免我們未來感到失望,而對它視而不見,是遵循了技術成熟曲線,但忽略了技術一直在進步的事實。而等到它成熟了,再興起的那一波熱潮,大概率是泡沫、一地雞毛。
我們大部分人其實都無法賺認知以外的錢。為什么?因為頭雁只有一只。等到一個技術的興起,再入場,大概率就是晚了。不等你時間反應,很快會有人把可能的商業(yè)機會測試跑通。跑通了,你處于競爭劣勢,沒跑通,大概率你也不行。而你又是急功近利而選擇進場的,你又沒有耐心。
因此,越是資本新概念興起的時候,我們越需要警惕和保持耐心,做好量變的執(zhí)行準備,為下一次質變做準備。畢竟想象力等同新的可能性,不等同于真實的需求。