淺談一些AIGC賺錢賽道

來源：元創(chuàng)悅聽

作者：龔俊民

時間：2022-11-14

緣起于近兩年看到 DELL E 到 Stable Diffusion 多模態(tài)文本可控圖像生成的大火，讓AIGC概念漲了一大波流量。百度等一些頭部大廠，以及關(guān)注元宇宙、web3.0領(lǐng)域的很多媒體和公司，都蹭上了這波熱點瘋狂宣傳。

前段時間，做過一期關(guān)于AIGC的分享。

似乎有種，辭舊迎新，新時代到來的趕腳，世界仿佛一夜之間，就要發(fā)生翻天覆地的變革。AI生成的炫酷圖像，遍布各個媒體在聊，公眾號，頭條，視頻號，抖音，B站，小紅書。有的創(chuàng)投機構(gòu)迅速做出行業(yè)研報，組建AIGC論壇，有的UP主，就光發(fā)自己用AI作圖的過程，粉絲三連就蹭蹭上漲。

作為一位關(guān)注AIGC領(lǐng)域五年的技術(shù)從業(yè)者、創(chuàng)業(yè)家，這件事我有不同的看法（也想蹭個熱度）。

結(jié)論

先說結(jié)論：

AIGC是歷史的必然節(jié)點
AIGC的爆火來源于我們過去對「從量變到質(zhì)變」發(fā)展的AI技術(shù)的預期低估，但現(xiàn)在我們對它的商業(yè)化可能性卻過于高估。
技術(shù)發(fā)展的階段可以縮短，但不可跨越。最終它還是要走「回到量變積累下一個質(zhì)變」的周期。投資人和創(chuàng)業(yè)者都需要十足的耐心。

下面是我上次分享的大綱

微信圖片_20221114132730.png

結(jié)論一：為什么AIGC是歷史的必然節(jié)點

微信圖片_20221114132735.png

每個時代有每個時代的主題，我們可以簡單回顧一下工業(yè)革命發(fā)展的歷程：

蒸汽機促進了機械化生產(chǎn)，掀起了第一次工業(yè)革命。（1780~1870 持續(xù)約90年）

電力應用勞動分工和批量生產(chǎn)的實現(xiàn)，拉開了第二次工業(yè)革命的大幕。（1870-1970 持續(xù)約100年）

微電子實現(xiàn)了自動化的IT系統(tǒng)、信息物理系統(tǒng)開創(chuàng)了第三次工業(yè)革命。（1970 - 至今）

有人說我們當今屬于第四次工業(yè)革命開端，當前智能化解決的核心問題也還是降本增效，自動化。

微信圖片_20221114132739.png

信息化是當前時代的挑戰(zhàn)，怎么讓信息流更高效地在節(jié)點之間傳播是核心要解決的問題。信息差的不對稱帶來了人與人認知上的差異，也孕育出了更多的商業(yè)機會。結(jié)果就是催生出了很多以信息流為生的新興產(chǎn)業(yè)。粗粒度看，從感官象限去分，從視覺的圖像，到聽到的聲音，到語言的理解，在最近10年內(nèi)極速擴張。一方面，依賴于IT通信這些基礎(chǔ)設施的完善，另一方面，也依賴于搜索推薦這樣的智能信息分發(fā)平臺的精準推送。

微信圖片_20221114132745.png

進一步說，從最早的內(nèi)容生產(chǎn)方式來說，整體趨勢在向「更多樣的內(nèi)容」，「更高效的生產(chǎn)和傳播」發(fā)展。多樣意味著，不再是只有權(quán)威機構(gòu)才有發(fā)聲話語權(quán)，普通人，創(chuàng)作者也可以生產(chǎn)出有意思的內(nèi)容。內(nèi)容不限于傳統(tǒng)的媒體，它變得更廣域化，碎片化，生活化。載體也從聲音圖像文本，到視頻，甚至3D影像。而高效意味著信息被更精準地推送給那些對內(nèi)容感興趣的人消費。于是就有了搜索推薦廣告智能化技術(shù)的發(fā)展。

微信圖片_20221114132749.png

于是，從「信息化」這一主題去推理，我們可以得出結(jié)論。AIGC一定是歷史的必然節(jié)點。因為它提升了信息生產(chǎn)的效率，讓內(nèi)容的創(chuàng)作變得簡單和無門檻。而隨著算法技術(shù)和芯片算力發(fā)展，它的成本會不斷降得越來越低。就好比以前的電信小靈通短信，一毛錢一條。到現(xiàn)在發(fā)微信幾乎不用錢。我們也可以類比做個想象，現(xiàn)在我們創(chuàng)作寫文章，做音樂，畫畫需要很多時間：市場需求的調(diào)研，工具的學習上手使用，事后的調(diào)整編輯等。時間和精力是最大的成本。而AI輔助創(chuàng)作會讓創(chuàng)意變得廉價。因為從創(chuàng)意到原型的實現(xiàn)變得簡單了。

然而，商業(yè)機會并不在技術(shù)本身，而在于依托于技術(shù)基礎(chǔ)之上的人、社會、生態(tài)和模式。技術(shù)起到的是一個將紅利自動化、規(guī)?；母軛U作用。你用微信發(fā)信息并不是因為它免費，而是因為你周邊的好友都在使用它，你需要與他們聯(lián)系不得不用到它。再比如，你會上淘寶買東西并不完全是因為它便宜，而是因為它能節(jié)省你自己去店里外面找東西的搜索成本。

這是因為和技術(shù)性能掛鉤的可以比價。但與人社群體驗服務掛鉤的卻難比價。比如說，同樣是語音合成服務，A公司賣60塊每小時，B公司賣50塊每小時。想使用該服務稍微有點調(diào)研能力的人就會了解到，兩家公司效果差不多，應該選更便宜的B公司。因為市面上訓練的數(shù)據(jù)差不多，算法沒多大差別，最后拼都是數(shù)據(jù)。然而，現(xiàn)在C公司做了這樣一件事，它讓語音合成服務幾乎免費，但為定制化聲音服務收費。比如說，你是一個自媒體人，有大量的錄稿需求，現(xiàn)在我們可以定制化你的聲音，讓你只輸入文字，就可以讓AI念稿。因為定制化聲音，它是專屬于你的。因你所在行業(yè)，收入水平，需求程度而變化。它是一個帶主觀色彩的事情，就很難定價。因此當你把聲音定制和合成時長打包賣時，就有更大的溢價空間。

那些潛藏在普通人共識之外，但又在大眾需求情理之中的信息差才是機會點、盈利點。

結(jié)論二：過去太低估，未來卻高估

回顧歷史你就會知道，技術(shù)一直都是指數(shù)級復利發(fā)展的。

但我們對新事物的預期會遵循一個技術(shù)成熟曲線。要不是期盼它更早到來，過于樂觀，要不就是認為它到來還要很久，過于悲觀。這是因為，我們身為人這一生物屬性，需要適應環(huán)境，天生喜新厭舊。從后往前看，你就會發(fā)現(xiàn)這個規(guī)律?，F(xiàn)在的最新出的蘋果 iphone 14 pro手機，對于5-10年前的你，你會覺得這是魔法，這是科技的奇跡。對于3-5年前，你會極度渴望想要體驗。但現(xiàn)在你會大罵蘋果越來越?jīng)]有創(chuàng)新。而這樣的感受，和10年前你拿著裝載著塞班系統(tǒng)的諾基亞手機一樣體驗過。人對數(shù)碼產(chǎn)品的反應，和對新興技術(shù)的感知共用同一套神經(jīng)系統(tǒng)。

微信圖片_20221114132758.png

早在1950年前，圖靈剛提出AI概念起，到馮諾依曼第一代計算機架構(gòu)被發(fā)明出來，到現(xiàn)今，人工智能技術(shù)一直是指數(shù)級增長的。而期間歷經(jīng)的資本寒冬，它幾經(jīng)波折，起起伏伏，最終走出了現(xiàn)今的模樣。人們對它的展望，設想，需求和預期卻一直在變化。好奇它指向更多的可能性。

我們來回顧一下2017年，現(xiàn)有技術(shù)，早在5年前，就已經(jīng)初具雛形。AI畫畫，自動生成唇形視頻，圖像高清化，圖像編輯，圖像風格遷移，wavnet語音合成等。

微信圖片_20221114132809.png

到了2018年，為降低標注成本，陸續(xù)出現(xiàn)了以預訓練語言模型為主導模型。先前是圖像領(lǐng)域的遷移學習大火，接著bert在自然語言處理領(lǐng)域出圈火遍全球研究界，到現(xiàn)今去噪自編碼器成為了一種標準的預訓練范式。這一年，神經(jīng)翻譯機，圖像分割，視覺推理，高清人臉的生成也得到了進一步發(fā)展。

微信圖片_20221114132815.png

2018年的預訓練模型大火，讓AI可以使用更多的無標注數(shù)據(jù)訓練更好的模型。這也激發(fā)了多模態(tài)多任務終身學習/元學習的研究領(lǐng)域興起。而海量訓練數(shù)據(jù)中混雜著用戶隱私問題，被加強了監(jiān)管，進而促進了支持數(shù)據(jù)保護的聯(lián)邦學習的解決方案。

微信圖片_20221114132819.png

不到3年時間，自監(jiān)督學習成為了業(yè)界的主流，機器視覺和語音領(lǐng)域開始向NLP靠齊。模型變得越來越大。其中里程碑事件便是openai發(fā)布了 175 Billion參數(shù)的GPT3。與此同時，低資源，知識增強，跨語言，跨模態(tài)，進一步得到了發(fā)展。因為它們的進展將拓寬人們更大的想象空間。

微信圖片_20221114132823.png

到2020年，以GAN為主導的深度生成模型漸漸成熟。其難訓練，易崩塌的缺陷也隨著后來研究者一步步填補上坑。海量的應用得到產(chǎn)品化，最典型的就是圖像的可控編輯，換臉換風景換裝，變動圖這些全都不在話下。但這些大開眼界的純技術(shù)產(chǎn)品并沒有支持一家足夠大的商業(yè)公司崛起。理由很簡單。技術(shù)不是商業(yè)模式。與此同時，基于流和基于擴散的另一波深度生成模型的在這時開始初見萌芽。短短一年后就成為全球吸睛最亮的崽。

微信圖片_20221114132832.png

2021年，AI最顯著的進化里程碑是MAE，視覺終于可以用NLP自然語言同樣的架構(gòu)訓練預訓練模型，再加上多模態(tài)多任務最近2年的發(fā)展，催漲了文本圖像對齊的研究高潮。文本細粒度可控生成圖像有了重要進展。而怎樣挖掘大模型的零樣本/少樣本能力，也催生出了模板工程這一新的細分領(lǐng)域。

微信圖片_20221114132837.png

簡單總結(jié)一下這五年的趨勢：

模型需要越來越少的人類世界知識干預

更少的人工標注數(shù)據(jù)
更少的任務、模態(tài)領(lǐng)域知識依賴

性能越來越好，從感知到認知的發(fā)展

模型和參數(shù)越來越大，預訓練成本越來越高
呈現(xiàn)出多模態(tài)，多任務大統(tǒng)一收斂的趨勢
技術(shù)上持續(xù)突破，產(chǎn)品創(chuàng)新和商業(yè)模式創(chuàng)新還未跟上

微信圖片_20221114132842.png

2022年今年，最近一年，究竟發(fā)生了什么。首先是擴散生成模型，它在數(shù)學上更直觀優(yōu)美，比GAN更好訓練，生成多樣性上有更大的潛力和展望空間。因此被廣泛使用，大量涌現(xiàn)

微信圖片_20221114132846.png

而大模型的訓練發(fā)布，相比于過去每一年都來得更頻繁，更具顛覆性。從最近半年來看，超出了過去一年的進展。

微信圖片_20221114132851.png

其中最顯著的是文本生成圖像模型。它成為當今媒體熱議的點。得益于clip訓練的圖像文本對齊模型，AI可以很輕松地捕獲語義中的物品描述風格空間和顏色信息，進行內(nèi)容的生成創(chuàng)作。

微信圖片_20221114132856.png

緊接著是deepmind發(fā)布的通用型人工智能Goto，它驗證了，AI可以在完全不同的領(lǐng)域的數(shù)據(jù)，在同一個神經(jīng)網(wǎng)絡訓練后，同一套參數(shù)，各自的任務都能有很好的表現(xiàn)。這也是多模態(tài)收斂的重要里程碑。

微信圖片_20221114132903.png

微信圖片_20221114132909.png

把AIGC創(chuàng)作最終推向平民化的是stability.ai推出的stable diffusion。打著AI by the people, for the people的slogen，開源免費了比openai更好的 DALL·E 2。每個人都可以在自己帶GPU的個人電腦上跑動它。打破了人們對遙不可及的大模型的刻板印象。

微信圖片_20221114132914.png

提兩個商業(yè)化落地的場景

AI作畫對藝術(shù)界產(chǎn)生了巨大沖擊，也催生出了AI輔助創(chuàng)作這一新興領(lǐng)域的發(fā)展。最典型的例子是工業(yè)設計?，F(xiàn)在你可以把任意元素和鞋子混合，激發(fā)你新的設計靈感。

微信圖片_20221114132919.png

另一個場景是AI的動捕。你可以實時地通過圖像動捕自己的表情動作去操縱任意人物（這對直播視頻會議，元宇宙場景極其有用）。但技術(shù)本身還是作為提升效率帶來便利的工具。它可以吸引你過來體驗，賺點買賣。但它單獨的售賣會陷入之前提到的比價困境。就好比stable diffusion 之于 DALL·E 2。只要有人把你的技術(shù)免費開源出來，你的買賣就一文不值。技術(shù)專利的門檻只有在高精尖行業(yè)（比如醫(yī)藥、芯片）才比較彰顯它核心價值。在產(chǎn)品應用層面，它難做大。

因此在AIGC技術(shù)熱潮興起的今天，我們尤其要保持冷靜和清醒。我們需要提前思考好，我是想做賣短信的生意，還是想做免費的微信。

微信圖片_20221114132925.png

結(jié)論三：十足的耐心

微信圖片_20221114132930.png

AIGC 對于我們是什么，以及未來會變成什么？

AI對數(shù)字化進程的貢獻可以總結(jié)為三大能力：

孿生能力。將現(xiàn)實物理世界中數(shù)字世界復刻一遍

照相機，留聲機，錄影機，打字機，midi電子琴
數(shù)碼相機，錄音機，PC word打字，midi虛擬樂器
手機（包含照相錄像，錄音，打字，社交，付款，等近乎一切功能）
虛擬數(shù)字人→基于你錄像和語音，生成你沒說過的內(nèi)容和畫面，語義理解，ASR轉(zhuǎn)錄等

編輯能力。將數(shù)字世界的化身數(shù)據(jù)進行修改編輯

音視頻的剪輯，圖像的美化，DAW 宿主軟件對音樂的編輯
圖像風格遷移，AI圖像編輯
個性化可控定制

創(chuàng)作能力

模仿學習，自動作畫，AI文案，AI編曲，AI作曲，自動音樂的生成

最近幾周，我下載了近200個app，體驗總結(jié)出了一些商業(yè)化場景。更詳細的調(diào)研和總結(jié)會另開一期細講。

微信圖片_20221114132941.png

你會看到，他們其中賺錢盈利的，幾乎沒有一個是純賣技術(shù)起家的。更多的是生態(tài)運營，面向切實的用戶需求，解決實際問題的產(chǎn)品。以新奇體驗為主的應用可能爆款（概率也不高），但較難留住用戶。

微信圖片_20221114132946.png

關(guān)于未來的變化，AIGC會存在很長一段時間的基于prompt的新的輔助創(chuàng)作模式，和新的收益模式。比如賣算力，社區(qū)交易，賣創(chuàng)意靈感。對模型期望變得更小，性能更好，效果更逼真、自然、貼近人的理解，更有沉浸感。AI慢慢可以生成更復雜的3D場景，動作序列和故事腳本。多模態(tài)之間的語義聯(lián)系會對齊得更好，更加可控。

參考了量子位發(fā)布的《AIGC深度產(chǎn)業(yè)報告》，比較有前景的方向是，現(xiàn)有需求成熟度高，但技術(shù)成熟度還差1-2年的領(lǐng)域。我國目前還未真正進入AIGC階段。即便細分賽道出現(xiàn)一些個別優(yōu)秀的公司和研究機構(gòu)，但還未進入大規(guī)模驗證和體系化發(fā)展的階段。場景上，內(nèi)容領(lǐng)域的需求也較為飽和，降本增效不迫切。細分看，虛擬人是產(chǎn)業(yè)的中短期增長動力，玩家需要容錯率高專業(yè)度和創(chuàng)意要求有限的場景。長期去看，AIGC還缺乏更加清晰和明確消費落地的場景，比如實時互動和高度個性化生成。

結(jié)尾

技術(shù)還未成熟的時候，創(chuàng)始人會告訴消費者和投資人，我們需要耐心，等技術(shù)做成熟。比如VR/AR領(lǐng)域的發(fā)展就是這樣。創(chuàng)始人說的對，但實際人們對它的預期和反應都是反過來——毫無耐心可言。因為市場就是急功近利的。

歷史的經(jīng)驗告訴我們，越是3-5年內(nèi)沒成熟的技術(shù)，我們就越應該不報期望，加大投入搶占賽道。為了避免我們未來感到失望，而對它視而不見，是遵循了技術(shù)成熟曲線，但忽略了技術(shù)一直在進步的事實。而等到它成熟了，再興起的那一波熱潮，大概率是泡沫、一地雞毛。

我們大部分人其實都無法賺認知以外的錢。為什么？因為頭雁只有一只。等到一個技術(shù)的興起，再入場，大概率就是晚了。不等你時間反應，很快會有人把可能的商業(yè)機會測試跑通。跑通了，你處于競爭劣勢，沒跑通，大概率你也不行。而你又是急功近利而選擇進場的，你又沒有耐心。

因此，越是資本新概念興起的時候，我們越需要警惕和保持耐心，做好量變的執(zhí)行準備，為下一次質(zhì)變做準備。畢竟想象力等同新的可能性，不等同于真實的需求。

互聯(lián)網(wǎng)

上一篇：Lazada雙11跨境業(yè)務首日戰(zhàn)報

原文鏈接：點擊前往 >

版權(quán)說明：本文內(nèi)容來自于元創(chuàng)悅聽，本站不擁有所有權(quán)，不承擔相關(guān)法律責任。文章內(nèi)容系作者個人觀點，不代表快出海對觀點贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章