獨立開發(fā)者分享：我是如何用AI做美術(shù)參加游戲Game Jam的？

來源：GameLook

作者：GameLook

時間：2022-11-22

在沒有美術(shù)師的情況下，使用AI研發(fā)一款游戲會是怎樣的體驗？最近，一位開發(fā)者講述了自己通過Stable Diffusion制作游戲參加game jam的經(jīng)歷

今年以來，AI作畫已經(jīng)多次引起了業(yè)內(nèi)關(guān)注，并且不乏Stability AI這樣拿到上億美元融資的AI“獨角獸”。

那么，在沒有美術(shù)師的情況下，使用AI研發(fā)一款游戲會是怎樣的體驗？最近，一位開發(fā)者講述了自己通過Stable Diffusion制作游戲參加game jam的經(jīng)歷。

微信圖片_20221122101825.jpg

以下是編譯的全部內(nèi)容：

我和我的團隊在沒有美術(shù)師的情況下制作了一款注重精美圖形的游戲。

一周前，我和團隊再次參加了Siberian Game Jam，我們決定嘗試制作一款游戲，其美術(shù)完全由神經(jīng)網(wǎng)絡(luò)生成。簡單來說，這次體驗是成功的（你可以在鏈接中看到我們的游戲），同時，有很多同行要求我更詳細(xì)地講述使用神經(jīng)網(wǎng)絡(luò)研發(fā)游戲的過程。

所以我告訴你，包括談?wù)撍麄冞m合和不適合的地方。從考試開始，我已經(jīng)有兩個月的時間直接研究他們的能力，希望這對你來說足夠了。我將嘗試使材料非常有創(chuàng)意。

關(guān)于使用的AI畫圖

你們可能都已經(jīng)知道了這些神經(jīng)網(wǎng)絡(luò)的名稱，但為了以防萬一，我這里重述一下：

OpenAI的DALL-E是第一個大規(guī)模做神經(jīng)網(wǎng)絡(luò)的，很多技術(shù)都是在它的基礎(chǔ)上進行提升。但由于長期處于半封閉狀態(tài)，并不是所有人都能輕易訪問這個工具，而且它的功能比較少。

Midjourney是最近比較出名的一個，確切的說，它更像是“神經(jīng)網(wǎng)絡(luò)當(dāng)中的macOS”，因為開發(fā)人員花費了大量精力來確保其使用盡可能簡單、愉快和有效。它的界面簡潔，生成的所有結(jié)果都可以瞬間以相框形式掛在墻上，目前主要通過 Discord 中的機器人工作。

Stable Diffusion更像是“神經(jīng)網(wǎng)絡(luò)世界里的Linux”，這是一種完全開放和可訪問的技術(shù)，你可以得到開放數(shù)據(jù)、開放技術(shù)的培訓(xùn)，并得到社區(qū)等方面的支持。因此字面意義上來說，它每天都有重大更新、完全控制和對用戶資格的巨大要求，因此可以修復(fù)錯誤安裝的庫或由于某種原因上傳到 master 分支的錯誤而回滾到以前的版本。今天我們主要講的也是它。

如何安裝以及需要什么

如果你想在你的電腦上運行 Stable Diffusion，你需要：10GB以上的可用磁盤空間、4GB以上穩(wěn)定運行內(nèi)存。其他要求達到中高水準(zhǔn)即可，這樣你生成圖像的速度就是以秒計算，而不是幾分鐘。

另外，懂英語，至少對git、python和pip有粗淺的了解將是一個很大的優(yōu)勢。

如果沒有這些，還可以在云中使用Stable Diffusion，例如在免費的Google Colab（每天最多 6 小時免費使用）或任何其他已經(jīng)付費的服務(wù)（平均每小時2美元）中。

社區(qū)現(xiàn)在正在積極開發(fā)許多使用神經(jīng)網(wǎng)絡(luò)的服務(wù)，但最受歡迎和最快上手的是來自用戶AUTOMATIC1111 ，所有安裝說明都可以在說明中找到。

它能做什么？

如果覺得這只是一個有趣的圖像生成軟件，那么現(xiàn)在已經(jīng)不再如此：它的可用功能列表已經(jīng)有幾十種，包括重繪、繪圖、應(yīng)用樣式、生成變化、混合圖像、生成循環(huán)紋理，矢量圖和高度圖，4種額外訓(xùn)練方式和10種放大方式，還包含了不同架構(gòu)上20個獨立神經(jīng)網(wǎng)絡(luò)的所有功能。因此，所有需要以某種方式處理圖形的人都可以使用它。

為了說明它的工作原理，我們將圖像和特定文本輸入到神經(jīng)網(wǎng)絡(luò)的輸入中，神經(jīng)網(wǎng)絡(luò)根據(jù)大致與文本相關(guān)的關(guān)聯(lián)一步一步地轉(zhuǎn)換圖像。使用彩色噪聲從零開始生成圖像，但可以將任何東西放在那里而不是噪聲中。

微信圖片_20221122101840.jpg

程序界面，頂部有基本功能的選項卡和用于輸入請求的字段，中間有很多設(shè)置，底部（腳本）有很多隱藏的非常有用的功能

界面中提供了三個主要功能：txt2img（文本到圖像）、img2img（圖像到圖像）和 inpaint（通過遮罩重繪圖像），其他一切功能都是基于這三個的變體。

界面中有很多復(fù)選框，但需要了解的最重要的是工具所有功能中使用的三個最基本的參數(shù)：

Sample steps（步數(shù)）：神經(jīng)網(wǎng)絡(luò)將處理圖像的步數(shù)。簡而言之，步數(shù)越多，圖像就越清晰。

CFG Scale（分類器引導(dǎo)的程度）：跟隨神經(jīng)網(wǎng)絡(luò)方向的程度越多，神經(jīng)網(wǎng)絡(luò)越會為了匹配文本查詢而犧牲圖片的內(nèi)部結(jié)構(gòu)。

去噪強度（消除噪聲的程度）：生成結(jié)果與原始輸入圖像的差異程度，僅在編輯圖像時使用。

在最基本的形式中，這個工具很容易使用：用英文寫一個請求，也就是輸入你想要生成什么，設(shè)置必要的參數(shù)，點擊“生成”，幾乎立即你就會得到結(jié)果（PC配置高速度會更快）。

如果這對您來說還不夠，我建議您注意詳細(xì)的函數(shù)列表以及它們的具體解釋、附加插件和腳本。

不能做什么？

然而，與許多其他工具一樣，Stable Diffusion也有許多限制，使用之前最好有所了解。

首先，神經(jīng)網(wǎng)絡(luò)不了解現(xiàn)實世界中的任何知識。她不會數(shù)數(shù)，不了解生物的生物學(xué)特性，不了解邏輯和事實基礎(chǔ)，它只能模仿她以前見過的東西，對她來說成功的主要指標(biāo)是屏幕上的顏色比例。

其次，即使該工具有一個輸入單詞的字段，你也不要覺得神經(jīng)網(wǎng)絡(luò)能理解你寫給它的單詞，它并不明白。閱讀這個鏈接中的信息，你會了解更多重要的事情。需要補充的是，培訓(xùn)數(shù)據(jù)是通過自動且?guī)缀醪皇芸刂频姆绞綇幕ヂ?lián)網(wǎng)上收集的，因此質(zhì)量不是很高。

社區(qū)仍在試圖了解某些詞會如何影響生成結(jié)果，并找到了相當(dāng)意外和不可思議的發(fā)現(xiàn)。順便說一句，你可以通過這本指令電子書查到相關(guān)的指南，能夠看到其他人使用了哪些標(biāo)簽以及用于什么目的。

微信圖片_20221122101848.jpg

神經(jīng)網(wǎng)絡(luò)不理解上下文的一個非常著名且非常有趣的例子：輸入“河中的鮭魚”得到的結(jié)果是一塊鮭魚肉，而不是一條成熟的活魚，對此你要有準(zhǔn)備。

第三，神經(jīng)網(wǎng)絡(luò)沒有記憶。它不記得5分鐘前做了什么，5分鐘后也不記得現(xiàn)在在做什么。制作均勻的圖像仍然是一項艱巨的任務(wù)，盡管已經(jīng)解決了，但在這個工具中還沒有這樣的功能。

第四，神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是由真正的計算機上的活生生的人來完成的，而神經(jīng)網(wǎng)絡(luò)本身仍然是為在普通機器上運行而設(shè)計的產(chǎn)品，因此它的權(quán)重和訓(xùn)練數(shù)據(jù)有限。當(dāng)你發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)不知道有多少東西時，你會感到驚訝。是的，這是通過額外訓(xùn)練來解決的，但這仍然是一個漫長而乏味的過程，與反復(fù)試驗密切相關(guān)，只是剛開始是行不通的。

在這方面，（到目前為止）神經(jīng)網(wǎng)絡(luò)肯定無法為你代替一個真正的藝術(shù)家。到現(xiàn)在為止，這雖然非常有創(chuàng)意和有趣，但卻像是一個外星人，你需要多學(xué)習(xí)以找到共同語言，并且很難做到自己想做的事。這是有原因的，就像那些真正使用它繪圖的人，說這個工具更適合快速草圖和一般靈感，而不是作為成熟的工業(yè)用途。

微信圖片_20221122101854.jpg

但她畫了很棒的概念……

如何使用

首先，我們立即決定我們將使用神經(jīng)網(wǎng)絡(luò)生成所有藝術(shù)作品，因此這給我們帶來了一定的類型限制：我們必須制作一款可以使用大量平面藝術(shù)圖形的游戲。很快我們就找到了類型，那就是點擊型任務(wù)。神經(jīng)網(wǎng)絡(luò)主要用于繪制背景，但也可以用于繪制人物和物體。界面和動畫已經(jīng)都是我們自己完成。

我們首先決定了視覺設(shè)計，我們想要一些很棒的東西，但又簡單、而且調(diào)色板很小。我們通過關(guān)鍵字生成了幾個概念藝術(shù)，選擇了我們最喜歡的一個并從它開始。我們花了很多時間才找到合適的關(guān)鍵詞，它們讓藝術(shù)繼續(xù)保持高質(zhì)量和相似性，但并不總是奏效（例如，貓屋的背景顯然像一幅水彩畫，盡管有大量關(guān)鍵字描述，但最好不要這樣做。）下面是我添加到所有圖像的指令，除了基本指令。

從表面上看，神經(jīng)網(wǎng)絡(luò)似乎完全取代了人類的勞動，但事實并非如此：它需要一個操作員不斷地將其引導(dǎo)到正確的方向，這實際上是一項獨立的工作，盡管這比自己畫藝術(shù)要簡單得多。有時，我不得不坐在那里幾個小時，反復(fù)按下“生成”按鈕，以獲得至少足夠符合要求的藝術(shù)，而當(dāng)計算機忙（我的神經(jīng)網(wǎng)絡(luò)占用了計算機的大部分資源）時，做其他事情并不是很好。需要注意的是，神經(jīng)網(wǎng)絡(luò)不能一次生成多個圖像（最多16個圖像）。

典型的背景生成算法如下所示：

通過不斷選擇參數(shù)，通過txt2img生成10-30個初始圖像。

選擇你喜歡的一個，與團隊成員一起批準(zhǔn)，發(fā)送到補丁。

通過不斷選擇參數(shù)，為擴展圖像生成10-30個選項，因為我們需要寬背景，我們可以通過 img2img + outpainting在上面移動很長時間（主要使用1792×768和更寬）。

通過不斷選擇參數(shù)，通過inpaint重新繪制圖像中所有你不喜歡的東西，同時在圖形編輯器中勾勒出這些細(xì)節(jié)，為神經(jīng)網(wǎng)絡(luò)提供必要的指導(dǎo)，究竟需要繪制什么，因為只有一個文本查詢是不足夠的。對于每個部分，平均要嘗試50次。

最后，每個背景至少需要一個小時的單調(diào)工作。

微信圖片_20221122101901.jpg

房子的初始版本，以測試所需的藝術(shù)設(shè)計

大部分時間都花在了房子的藝術(shù)和貓屋的內(nèi)部：花了很多時間來找到既符合物理定律又符合彼此的內(nèi)部和外部藝術(shù)。光是畫門口就花了半個小時，門洞不希望變成矩形，也不想變成同步透視，同樣的時間也花在樓梯上（因為樓梯總是靠在空墻上）。

微信圖片_20221122101904.jpg

屋內(nèi)同樣的藝術(shù)

通常，您在工作過程中會經(jīng)常遇到一個有趣的神器：物體只進入圖像的一半。這是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的一個特點：它是在只有512 * 512大小的圖像上訓(xùn)練的，任何不在這個框架中的東西都是在為學(xué)習(xí)準(zhǔn)備數(shù)據(jù)庫的過程中切割的。

另一個非常常見的問題是一些你想要替換的小細(xì)節(jié)，但你無法向神經(jīng)網(wǎng)絡(luò)解釋你想要什么：通常在圖形編輯器中自己繪制幾次比按“生成”幾十次更容易，等待神經(jīng)網(wǎng)絡(luò)隨機計算出來，不要為這種方法感到羞恥。

這同樣適用于當(dāng)您生成多個要替換的圖像時，其中一個細(xì)節(jié)在第一個圖像中看起來很好，另一個細(xì)節(jié)在第二個圖像中，將兩個選項復(fù)制到圖形編輯器中并在需要時合并非常方便，它會為你節(jié)省很多時間。

我通常很喜歡圖像的一般概念，但不喜歡用它來實現(xiàn)：對于這樣的實現(xiàn)，生成了相似的圖像也有很大幫助。例如，這只貓是根據(jù)從互聯(lián)網(wǎng)上截取的圖片重新繪制的，起初我們只是想看看結(jié)果如何，但我們非常喜歡它，所以我們決定保留它。關(guān)于資源盜用的問題，貓畫風(fēng)完全不一樣，表情不一樣，衣著也不一樣，只是比例和事實用了之前的東西，所以這種做法是很方便的。但這仍然是一個孤立的案例，通常我們會嘗試從頭開始生成所有內(nèi)容。

最后，當(dāng)繪圖或多或少準(zhǔn)備好時，通過升級神經(jīng)網(wǎng)絡(luò)進行圖像清理和細(xì)節(jié)化會比較好，但由于時間不夠和麻煩，我們就這樣把它們?nèi)舆M去了，此外，我仍然沒有弄清楚哪個升頻器更適合在什么情況下和什么設(shè)置下使用。

結(jié)果，在三天的工作中，在游戲的自由編程時間里，我能夠為游戲生成15個背景和5個角色。下面是畫廊的例子。

微信圖片_20221122101909.jpg