本文包含了 ChatGPT(GPT3.5-Turbo)生成的内容,但并非全部照搬。
人工智能技術在發展,AI 繪畫這一領域也受到社會各界關注。其中的 AI 繪畫,自 2022 年底開始,作為一項富有爭議的新興技術,就觸動了不少人的神經。然而,許多針對 AI 繪畫發表自己見解的人,在對 AI 繪畫原理的誤解上就產生了很多偏差。其中最為常見的一個,是認為 AI 繪畫只是簡單地把畫師的作品拼合而成,最多在接縫處用所謂的技術平滑處理一下,沒有任何獨創性和創造力。這種想法,既是對嚴謹的科研精神的背叛,也是對實事求是的藝術精神的羞辱,無論對於 AI 繪畫還是對於傳統藝術的研究和發展都不利,因此,具體說說以 Stable Diffusion 為首的一批 AI 繪畫的原理,還是十分必要的。還要補充的是,Stable Diffusion 雖作為 AI 繪畫中最先引起轟動的那個,卻並不是現代 CS 界最先進的繪畫程序,尤其在非人物方面,Midjourney 可能更勝一籌。
Stable Diffusion 官方倉庫 NovelAI 官方網站 Midjourney 官方網站
首先,我們需要承認,固有的思維方式,無疑會引導我們對於 AI 繪畫的產生不同的立場、認知。對於習慣了傳統思想的人而言,認為 AI 繪畫只是簡單地將畫師的作品拼合起來是非常自然的想法。因為他們的思路已經固定,在看到大量的標準化、批量複製傳統藝術或商業化藝術的美學後,將 AI 繪畫自然地當作傳統藝術的延續,因此難以從根本上理解 AI 繪畫的形式與意義。這種固有的觀念禁錮,讓他們局限在傳統的藝術框架內,很難看到 AI 繪畫的全新解構和超越。而拼圖的這一種觀點,就是舊觀念和一種半瓶水的學習態度所共同造成的惡果,或者是別有用心之人面向公眾散播恐慌的方式。許多畫師輕易地相信 AI 繪畫是拼圖,也是因為拼圖作為一種經典的抄襲手段,正好和 AI 的版權爭議這一不爭的事實相吻合。
然而,我們也不能否認,AI 繪畫確實存在一些缺陷。對於繪製某些特定對象方面,AI 繪畫依然存在一些局限性,不如人類藝術家靈活多變,難以自然地表達出情感和情感細微的表情,難以刻畫具體事物,如畫手、畫面條。同樣,AI 繪畫的創造也不是完全獨立的,它們需要提取先前的畫作來進行學習和模仿,因此存在著一定的 “套路化” 和 “創意受限”,且因為訓練集裡的內容侵犯版權甚至人權,這些作品還要面臨複雜的輿論風暴和法律爭議。但是,這並不能夠說明 AI 繪畫只是單純的拼接,或者如某些人所想,是所謂的 “煉丹” 工藝。恰恰相反,這更加體現出,AI 是難以妄下定論的複雜工業品,它們可以通過加強自學習及深度學習的算法,無限接近於人類的思維和表達,在發展中更加自然地表達出 “情感” 與 “意境”—— 因為若只是簡單的拼圖,那對於那些手、面條等元素,又怎麼會變得模糊不清呢?難道是 “原圖” 本來就很模糊而一筆帶過嗎?想想,大抵是不會的。面對不曾了解過的技術,與其胡謅一通,揣測它的內部原理,還不如把它當成簡單的 “黑箱子”,這樣都比胡編亂造來得實在一些。
邏輯的論證是空虛的,然而,真的落到實處來看,Stable Diffusion 的官方倉庫中已經闡釋了其內部具體的工作原理。只是涉及了很多專業術語,而 “拼圖” 則是一個錯誤的過度簡化。Stable Diffusion 的本質,在生成的時候其實是一種降噪算法。可以理解為是讓不清楚的圖片變得清楚的一項 “黑科技”。一個形象的比方是,到了冬天,窗戶上凝結了許多水汽,窗外的世界都變得模糊了。而這就是 Stable Diffusion 生成一張圖片時第一步所做的 —— 它通過 NLP(自然語言處理)分析用戶的提示詞,並根據這一訊息生成模糊至極的色塊,就好像玻璃上厚重的霧。但通過對噪聲圖像進行多輪迭代,也就是拿一張紙去擦玻璃,逐漸就能生成分辨率高、真實感強的圖像。這個紙就是一切 AI 中經常出現的一項技術,“梯度下降算法”,以它的力量來擦掉名為 “圖片噪音” 的霧。在數學上,用初中的知識來解釋,就是去找一個開口向上的函數圖像的頂點,譬如是一個二次函數,那它的定點橫座標就是-b/2a
,原理都是相似的。只是計算機所處理的這個函數,不像初中學的那些函數,只有一個參數。相反,它可以有幾億個參數。憑藉著 CPU 或 GPU 的強勁算力,計算機得以將一個特定的損失函數最小化,也就是一步步逼近某個 n 次 n 維函數的最低點,從而生成出與特定輸入條件相匹配的圖像。
Diffusion 的英文原意是 “擴散”,這就是這個 AI 的本職工作。(Stable 則是自賣自誇,形容穩定。)這個過程中涉及圖像具體處理的部分,首先是需要準備一個噪聲圖像。該圖像包含了一些隨機噪聲的元素,並且極不清晰;而這個圖像的生成,就是根據 NLP 對用戶提示詞的處理結果和一些隨機數而從訓練集中選擇的。其實和人類繪畫的過程並無大差,只是迭代的次數要多得多了 —— 人類繪畫是要打草稿的,這個噪聲圖像就是 AI 的草稿,AI 就像人一樣在這個時候便會確定什麼地方該有什麼,它該是什麼顏色的。然後,利用一個深度神經網絡(這個網絡的形成當然也是依靠大量的圖像訓練,對其中的權重、參數進行調整)對其進行迭代,每一輪迭代都會對噪聲圖像進行 “擴散”,即將它轉化為一個更加細致、複雜的圖像。所以擦窗戶的紙或者布也正是用那些圖片揉合起來造的。在每一輪迭代後,也會通過數學函數來評估生成的圖像的質量,並根據反饋調整進行下一輪迭代。
由此可見,Stable Diffusion 的原理也沒有那麼邪惡,至少不是明目張膽的狂抄。但這也並不是說用 Stable Diffusion 所製作的作品可以聲稱完全的版權,並接受來自法律的完全保護。這個問題實際上應該深發到更高的層面上,是關於版權本身的拷問。因為 SD 的原理是否可以看作和人類相同的一種學習行為,所以產生的作品可以主張完全版權,還是應該看作一種技術實驗,一種產品,注定只能被放到公共領域裡,作為 CS 愛好者的小眾愛好,且嚴禁商業使用?
但無論如何,我們也不能忽視 AI 繪畫的實際價值,不能對 AI 繪畫簡單的選邊站。通過 AI 繪畫,我們可以大大提高數字制圖和算法繪製的效率,加快科技進步的步伐;通過 AI 繪畫,小創作者可以越過知識和資金的限制,為自己的作品提供更好的創意,可以籌得一些捐款(不是直接用 AI 繪畫盈利),獲得選擇人類畫師來更好合作的自由,推動藝術的發展到一個全新的階段。同時,AI 繪畫也將賦能技術,給 CS 帶來新的機遇,有利於完善計算機這一偉大的互聯網工具。
綜上所述,我們在理解和認識 AI 繪畫的時候,要有辯證的思考方式並比較分析。我們不能只看到其局限性,也不能過分誇大其優勢和實際價值。許多 CS 工作者已經發現,2022 到 2023 年的這些爆炸式增長的 AI,在原理上其實沒有什麼創新。它們只不過是運用了更大、更大的訓練集,僅此而已。無論有多大的阻礙,AI 也會不斷進化發展,技術的迭代也勢必對藝術產生諸多影響。同時,也應該尊重傳統的藝術創作者,藝術不是工業,而是人類對美好事物追求和一種社會手段。推進人工智能和文化藝術的共同發展,才是今後最有可能的主流聲音。