[淺談AIGC爆炸的時代] —AI繪圖 Stable Diffusion、Mid-Journey、DALL·E 2

Published in

雞雞與兔兔的工程世界

16 min readMar 4, 2023

其實相對於ChatGPT，我自己花更多時間更沉迷的地方反而是AI繪圖的部分，
剛開始接觸Mid-Journey，生出來的圖品質讓我直接嚇到，立馬訂閱並花了不少時間在玩prompt (輸入文句)，
後來嘗試了一下Stable diffusion，直接發現新大陸，雖然一開始生圖品質沒有Mid-Journey好，
但自由度直接打開，可以自己快速的fine-tune，而且網路很多開源模型可以組合，
甚至到現在已經可以控制生圖姿勢，如果模型組合跟fine-tune的好，品質完全不輸Mid-Journey，
DALL·E 2我比較少玩，之後會再分享我玩這些的經歷給各位。

AIGC是什麼呢? AIGC全名為 AI Generated Content，即人工智慧生成內容，所以AI繪圖，AI作曲，AI回答問題都算是AIGC。
這系列主要在介紹最近最近幾個超紅的AIGC應用，ChatGPT、StableDiffusion、Mid-Journey、MusicLM等優缺點以及自身的看法。
之後也會逐一詳細介紹內部演算法以及如何應用這些工具來提高工作上的效率。
P.S. 這篇文完全沒有使用ChatGPT，全部自己撰寫的XD

先附上可愛的BIBO照片，第一張是相機拍的，後面2張都是Stable diffusion fine-tune 畫出來的，神韻真的超像，不得不說真的厲害。
❤BIBO IG 追蹤起來

AI繪圖元老 — GAN (生成對抗網路)

講到AI生圖不能不提GAN，GAN全名為 Generative Adversarial Network，Diffusion模型(現在主流軟體使用的模型)出來之前，GAN一直是AIGC畫圖領域中主要研發的演算法架構，GAN最早的模型是在2014年提出來的，當時一提出來也是一窩蜂的人開始研究GAN，Paper也是滿天飛，簡單來說GAN就是訓練2個神經網路，一個當作鑑別器，一個當作生成器(對內部演算法有興趣的可以去看我之前寫的GAN演算法NOTE)，拿生成器模型的圖片讓鑑別器模型去做辨別，互相對抗訓練最後只拿生成器模型出來畫圖。

GAN的發展並沒有不好，Nvidia發布得最新StyleGAN3也是非常厲害，但因為GAN的訓練一直以來相對困難，而且目前只能以指定的領域做生圖(例如你現在要生成人臉，你的GAN模型就只能生成人臉)，訓練難度也很高，比較知名的GAN實際應用應該就是DeepFake了，也就是網紅小玉當初鬧的沸沸揚揚換臉事件的技術。

StyleGAN3的 blend技術 source: https://arxiv.org/pdf/1812.04948.pdf

AI繪圖新時代 — Diffusion Model(擴散型模型)

GAN瓶頸了一陣子後，Diffusion Model(擴散型模型)就出現了，沒錯，也就是現在大家都在使用的應用都跟這個模型有關係，Stable diffusion & Mid-Journey & DALL·E 2 都是基於擴散型模型衍伸出來的。

其實Diffusion model的概念在2015就有Paper提出來了，在2020年才開始應用在AI生成圖片上面，而Diffusion Model的出現也慢慢的把AIGC的生圖領域推向新的時代，他的做法是在原本的圖片上輸入雜訊讓圖片變成隨機雜訊後，再利用神經網路逆向工程回圖片(之後會再做更詳細的說明)。

https://medium.com/mlearning-ai/enter-the-world-of-diffusion-models-4485fb5c5986

這邊直接來說為什麼Diffusion Model會慢慢取代GAN，Diffusion model在訓練模型上變得更加簡單，和GAN比起來不用再訓練2個模型，只需要訓練生成器就好，降低了GAN訓練的困難度，然後再搭配大型自然語言模型，就可以讓生成出來的圖片擁有很大的多樣性，短短2年就讓AIGC生圖領域推到了最高點並且產品化，這邊大致列一下重要產品應用的出現:

◆ 2021年1月 OpenAI 公布了DALL·E (沒開源)並發布論文: Diffusion Models Beat GANs on Image Synthesis，DALL·E模型是GPT-3的多模態實現 (對，就是ChatGPT前身的那個GPT-3也是發明ChatGPT的公司)。

◆ 2021年10月開源的 Disco Diffusion 出現了，後面很多產品都是基於此技術開發的。

◆ 2022年4月 OpenAI 公布了 DALL·E 2(沒開源)，OpenAI稱DALL-E 2是一個「可以從文本描述中生成原創、逼真的圖像和藝術」的模型。

◆ 2022年7月 Mid-Journey進入公測(沒開源)，Mid-Journey為disco diffusion創辦人之一參與的新計畫。

◆ 2022年8月 Stability.ai 開源了 Stable Diffusion，正式進入AI繪圖大時代。

接下來簡單介紹一下目前最夯的3款 AI繪圖軟體，如何開始以及自己使用上的優缺點跟心得(個人感受勿開戰XD)，之後會再發教學

DALL·E 2

OpenAI的 AI畫圖，也許現在不好，但我未來非常看好，畢竟微軟投資了那麼多錢XDD

先附上連結: https://openai.com/product/dall-e-2 (跟ChatGPT同個帳號登入就可以直接試用了)

DALL·E 2 為Open AI Release的最新的AI 畫圖軟體，只要輸入文本text，就會生成與文本高度相關的圖片，新註冊的會員會送50點，每個月會再給你14點，每一點可以針對"一次"text生成4張圖。

輸入"cute poodle dog with Eiffel tower in the background"出來的結果

DALL·E 2優缺點 (個人經驗):

優點:
◆ 他有一個很棒的功能 - Outpainting，可以幫你把你原本的圖像向外繪圖，假設你要從512x512到1024x1024，它可以幫你把其他的pixel都畫出來，這功能大概是我覺得DALL·E 2唯一最有特色的優點，因為Text生成文本出來的圖都遠遠不及其他2個軟體…

DALL·E 2 Outpainting 功能 (BIBO怎麼長出長尾巴了...)

缺點:
◆ 就是文本生出來的圖片真的不行，跟另外2個比較起來真的沒法比...
◆ 無法Fine-tune 模型，自由度相對低。

Mid- Journey

吳淡如AI電繪炎上事件的主角，簡單暴力唯美生圖器

先附上官網連結: https://www.midjourney.com/
Mid-Journey的使用必須經由Discord機器人才能做使用，所以要申請Discord帳號並加入Mid-Journey server才能使用，這邊我做了一個流程圖介紹一下怎麼註冊並使用，關於一些指令使用可以先參考這篇，這是我之前寫的英文介紹，之後會再寫一篇中文的在這裡XD

Mid-Journey 為Mid-Journey開發的文本生成圖的模型，推測底層技術應該是基於Stable diffusion，是由Leap Motion的聯合創始人 David Holz 領導，也是disco diffusion創辦人之一參與的新計畫，只能使用discord機器人進行繪畫(我猜這樣做的方式是因為避免別人反向對接API，並且可以保護模型不外流)，Mid-Journey持續再改進演算法，目前已經到V4了，生圖的品質真的沒話說。

Mid-Journey 優缺點 (個人經驗):

優點:
◆ 畫出來的圖品質真的很好，輸入Prompt就可以生出一些很精美的圖，而且不會破圖，玩一次就會開始上癮了，就算你不會太複雜的Prompt，你也可以直接把簡單直觀的文字輸入進去，他也會給你一個很夢幻精緻的圖，不需要做fine-tune，只需要專心無腦把文字輸入進去，這也是為什麼MJ到現在還是比SD還要更多人更大眾的原因。
◆ 各種風格都可以生成，不論是真實、動漫、水墨各種風格都可以生成，而甚至可以叫他幫你設計貼圖還有UI design... LOGO跟ICON都可以，我會在寫一篇教大家我這邊的經驗，以下是我之前玩MJ生出來的一些結果。

BIBO變成機器人(還真有點不像)，後面的那2個機器人真的有夠帥，而且細節真的超精緻

LINE 貼圖，Landing page UI design，LOGO DESIGN

缺點:
◆ 很難控制生成出來的圖片，假設你要做漫畫的話，漫畫主角必定會是同一個腳色，但MJ很難去控制這點，即使你下的都一樣的Prompt，但每次出來的腳色還是會有差異，MJ在控制生成圖片上相對比較弱一點也比較限制。
◆ MJ在生成臉部特徵上會比較差一點，很多時候出來的臉都是破圖的，甚至在手腳的表現上也相對差一點，這應該是AI 繪圖都會遇到的問題，不過在SD上已經有一些模型已經解決這個問題了，甚至SD上還有Inpainting功能可以做修圖。
◆收費貴貴的，目前免費的只能生成30張圖，30張圖之後就不能使用就要收費了，基本方案：10 美元/月標準方案：30 美元/月進階方案：60 美元/月。

Stable Diffusion

自由自在無止盡沒極限的AI繪圖工具，AI繪圖界的薩爾達傳說曠野之息(?

這邊我就先不教大家大家怎麼使用了，因為SD使用需要一些硬體門檻(需要GPU Memory)以及比較複雜的安裝流程，我之後會再做詳細的使用教學以及一系列的技巧。有興趣想先試的可以先去YT搜尋，上面已經有很多的教學影片。

安裝好的Stable diffusion web-ui，也是目前大家都在使用的介面

Stable Diffusion 是由初創公司StabilityAI，CompVis與Runway合作開發的開源軟體，可以在自己的Local 電腦上部屬運行 (MJ跟DALL·E 2都還在雲端)，一直到2022年10月，StabilityAI已經籌集了1.01億美元的資金，現在己經是獨角獸公司了。

輸入”photo of bibo dog with Eiffel tower in the background”出來的結果

Stable Diffusion 優缺點 (個人經驗):

優點:
◆ 自由度高到爆炸，因為全開源的關係，各方大神開始開發各種工具跟演算法，不論是fine-tune模型工具Dreambooth & LORA，只需要3~5張圖片就可以fine-tune (BIBO我找了10張左右進行fine-tune)，可以依據自己的dataset進行模型訓練讓出圖的時候生成相同物件跟Style，還有video 生成工具，最近還有突破性的ControlNet ，可以在出圖的時候姿勢、深度等，完全沒有極限的工具跟演算法持續更新，我相信AI繪圖現在的限制之後都會有大神開發出新的工具而去突破的(我乖乖等大神突破XD)。

Dreambooth & LORA fine-tune : https://dreambooth.github.io/

Control Net : https://github.com/Mikubill/sd-webui-controlnet, 可以控制場景跟姿勢

LORA Training with BAYC style model (我自己好奇fine-tune的XD)

◆ In-painting & Img2Img功能，可以在圖片上畫mask然後只改變畫mask的地方，In-painting功能加上文本生圖功能，基本上多做幾次修圖就可把破圖的當方修好，手指少一跟的問題也可以用這種方式修改正常，SD能玩的地方真的很多。

可以針對某個區塊做更改，https://www.techbang.com/posts/101071-stable-diffusion-erase-replace

缺點:
◆ 硬體限制，要做fine-tune硬體設備至少要GPU Memory 8G以上，VRAM至少要10G以上，做一般的prompt 生圖至少需要GPU Memory 4G以上，當然也可以使用CPU做一般生圖，但生圖速度就會慢很多。

關於AI繪圖的想法

AI繪圖這件事一直充滿著爭議，有很多人說AI繪圖會取代電繪的繪師，也有很多人說AI繪圖不會，更有人說AI只是工具，不會工具的繪師會被淘汰，一直都有不同的說法也一直在爭吵，關於這件事我無法做任何評論跟想法，畢竟我不是專業的繪圖師，不過目前確實有看到一些公司已經開始在徵 "Prompt工程師"，以及"AI繪圖工程師"的職缺，目前來看，AI繪圖確實已經開始被更多公司越來越重視了。

不管要不要抵制都絕對不能無視

這是我的想法，以我自己使用的經驗來說，像我原本不會電繪的人，也可以開始可以利用這些AI工具來提升我的工作效率甚至做到我之前做不到的事情
1. 使用這些AI工具幫我畫landing page，並幫我設計UI框架，以框架為模板去製作網頁。
2. 網站跟電商的LOGO快速製作。
3. PPT插圖跟ICON的快速製作(不用再花太多時間Google或是要找付費ICON)。
4. NFT attributes 製作。
5. 廣告宣傳文案圖片製作(結合ChatGPT)。

雷亞AI設計徵才 source: https://www.104.com.tw/job/7x16b?jobsource=cs_2018indexpoc

整理一下AI繪圖的重大爭議事件

2022年8月，日本繪師在在社交平台上抵制Mimic平台未經授權使用畫師素材，只開放1天後就關閉了，Mimic 是一個主打二次元繪圖的平台，只要使用者上傳15~30張圖片就可以學習畫風、特徵畫出相同圖片。
2022年8月，美國人艾倫（Jason Allen）帶著作品《太空歌劇院》（Théâtre D’opéra Spatial）參加科羅拉多州博覽會（Colorado State Fair），抱走冠軍與300美元獎金，此作品是Allen使用Mid-Journey做出來的，繪師們一致抗議，最後主辦方承諾將在之後的評選中增設AI繪畫相關的獎項，卻沒有把獎項重新頒發給某個人類畫師。
2022年9月，NovelAI被發現其訓練資料Danbooru為非法的圖片搬運網站，許多圖片多來自 pixiv 跟推特的繪師二創、原創作畫，其畫出來的AI圖還自帶簽名，繪師們開始炸鍋。
2022年11月開始，眾繪師開始在知名藝術平台Artstation 抵制AI繪圖，眾多繪師開始上傳"NO TO AI GENERATED IMAGES"的圖片到Artstation，最早是一位保加利亞藝術家“Alexander Nanitchkov”自發在A站上傳了這樣一張“抵制AI”的圖，得到不少藝術家的支持和轉發，結果A站刪掉了這張照片，繪師再度炸鍋，經過一度又一度得抵制，最終以ArtStation的幾個簡單承諾而告終（會上線AI繪畫專區）。
2023 年 1 月，三位藝術家：Sarah Andersen 、Kelly McKernan 和 Karla Ortiz 對Stability AI (Stable diffusion)、Midjourney 和DeviantArt提起版權侵權訴訟，聲稱這些公司通過在 50 億張圖像上訓練 AI 工具侵犯了數百萬藝術家的權利未經原作者同意從網絡上刪除。