NovelAI 最終章

邁向賢者之路

Anson Chen

Published in

SnowyMeteor

Oct 26, 2022

Preface

初次接觸 NovelAI 的時候，對我來說就是個有趣的應用，未曾想過會將這些心得和使用經驗撰寫出來。

促使我撰寫出一系列文章的動機，說來也是有趣，只是當時腦中閃過的一絲想法：「如果這東西只有我知道，豈不是太可惜了嗎？」，真想讓大家都能嘗試玩看看，於是便誕生了第一篇文章。

NovelAI 入門介紹

寫完第一篇，靈感便不斷泉湧出來，發現有很多知識都可以分享，雖然我明白，實際操作的讀者也許是寥寥可數，但仍不影響我努力撰寫每篇文章的動機，因為個人希望能推廣的不僅是技術，更期盼能吹起知識共享的風氣。

POV

相信各位在實作過後，應該多少都瞭解模型的優缺點和極限所在，stable diffusion 固然令人驚豔，但仍有許多可以進步的地方：

人物手指的刻畫

在先前的文章中，細心的讀者可能會注意到，我挑選的範例內容，鮮少納入含有手部動作的圖片，是因為訓練至今，即便給予足夠多的咒語和限制咒，但模型仍然無法漂亮地重現手部作畫，我想這應該是目前的極限所在，若未來納入手部姿態的資料集一併訓練，相信就能改善許多。

背景與人物的色塊重疊

在 img2img 階段，如果輸入的背景顏色，與人物角色的衣著或膚色相似，如：夜晚背景加上黑色系衣著，模型就無法有效定義人物與背景的邊界，造成色塊重疊，可能會召喚出異世界生物，因此挑選 fine-tune 的圖片時就得多加留意。

背景精細度

無論是 txt2img 或 img2img，模型繪製背景的功力還有所不足，個人推測是因為模型將權重放在人物的刻畫中，自然就忽略了背景資訊。即便給予咒語更多的權重，但在精細度的呈現上，還是容易出現類似水墨或暈染的繪法，不過主體輪廓還是能夠辨識背景物件。

召喚的品質穩定度

由 txt2img 召喚獲得的圖片，雖說看起來都有一定的品質，但背後是花費了大量時間，來重新召喚和調整，最後才被選為範例來講解。若各位有嘗試實作過，應該就能瞭解，在不使用既有 Seed 的情況下，要短時間召喚出高品質的圖片，真的相當考驗運氣，期望在未來開發團隊能夠訓練出更完整的模型，這個問題勢必能迎刃而解。

講完缺點，現在就說說模型讓我感到驚豔的地方。

以下透過圖片來分享看法：