關於寫作那些事 - 用Google Gemini來生成《魔都妖探》主角群設計圖 (圖多)

　　如果有跟伍德《魔都妖探》更新的朋友，應該會注意到上一次(Case 10-7；點我)的更新中，伍德又換了個AI生圖引擎。從一開始用Stable Diffusion、Bing內建的Dall E-3、Google推出的ImageFX，甚至是出圈的ChatGPT的生圖功能*1。而伍德最近使用的，是整合在Google的AI，Gemini中的功能。

130Please respect copyright.ＰＥＮＡＮＡ6tE4pMZoPw

　　前幾年AI開始發展時，還有人半調侃半認真地說會出現「AI溝通師」、或甚至「AI詠唱師」的行業。事實上若直接從比較底層(比較接近原始程式碼)的Stable Diffusion切入，要做到光影自然、沒那麼塑膠，或甚至是很客製化的生成，確實還是需要一些功夫、也不是很容易入門。然而，AI生成技術的演變之快，已經讓沒有程式背景的一般人的門檻降低不少。

130Please respect copyright.ＰＥＮＡＮＡMXJYn1p7l4

　　有一陣子伍德喜歡用的Dall E-3好處和壞處蠻一體兩面的：已經可以用自然語言下指示(寫文章的方式)，很有創意、上色也很接近電腦動畫的感覺。然而因為太有創意，有時不會照著提示詞生成；能指示的細節也不多，數量也很容易亂掉(例如桌上擺著兩盤蛋糕，蛋糕的數目常常會爆走)。Google的ImageFX在能指定的細節數目上感覺有變多，而且也對提示詞的理解度比較細膩，整體風格像是2000年附近剛開始電腦作畫那陣子的味道。後者對台港用戶的問題是──目前並沒有對台港IP開放，必須翻牆到美國或澳洲等地(伍德在日本倒是能用)。

130Please respect copyright.ＰＥＮＡＮＡntARwDRKxB

　　然而，以上的生圖軟體對創作者有個最致命的問題：每生成一個場景、生成一個人物就結束了，沒辦法帶到下一張或生成其他圖片。ChatGPT在這方面稍稍補救了這個問題，甚至生成四格漫畫的功能有陣子蔚為風潮。而Google則用旗下的引擎，大抵是整合了ImageFX，讓Gemini也支援生圖的功能。更重要的是，已經可以生成人物設定圖、不同的表情，甚至是指定人物、並讓其在各種場景做各種事情。對於在小說中需要插圖的作者來說簡直是不可多得。

130Please respect copyright.ＰＥＮＡＮＡuSqFF6vOxh

　　使用Google Gemini唯一需要的就是Google帳號，相信這篇文章大多數的讀者也都有了。那麼今天就讓伍德給各位看一下整體的感覺。

130Please respect copyright.ＰＥＮＡＮＡjz2k1CM1OM

　　例如將伍德幾年前寫的人物介紹(點我)裡，賀輔的外表部分輸進Gemini，同時提醒這是部帶有日系輕小說味道的作品(或直接告訴他用日系輕小說插圖的畫風)，接著請他生成人物設計圖後，多骰幾次後伍德挑的樣子。

130Please respect copyright.ＰＥＮＡＮＡiPOOm6i5vN

130Please respect copyright.ＰＥＮＡＮＡdFmo6h1lew

　　接著可以開始讓Gemini修改服裝細節，例如伍德想讓賀輔的鞋子換成黑色的。另外也希望能在畫面空白的部分補上其他表情，指定了幾個表情(要說清楚困惑、開心等等)，最後的結果是下圖(建議一次只做一件事；例如先做服飾修改、再做追加表情)。更改的時候建議要提及「其餘部分不變」，否則很容易會有更動。

130Please respect copyright.ＰＥＮＡＮＡL02UBbNsUs

130Please respect copyright.ＰＥＮＡＮＡHXRyeYbpaq

　　而這就是目前伍德大致上對賀輔的設定稿。有了設定稿後，就能指定腳色在不同的地方做不同事情，並維持人物設定。例如：

130Please respect copyright.ＰＥＮＡＮＡMBltObISue

(真的要的話，可以指定AI讓賀輔把鞋子脫下來啦──所以要躺沙發就給我脫鞋啦欸(X)；另外這兩張圖的背景是一樣的。事實上也可以上傳圖後，讓AI使用、參考附圖的背景和人物設定。)

130Please respect copyright.ＰＥＮＡＮＡO4OMrw681Z

(在咖啡廳享受下午茶的賀輔。賀輔：「說我在偷懶嗎？不是喔，不是這樣喔。」(設計對白))

130Please respect copyright.ＰＥＮＡＮＡLPU8GWIh7e

(有點配合目前連載的Case 10，讓賀輔在走廊想案情。這裡伍德只指定場景是高級飯店的走廊，事實上可以指定其他配色。10-7插圖就有特別指定咖啡廳要以藍色和白色等地中海色系為配色。)

130Please respect copyright.ＰＥＮＡＮＡasIvj1hWTh

　　以下則是彩欣的設定。

(順帶一提，胸量根據使用規定是不能指定的。不然伍德覺得還能再平一點。)

(說起來沒有讓彩欣單獨拿術式戰鬥過。畢竟平常需要術式都是制伏妖怪或是支援賀輔。~~而且彩欣自己戰鬥有過肩摔就夠了(X)~~)

(如同先前提及的，同一個背景是能再重複利用的。)

(設定是Break 1前，彩欣在織圍巾的樣子──伍德沒織過，沒辦法下太精細的指令。)

130Please respect copyright.ＰＥＮＡＮＡZcNnyr8Km4

　　而有了兩人的設定後，Gemini可以生成兩個人在一起的畫面，甚至針對其中一人做調整。

130Please respect copyright.ＰＥＮＡＮＡAAEfRw7nsS

(中文字的生成還是死穴。~~賀輔帶人約會果然還是只能吃路邊攤嗎(X)~~)

(這張圖的擺設和配色比較接近伍德對事務所的整體概念；茶水間在圖外的右邊)

130Please respect copyright.ＰＥＮＡＮＡfdi4mgiRsR

　　以下則是錦懋的設定：

(右下的Q版設計讓我蠻驚豔的)

130Please respect copyright.ＰＥＮＡＮＡJRhnJxhQZm

(設定是9-9，要去支援河濱公園爆走歐克事件時的樣子)

(人物同樣可以換衣服。設定是跟音奈在高級餐廳約會前，很緊張的樣子。)

(左邊是根據其他設定稿畫的音奈。設定是Case 8-10，跑到圖書館查資料的兩人。這張主要要給大家看生成英文字是沒問題的)

130Please respect copyright.ＰＥＮＡＮＡdvNrllbal7

　　最後是夏斗的設定：

(伍德原文就有說上班黑西裝、下班放假時還是襯衫等Smart Casual的裝扮，所以就給了兩個設定。另外伍德總覺得不只日系，還混了點韓系條漫的味道。)

(說到這個男人，果然就是加班了吧(X))

(夏斗：「上次欠我的飯錢什麼時候要還啦！」

賀輔：「啊我就沒錢啊。」(設計對白))

(不過兩個人平日還是感情很好地跑去居酒屋吃消夜啦。)

130Please respect copyright.ＰＥＮＡＮＡP1yyyclVgz

　　當然，Gemini也是有進步空間的。除了之前提到的對生成中文還是沒什麼辦法外(不過生成英文、甚至設計標題都沒問題。雖然放上去總有種變成美國作品的感覺)，生成任意比例還是力有未逮(有時可以靠上傳其他比例的副圖來調整)。另外就是每當生成不盡人意時，通常表示Gemini沒那麼理解提示詞。此時就算再修正，常常還是會有問題，有太拘泥於失敗的問題(但相對記憶力比較好，比較不會遺忘)。最後，因為伍德的作品畢竟是現代都市為背景，生成時裝是很容易的，但奇幻背景，伍德就不清楚了。

130Please respect copyright.ＰＥＮＡＮＡr6NRhn9l9l

　　而畢竟AI目前的著作權歸屬模糊，以上圖片還是不能商用。請大家務必注意。

130Please respect copyright.ＰＥＮＡＮＡ3MCxDYL7wc

　　除了主角四人團，伍德也已經設定了萊昂、涵瀅、音奈、少主、宗岡和厄洛波洛斯(厄洛)等人，也有些互動的圖片。原則上伍德都還蠻滿意的。或許等之後想不到更新內容的時候(X)可以拿來給大家看看。

130Please respect copyright.ＰＥＮＡＮＡVJy15MJ09K

　　那麼今天就聊到這裡。130Please respect copyright.ＰＥＮＡＮＡShz1G3Mo6z
　　我是伍德，我們下次見！

130Please respect copyright.ＰＥＮＡＮＡDiZtcNobxB

*1. 不過就是因為出圈，而且有些太被濫用，伍德倒是從來沒在小說中用ChatGPT的生圖功能。而且伍德始終覺得ChatGPT的人體比例有點矮。

ns216.73.217.39da2