如果有跟伍德《魔都妖探》更新的朋友,應該會注意到上一次(Case 10-7;點我)的更新中,伍德又換了個AI生圖引擎。從一開始用Stable Diffusion、Bing內建的Dall E-3、Google推出的ImageFX,甚至是出圈的ChatGPT的生圖功能*1。而伍德最近使用的,是整合在Google的AI,Gemini中的功能。
130Please respect copyright.PENANA6tE4pMZoPw
前幾年AI開始發展時,還有人半調侃半認真地說會出現「AI溝通師」、或甚至「AI詠唱師」的行業。事實上若直接從比較底層(比較接近原始程式碼)的Stable Diffusion切入,要做到光影自然、沒那麼塑膠,或甚至是很客製化的生成,確實還是需要一些功夫、也不是很容易入門。然而,AI生成技術的演變之快,已經讓沒有程式背景的一般人的門檻降低不少。
130Please respect copyright.PENANAMXJYn1p7l4
有一陣子伍德喜歡用的Dall E-3好處和壞處蠻一體兩面的:已經可以用自然語言下指示(寫文章的方式),很有創意、上色也很接近電腦動畫的感覺。然而因為太有創意,有時不會照著提示詞生成;能指示的細節也不多,數量也很容易亂掉(例如桌上擺著兩盤蛋糕,蛋糕的數目常常會爆走)。Google的ImageFX在能指定的細節數目上感覺有變多,而且也對提示詞的理解度比較細膩,整體風格像是2000年附近剛開始電腦作畫那陣子的味道。後者對台港用戶的問題是──目前並沒有對台港IP開放,必須翻牆到美國或澳洲等地(伍德在日本倒是能用)。
130Please respect copyright.PENANAntARwDRKxB
然而,以上的生圖軟體對創作者有個最致命的問題:每生成一個場景、生成一個人物就結束了,沒辦法帶到下一張或生成其他圖片。ChatGPT在這方面稍稍補救了這個問題,甚至生成四格漫畫的功能有陣子蔚為風潮。而Google則用旗下的引擎,大抵是整合了ImageFX,讓Gemini也支援生圖的功能。更重要的是,已經可以生成人物設定圖、不同的表情,甚至是指定人物、並讓其在各種場景做各種事情。對於在小說中需要插圖的作者來說簡直是不可多得。
130Please respect copyright.PENANAuSqFF6vOxh
使用Google Gemini唯一需要的就是Google帳號,相信這篇文章大多數的讀者也都有了。那麼今天就讓伍德給各位看一下整體的感覺。
130Please respect copyright.PENANAjz2k1CM1OM
例如將伍德幾年前寫的人物介紹(點我)裡,賀輔的外表部分輸進Gemini,同時提醒這是部帶有日系輕小說味道的作品(或直接告訴他用日系輕小說插圖的畫風),接著請他生成人物設計圖後,多骰幾次後伍德挑的樣子。
130Please respect copyright.PENANAiPOOm6i5vN
130Please respect copyright.PENANAdFmo6h1lew
接著可以開始讓Gemini修改服裝細節,例如伍德想讓賀輔的鞋子換成黑色的。另外也希望能在畫面空白的部分補上其他表情,指定了幾個表情(要說清楚困惑、開心等等),最後的結果是下圖(建議一次只做一件事;例如先做服飾修改、再做追加表情)。更改的時候建議要提及「其餘部分不變」,否則很容易會有更動。
130Please respect copyright.PENANAL02UBbNsUs
130Please respect copyright.PENANAHXRyeYbpaq
而這就是目前伍德大致上對賀輔的設定稿。有了設定稿後,就能指定腳色在不同的地方做不同事情,並維持人物設定。例如:
(真的要的話,可以指定AI讓賀輔把鞋子脫下來啦──所以要躺沙發就給我脫鞋啦欸(X);另外這兩張圖的背景是一樣的。事實上也可以上傳圖後,讓AI使用、參考附圖的背景和人物設定。)
130Please respect copyright.PENANAO4OMrw681Z

(在咖啡廳享受下午茶的賀輔。賀輔:「說我在偷懶嗎?不是喔,不是這樣喔。」(設計對白))
130Please respect copyright.PENANALPU8GWIh7e

(有點配合目前連載的Case 10,讓賀輔在走廊想案情。這裡伍德只指定場景是高級飯店的走廊,事實上可以指定其他配色。10-7插圖就有特別指定咖啡廳要以藍色和白色等地中海色系為配色。)
130Please respect copyright.PENANAasIvj1hWTh
以下則是彩欣的設定。
(順帶一提,胸量根據使用規定是不能指定的。不然伍德覺得還能再平一點。)
(說起來沒有讓彩欣單獨拿術式戰鬥過。畢竟平常需要術式都是制伏妖怪或是支援賀輔。而且彩欣自己戰鬥有過肩摔就夠了(X))
(如同先前提及的,同一個背景是能再重複利用的。)
(設定是Break 1前,彩欣在織圍巾的樣子──伍德沒織過,沒辦法下太精細的指令。)
130Please respect copyright.PENANAZcNnyr8Km4
而有了兩人的設定後,Gemini可以生成兩個人在一起的畫面,甚至針對其中一人做調整。
(中文字的生成還是死穴。賀輔帶人約會果然還是只能吃路邊攤嗎(X))
(這張圖的擺設和配色比較接近伍德對事務所的整體概念;茶水間在圖外的右邊)
130Please respect copyright.PENANAfdi4mgiRsR
以下則是錦懋的設定:
(右下的Q版設計讓我蠻驚豔的)
(設定是9-9,要去支援河濱公園爆走歐克事件時的樣子)
(人物同樣可以換衣服。設定是跟音奈在高級餐廳約會前,很緊張的樣子。)
(左邊是根據其他設定稿畫的音奈。設定是Case 8-10,跑到圖書館查資料的兩人。這張主要要給大家看生成英文字是沒問題的)
130Please respect copyright.PENANAdvNrllbal7
最後是夏斗的設定:
(伍德原文就有說上班黑西裝、下班放假時還是襯衫等Smart Casual的裝扮,所以就給了兩個設定。另外伍德總覺得不只日系,還混了點韓系條漫的味道。)
(說到這個男人,果然就是加班了吧(X))
(夏斗:「上次欠我的飯錢什麼時候要還啦!」
賀輔:「啊我就沒錢啊。」(設計對白))
(不過兩個人平日還是感情很好地跑去居酒屋吃消夜啦。)
130Please respect copyright.PENANAP1yyyclVgz
當然,Gemini也是有進步空間的。除了之前提到的對生成中文還是沒什麼辦法外(不過生成英文、甚至設計標題都沒問題。雖然放上去總有種變成美國作品的感覺),生成任意比例還是力有未逮(有時可以靠上傳其他比例的副圖來調整)。另外就是每當生成不盡人意時,通常表示Gemini沒那麼理解提示詞。此時就算再修正,常常還是會有問題,有太拘泥於失敗的問題(但相對記憶力比較好,比較不會遺忘)。最後,因為伍德的作品畢竟是現代都市為背景,生成時裝是很容易的,但奇幻背景,伍德就不清楚了。
130Please respect copyright.PENANAr6NRhn9l9l
而畢竟AI目前的著作權歸屬模糊,以上圖片還是不能商用。請大家務必注意。
130Please respect copyright.PENANA3MCxDYL7wc
除了主角四人團,伍德也已經設定了萊昂、涵瀅、音奈、少主、宗岡和厄洛波洛斯(厄洛)等人,也有些互動的圖片。原則上伍德都還蠻滿意的。或許等之後想不到更新內容的時候(X)可以拿來給大家看看。
130Please respect copyright.PENANAVJy15MJ09K
那麼今天就聊到這裡。130Please respect copyright.PENANAShz1G3Mo6z
我是伍德,我們下次見!
我是伍德,我們下次見!
130Please respect copyright.PENANADiZtcNobxB
*1. 不過就是因為出圈,而且有些太被濫用,伍德倒是從來沒在小說中用ChatGPT的生圖功能。而且伍德始終覺得ChatGPT的人體比例有點矮。
ns216.73.217.39da2 

