Midjourney漂流記。 - 深川夏眠の備忘録

ここではMidjourney使役者をMidjourneyer（みっどじゃにあー）と仮称します。

これは拙いMidjourneyerの雑感。

有料版を使い始めて２ヶ月を経過しまして、

気づいたことなどを備忘として整理しておきます。

熟練者に読まれたら恥ずかしいような初歩的な話題ばかりですが……。

はじめに
使い方
召喚法
BAN
おわりに

はじめに

最初に（一応）Midjourneyとは何ぞや？　を

おわかりいただくためにWikipediaの当該ページにリンクを。

まず、Discordのユーザーになり、

この中でbot（Midjourney_bot）に文章を入力して指示を出し、

返信として指示内容に沿った画像を出力してもらうのです。

ja.wikipedia.org

twitterユーザーなら場をイメージしやすいかと。

Midjourney使い始めの無料版のうちは、膨大な数の利用者の発言≒コマンドが

凄い勢いでタイムラインを流れて行くのですが、

有料版に移行するとDM（ダイレクトメッセージ）で

他のユーザーを意識することなく

Midjourney_botとイチャイチャ出来るのです（←違うって💧）。

こんな具合に。

【Ａ】Discordのダイレクトメッセージを使ってMidjourney_botとタイマン✊ꐦ

私は自作小説の雰囲気画を作るのが目的で使っているので、

現実の現代社会に実在しない何か凄いモノを生成しなくてもいいし、

密度の高い極上の絵を描いてもらう必要もないから、

Midjourney先生と折り合いをつけるのは比較的容易かもしれません。

多少、対話のコツも掴めてきた気がしています。

といった次第で、本稿では主に、小説の執筆あるいは詩作を行っていて、

自作に付す挿画をMidjourneyで作ってみたいのだが……といった方のために、

およその手順と指示出しのコツらしきものを開陳したいと思います。

使い方

メッセージ入力欄にて /imagine prompt に続けて英語で指示を。

上図【Ａ】は sweets festival です。

この二語を受けて、Midjourney先生はweb上の関連性の高そうな画像を拾い集め、

再構築して提示してくれた様子。

下手に関係代名詞で話を繋ぐより、要件を淡々と，で区切って列記する方が

正解（Midjourneyerが求める絵）が出やすいかと。

【Ａ】図をご覧いただくと、

　　　U1　U2　U3　U4　🔄

　　　V1　V2　V3　V4

都合９つのボタンが表示されていますが、これらは

指示によって最初に現れた４つの画像では満足できず、

ヴァリエーションを増やしたいときに使うものです。

１が左上、２が右上、３が左下、４が右下。

U1を押すと１の画像だけを取り出して解像度を上げてくれます。

以下同。

🔄はリロード。

同じ指示に基づく新たな４つの画像を生成してくれます。

🔄を押しても最初に出て来た画像は消えず、４つ増えるということです。

Ｖボタンは variation で、

V1で１の、V2で２の［以下略］亜種を新たに４つ生成してくれます。

召喚法

既成画像の参照

指示文のアタマに既存の画像のURLを付すと、

それをヒントに作画してくれるはずですが、狙いどおりに行くかどうかは

運次第（笑）。

/imagine prompt に続けて、

この画像のアドレスをコピペして半角スペースを置いてから指示文を記述。

https://cdn-ak.f.st-hatena.com/images/fotolife/f/fukagawa_natsumi/20220923/20220923232846_120.jpg

standing woman in red China dress,Chinatown in Yokohama Japan --aspect 9:16

半角ハイフン２つの後の aspect は縦横比です。

9:16で縦長、16:9で横長の画像が出ます。

指定しなければ正方形で出力されます。

結果、

【Ｃ】standing woman in red China dress,Chinatown in Yokohama Japan

英語圏で常識的な事物は割と簡単に描出してくれるけれど、

東洋文化に属するワードへの理解がまだまだ、といったところですかね。

China dress が我々が普通にイメージする衣服の形にならないとか、

cream an-mitsu を「それは何？」と訊き返しつつ却下（生成不可）とか。

ある風景の中に人物がいるのか、人物の表情が重要で背景はおまけなのか、

縦横比を16:9か9:16にするのか――によっても

言葉の選び方を変える必要がありそう。

【Ｃ】については一応、

こちらが提供した資料写真が役に立ったかに見えますが、

人物がどれも後ろ姿になっていますね。

原因は恐らく standing だと思います。

縦横比9:16（縦長）であることも手伝って、

Midjourney先生はドレスを纏った立ち姿を意識して、

顔は面倒だから描かなかったのでしょう。

16:9にするなら背景に高さを求めず、

9:16がいいのであれば左右の広がりを期待しないが吉。

衣装・扮装を細かく指示する際は縦長がベターかも。

顔を描いてもらおう

では、キャラクターの顔貌をきちんと描いてもらいたいときは

どうすればいいか。

顔面の説明をしましょう。

Midjourney先生は顔を描かざるを得なくなります（時々サボるけど）。

方法としては、眼が大きいとか唇がプリッとしているだとか、

パーツについて記述するのもアリですし、

漠然と、こんな表情をしている、こういう気分である、

などと綴ってみるのもテです。

思いついた文言を英訳して、一番しっくり来そうな表現をぶつけてみます。

a candyprincess who has bouffant blonde hair,she wears fluffy dress,she smiles for the rain of candies

ふわふわブロンドヘアのキャンディ姫たんが

ふわふわドレスを着て飴の雨にニッコリ。

smile と言ったのに【Ｄ】は景色に気を取られて

人物描写が疎かになっています。

また、横長の画像に dress という縦の表現を盛り込むと、

苦肉の策として（？）全身がフレームに収まるおチビたんを登場させるとか。

【Ｅ】は背景にお城が出たのは結構だけれど、髪の毛が綿あめ化……。

こちらは cotton candy と言った覚えはないのだが、

bouffant や fluffy から連想して気を利かせてくれたつもりなのかも。

そんな中、一番しっかり顔を描いてくれたパターンが【Ｆ】。

smile 効果ですかね。

最早キャンディなのか姫なのか、よくわかりませんが、

これでいいことにしました。

fukagawa-natsumi.hatenablog.com

様式化

続きまして、人物と背景のバランスについて。

Midjourneyには様式化＝stylize という概念があります。

絵全体の雰囲気や記述内容から想定される世界観を

ほどほどに表現するか強調するかのコントロールを司っている模様。

説明文と（必要に応じて記述される）--aspect 16:9（または9:16）の間に

--stylize ●●（●●は数値）と書き込むと、

この様式とかいうモノに気を遣ってくれるようになります。

初期値（--stylize 記入なしの場合）は 2500 だそうです。

一度、希望する絵を初期値で出してもらってから --stylize ●● を付け足して

リトライするのもいいかもしれません。

この数値を大きくすると人物をより美形に描いてくれる気がするのですが、

全体の趣きをコントロールするパラメータなので、

やり過ぎると背景に力を入れて人物が適当になる場合も多々。

かと言って、あまり数値を小さくしてもグチャッとした絵になってしまうので

（お好みにもよりますが）ほどほどに。

ちなみに【Ｄ】～【Ｆ】は --stylize 7500 での発注。

rain of candies の表現を意識してほしいという

Midjourneyerの希望を込めた結果、なかなか好みの面貌が現れなかった次第。

顔の造作に強いこだわりがあるときにstylizeの値を大きくすると、

その矛盾を面倒がってか後ろ姿で胡麻化されがちな印象も。

値が大きすぎると人物が消し飛んでしまうことも少なくありません。

例えば「シンデレラ城の舞踏会」といった絵を作ろうとして、

Midjourneyerがダンスホールでキャッキャする着飾った人（のアップ）を

思い浮かべていたとしても、城の外観しか出てこない、とか……。

［例］

a young person joins dinner party in Dracula's Castle,there are some drinks and meat dishes on the table --stylise 7500

辛うじて【Ｇ】左上のみ、きちんと人の顔が出ましたが、

他は本当に雰囲気だけですね。

しかし、Dracula 及び Dracula's Castle は英米文化圏的にはお家芸なのでしょう、

複雑な絵をサラッと生み落としてくれました。

結局【Ｇ】左上を超掌編「会食」のイメージ画像として採用。

fukagawa-natsumi.hatenablog.com

Remaster

ところで、過日 Remaster なるボタンが登場しました。

最初に出て来た四分割画像の中から

一つ選んで（U1 U2 U3 U4 のどれかを押して）解像度を上げてもらった後に

目視出来ます。

これを押すと、出来上がっている画像１枚をリマスターしてくれるのです。

通常、音楽業界の用語ですけれども、

Midjourneyにおいては何が起こるかというと……

フワッとしていた背景をシャキッとさせてくれる or

キャラクターの風貌をアップグレード

またはダウングレートしてくれやがるのでした。

吉と出るか凶と出るか、ちょっとした博打ですね。

人物をしっかり描いてもらいたいなら stylize はほどほどにして

後から Remaster で背景をグレードアップするという手段が

もたらされたことにはなるのですが。

［例］

a boy is standing in a pool at the hotel's central courtyard,he wears black "rush guards" --stylize 7500

（実際の指示文を微妙にアレンジしてあります。ご了承ください。以下同）

この時点でDM画面上に現れている Remaster ボタンを

ちょっとドキドキしながら押してみたところ――

成功です！

そもそも、このキャラクターに関しては顔を大っぴらに出したくなかったので、

敢えて指示文に standing を入れて後ろ姿になるように狙ってやったのですが、

バックスタイルだからこその好結果だったかもしれません。

サースティ

作者:深川夏眠

生成の初期段階で人物の顔がきちんと描かれていると、

逆に Remaster で不細工化することも確認済（悲）。

必ず都度、美的グレードアップが図られるとは限らないのです（難）。

手法の一つとして、

--stylize 2500～5000程度（初期値が2500←そのままでいいなら記述不要）に

しておいて、まあこんなもんかな……くらいの面貌を出してもらってから

Remaster で美形化するっつーやり口もありますわな。

［例］

a young man is looking at someone in front of him,it holds a parade on the ground,dust and confetti are blown up into the air --stylize 5000 --aspect 16:9

【Ｋ】⇒ Remaster ⇒【Ｌ】で格上の美男が爆誕したざます！！！

人間味が削がれて

ターミネーター並みの超クールガイになっちまいやしたけど（笑）。

ヘアスタイル＆カラー

ヘアスタイルについては何か断っておかないと

お決まりの変な形にされがちなので（なんでだよ、うぇーん｡ﾟ(ﾟ´Д｀ﾟ)ﾟ｡）

注意を要しますけれども、これまでの生成結果を踏まえてか、

それとも、このMidjourneyerは

日本からアクセスしているから日本人だと判断してなのか、

人物の髪の色は黙っていれば黒です、私の場合。

黒ではない方がいいと思うときは色を指定します。

dark blonde braids で無事、暗めの金髪が三つ編みになりました。

［例］

a young girl who wears "overall" of indigo denim,her hair is dark blonde braids,there are mandarin oranges in her basket --stylize 5000 --aspect 16:9

少々脱線しますが、

これまでの当ブログにおける失敗談をお読みになった方は

おわかりでしょうけれども、

overall は wear(s)の後ろで " " で括り、

しかも indigo denim と注釈をつけることで、

ようやくお馴染みのオーバーオールと認識される模様。

fukagawa-natsumi.hatenablog.com

（話を戻して）三つ編み＋オーバーオール＋ミカン入りの籠なる

縦に長くならざるを得ない３点セットを横長の画面に収めるための工夫として

顔をほとんど描かないという手段に打って出たものと推察されます。

同じ指示文で --aspect 9:16 の縦長であれば

普通に美少女が登場したでありましょう、多分。

一方、キャラクターの髪あるいは衣服の色を明確に指定すると、

全体的にその色合いに仕立てるられるケースが続出。

髪がブロンドでドレスがグリーンと言ったらほぼ緑になった、とか。

［例］

an antique bisque doll who has wavy blonde hair,her dress is colored malachite green --stylize 5000

髪をあくまで（他の色が混ざらない）ゴールドにしたかったら、

"blonde hair" とダブルクォーテーションで括った方がベターかも。

しかし、（また脱線しますが）転んでもタダじゃあ起きない私は

この現象を逆手に取ってやりましたよ、フンッ（鼻息）。

［例］

a young lady is smiling with white teeth,she wears white blouse and green skirt --stylize 5000 --aspect 16:9

横長の画面なのでボトムの表現が困難なのを承知で白ブラウスに緑のスカートと

言ってみたのです。

結果、グリーンのスカーフらしきものが襟元に現れ、

背景が植物たっぷりになった次第。

ところで、Midjourney先生に短髪女子は苦手疑惑が浮上。

ネット上にサンプルが少ないせいからか、

あるいは生え際の描出が難しいからなのかと推測されます。

動物

指示文中に動物を登場させると絵本調というかメルヘンタッチになりがち。

［例］

an old lady and a cat,enjoying happy tea time sitting sofa --aspect 16:9

これはこれで可愛くてイイんですが、もっと普通の、マンガ・イラスト表現的な、

それなりにリアリティのある絵を狙うなら、

焦らず何度かリトライする必要がありそうです。

もしくは本物の動物の写真を読み込ませるか。

イラストでありながら、一種、現実に即した描き方に成功した例はこちら。

ある語句を指示に盛り込んだ結果ですが、それは隠し味なので秘密。

誤解を防ぐ

既に上の項目で " "（ダブルクォーテーション）活用を推奨しておりますが、

Midjourney先生を困惑させないためにチョイチョイ使うのがよろしいかと。

［例］【Ｑ】の白猫を生成する際、「雪のように白い」のつもりで

a snowy white cat lies sprawled

と記述したら、このザマで。

"snowy white" と括るべきでしたかね。

笑ってしまったのは

手足を伸ばして寝そべるくらいの意で sprawl と言ったら、

だらしなく，まとまりなくといった意味に受け取られたのか、

グネッと捻りが入った、ある種のパンのような見た目になったこと。

難しいなぁ。

別の例では、男児のヘアスタイルを mushroom cut と指定したら、

確かにいわゆる坊ちゃん刈りになったはいいけれど、

ついでに周囲にキノコが生える🍄事態に。

これも "mushroom cut" と括ってあれば問題は起きなかったろうと思います。

また、我々が普段無造作に使っているカタカナ語をそのまま持ち込んでも

誤解が生じることが多いので、少しでも「お、これは……」と

首を傾げた際は web英和／和英辞典で確認するのが無難でしょう。

fukagawa-natsumi.hatenablog.com

クセ

その１

日本人の一般的な感覚で若い男性／女性を頼むと要求すると、

Midjourney先生は結構上の年代の顔を出してくれちゃいます。

これは、見方を変えれば、

同じ年頃なら西洋人より東洋人の方が外見が若いということかもしれません。

あるいは40～50歳代の女性をイメージして middle aged woman と言うと、

（こちらが受ける印象としては）老婆じゃん！！

みたいな結果になります。

自作中の設定よりも若い人物であるかのように記述して、

ちょうどいい案配になりそうです。

その２

指示文中に、

登場するキャラクターが常人とは違うというニュアンス（vampireなど）を

含めると、目縁が赤く染まるケース多々。

Midjourney的には、それが人外を一般人と区別する目印なのでしょうかね。

苦手なもの

末端部分

ネット上にお手本となる画像が少ないからでしょうか、

Midjourney先生は手指や足の先を正確に描くのが不得手です。

私も既に随分、苦汁を舐めて来ました（笑）。

変な位置に手が付いていたり、指が普通に描かれていなかったり。

ダイレクトに例を示してもいいのですが、不気味過ぎるので控えます。

気になる方はこの過去記事を覗いてみてください。

fukagawa-natsumi.hatenablog.com

どうしてもきれいな手・指を出す必要があるなら、

見本となる写真を参照してもらうのがいいかもしれません。

耳

耳の描画も苦手そうな気がします。

私は一発でキレイに決まったらラッキー、ぐらいに思っています。

短髪

既述のとおりですが、描画上、

生え際や耳を誤魔化しにくいせいではないかと思います。

付言すると、

特に女性キャラクターのベリーショートには苦労している印象。

サンプルの抽出と関係が深そうな問題ですね。

とても短い髪の女性の画像がネット上には多くない、という意味です。

とても短い髪の男性には然程難渋していない風でして、

超短髪＝♂，超長髪＝♀なる固定観念の支配を感じます。

トゥッティフルッティ

作者:深川夏眠

東洋文化圏の概念

これも既述ですが、

日本人にとっては詳しい説明の必要がない事物でも、

アメリカ生まれのMidjourney先生にはピンと来ないことが多くあります。

見本になる画像を見せればすんなり了解してくれるレベルになったら

大したものだ……と、今後に期待しています。

BAN

受け容れ不可のNGワードについて。

Midjourney_botには容認できない単語がいくつかあるようで、

暴力や犯罪行為、あるいは過度に扇情的なイメージを喚起する語は

受け付けてくれません。

blood もその一つですが、鼻血は nosebleed なので却下されずに描出されました。

禁止語彙に登録されているのはあくまで blood であって、

画面に血が出ること自体が認められないわけではない模様。

vampire もOK。

吸血鬼が登場したとしても現場が血みどろになるとは決まっていないから、

でしょうかね。

一方、ハロウィン関連のイメージを……と考えて、

ゴスロリと言ったらメチャメチャ怒られました。

日本人がフワッとカジュアルに口にするロリータという単語が、

英語圏では冗談抜きでヤバイようで。

児童虐待や性的搾取を連想させるからか、

Midjourney先生的には許しがたいらしいのです。

Gothic Lolita に駄目出しを食らい、すぐさま Goth-Loli と唱え直したものの、

どっちにしろロリはアカン！！　と大激怒され、

《２連続DM（discordのダイレクトメッセージ）内NGワードの罪》によって

時限ブロックの刑に処されました。

恐らく３時間程度（？）利用不可になったということです。

日本語の会話・作文においては通常、単語の意味に目くじらを立てるより

センテンス毎の文意を汲み取るべきだと考えられますが、

英語圏のツールなので

一つ一つの単語の可 or 不可が問題とされるし、また、

そこが今のお絵描きAIの限度とも言えそう。

怪しい単語・熟語が含まれるものの、それは言い回しの一種であり、

一文を通して見れば公序良俗に反する表現ではないと捉え得るからOK、

とはならないのですね。

おわりに

長らくのご清覧ありがとうございました。

今後も Remaster に次ぐ機能の追加があるかもしれませんね。

期待・大です。

Bon voyage!!