AIを使って館内の画像から広報素材を作成するテスト

私が先週来から公開している画像は、「Stable Diffusion」に「テキスト」で指示を与えて生成している画像なのですが、「Stable Diffusion」には「画像」を与えてそれをもとに新しい画像を生成する「img2img」という機能もあります。

この「img2img」、かなり雑な絵でもハイクオリティにしてくれるということで、日夜いろんな実験成果が公開されているのですが、これを使えば、実際の館内の写真に好きな配置で人を追加した広報素材を作れたりするんじゃないかなーと思い、テストしてみました。

まず誰もいない図書館の画像を用意します。さすがに自分が所属する図書館の写真を使うわけにもいかないので今回は素材サイトから借用してきました。実際に使用するときは実際の館内の写真を使用する想定です。

この館内の写真に人を書きます。ネット上の実験を見ていると、頭と体の位置関係がかろうじてわかる程度の絵からでも、高精度なイラストが作られたりしているので、今回も適当に書きました。（早く結果を見たくて雑になったという面もあります。）

上の画像をimg2imgに与えて、「図書館の書棚の前に立っている水色のシャツ、黒いバンツの黒髪の学生」という指示のもと、「モンガー！」と魔法をかけたのが下の画像です。素敵！

と、簡単なようにいっていますが、実際はstrengthという変化を与える強度の数値をいろいろ変化させてみたり、同じ指示でも毎回結果が違うので何十回もガチャを回したりと、かなりのチェリーピッキングをしています。

でも、この顎のラインとかシャツのシルエットとか、自分で書こうと思っても書けないと思うので、多少の試行錯誤は全然許容範囲だなと思います。

で、この画像でも全然広報素材になると思うのですが、よく見ると書架の足の部分など、オリジナルから変に改変されてしまっている部分もあります。

そこでここからはちょっと他のツールを使ったりするので、職場でやるには少し手軽さに欠けてしまうのですが、より細かな調整をしてみたいと思います。

先ほどの画像は、人の部分はよくできているけど、その他の背景が変になっているところがいまいちでしたので、人の部分だけを切り取って、オリジナルの館内の画像に貼り付けます。ペッタリん。

これだとイラストが写真から浮いてしまっているので、この状態からまたimg2imgで「モンガー！」と（何十回も）魔法をかけます。

その結果がこちら。こちらもいろいろな試行錯誤とガチャをして、自分的に一番よいかなと思ったものになります。かなりいい感じ、というか人のシルエットについては、（自分がチェリーピッキングしているのだから当たり前ですが）自分の好みドンピシャです。これならかなりいい広報素材として使えるのではないでしょうか。

今度は床がちょっと気持ち悪いことになってしまっていますが、今回はテストなので、これでよしということにします。もっと本気で調整するなら、床の部分はもっと他の良い結果が出た画像のものと合成して、などできるかと思います。

図書館の画像素材はいろいろなサイトで配布されていますが、やはり実際の館内の様子を利用した画像のほうが、見る人の目を引くと思うので、実際の館内の写真から素材を作るこの方法は、かなりアリなのではないかと思いました。
今回、写真に追加した人をかなり雑に書いてしまいましたが、あのくらい雑な塊をちゃんと人にしてもらうには、strengthをある程度強めにかけないといけず、でもそうすると背景も変に改変されてしまって、となかなか良い結果が出にくかったので、元の人間をもう少し丁寧に書いた方がいいかもなと思いました。

と、ここまで書いて「参考」に貼るサイトを探していたら、画像にマスクをかけて変換するコードも公開されていました。これがあれば人と背景で強度を変えて魔法をかけることができるので、上に書いた問題は解決ですね。

とこんなように、画像生成AIは日々便利なツールが公開されていて、まさに日進月歩という状況なので、今回実験したようなことも、1ヶ月後にはもっと全然楽にできるようになっている気がします。楽しみですね。

お相手はやわらか図書館学でした。