\ 最大10%ポイントアップ! /

【ゼロから始める生成AIチャレンジ】元画像から新たに画像を生成する(Stable Diffusion)

当ページのリンクには広告が含まれています。

そもそも画像生成の沼にはまったきっかけはブログのアイキャッチを思った通りに作りたい!ということでした。

というわけで今回は元画像から画像を生成する方法をご紹介します。

皆さんStable Diffusionの起動は済んでいますね?

今回はChatGPT(DALL-E)で作ったこの画像をもとにStable Diffusionで近い画像を生成してみます。

筆者について

生成AI歴:3か月

お仕事:IT関連企業のインストラクター

保有資格:情報処理安全確保支援士、FP2級、AWS CPEなど

一言:ChatGPTなどの生成AIが登場してすでに2年経っています。
「これから始めるには遅いかな」と思っている皆さん、一緒にがんばりましょう!

(画像はイメージ画像です。ご了承ください。)

前回の記事はこちら

シリーズトップはこちら

目次

Stable Diffusionで元画像に近い画像を生成する

サイトを見てみると標準の機能と拡張機能を利用する方法がありましたが今回は特に難しいことをする必要もないのでで標準機能でやってみます。

簡単です。

流れ的には

  1. 元画像からプロンプトを抽出
  2. プロンプトの編集
  3. 画像生成

この3ステップになります。

プロンプトを抽出

Stable Diffusion WebUIのトップからimg2imgをクリックします。

STEP
Stable Diffusion WebUIのトップからimg2imgをクリック
STEP
画像をアップロード

アップロード欄が出てくるのでドラッグアンドドロップ化クリックして画像をアップロードして下さい。

STEP
抽出する

Generateボタンの下にある段ボールボタンをクリックします。

Interrogate DeepBooru

STEP
ポジティブプロンプトが生成される

プロンプトを抽出せずに画像を置いてGenerateをクリックしても画像は生成されますが精度はかなり低いのであまりお勧めできません。

プロンプトの編集

この状態で出てくるプロンプトはあくまでも画像から抽出された情報です。

試しにこのまま作ってみましょう。

こんな感じ。

このまま生成してもある程度の画像生成は可能ですがポジティブプロンプトに入れたいワードやネガティブプロンプトが入っていませんので、そのあたり追加していきます。

私はVすき焼きさんの以下のモデルを使用しているので推奨設定どおりに設定をしておすすめのネガティブプロンプトを追加します。

このままimg2imgのタブから生成してもOKですし、txt2imgにコピペしてもOKです。(今回はtxt2imgで生成します。)

あわせて読みたい
Vsukiyaki/ShiratakiMix · Hugging Face We’re on a journey to advance and democratize artificial intelligence through open source and open science.

ポジティブプロンプトについてはよくある以下のあたりを入れておけば問題ないでしょう。

masterpiece, best quality,

モデルの推奨設定部分でHireStepsやClipSkipなどの細かい設定もありますが、この辺は各自調べていただければ…

画像生成

では生成してみましょう。

今回使ったプロンプトは以下の通りです。

ポジティブプロンプト

masterpiece, best quality,1girl, bangs, blush, brown eyes, brown hair, closed mouth, collarbone, collared shirt, heart necklace, jewelry, looking at viewer, medium hair, necklace, pendant, shirt, simple background, smile, solo, upper body, white background

ネガティブプロンプト

(easynegative:1.0),(worst quality,low quality:1.2),(bad anatomy:1.4),(realistic:1.1),nose,lips,adult,fat,sad, (inaccurate limb:1.2),extra digit,fewer digits,six fingers,(monochrome:0.95)

こんな感じ。

全部の画像を比較してみましょう。

元の画像抽出した通りプロンプトを変更

あれれ…抽出した通りの画像のほうがもともとの画像に近いですね。

この辺はガチャというか何度か生成して好みの画像が生成されるまで回すしかありません。

またモデルの違いでも生成される画像は大きく変わりますので好みのモデルを見つけてください。

まとめ

筆者

それではまとめです。

  1. img2imgに画像をアップロード
  2. Interrogate DeepBooruでプロンプトを抽出
  3. プロンプトの編集
  4. これだ!というものができるまで生成
アシスタント

今回はDALL-E(ChatGPT)で生成した画像をStable Diffusionで再生成しようという企みでしたが、Stable Diffusionの場合、モデルで大きく変わってきそうですね。

筆者

元画像そのままを生成するのはとても難しそうですので、あきらめてStable Diffusionで最初から生成してしまうのもありかもしれませんね。

前回の記事はこちら

シリーズトップはこちら

にほんブログ村やってます、ポチッとしていただけると喜びます。
にほんブログ村 IT技術ブログへ
にほんブログ村
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

CAPTCHA


目次