このシリーズは生成AI初心者が生成AIを含むいろいろなAIを駆使して、ブログ作成用GPTsを作成するまでを記事にしています。
始まって早々にChatGPTから離れてしまいましたが、画像生成も最近はマネタイズ領域において流行りになっているので今からでも遅くないかも!ということで手を付け(てしまい)ました。
生成AI歴:3か月
お仕事:IT関連企業のインストラクター
保有資格:情報処理安全確保支援士、FP2級、AWS CPEなど
一言:ChatGPTなどの生成AIが登場してすでに2年経っています。
「これから始めるには遅いかな」と思っている皆さん、一緒にがんばりましょう!
(画像はイメージ画像です。ご了承ください。)
シリーズトップはこちら
前回の記事はこちら
Stable Diffusionを使ってみよう
画像生成をしてあわよくばマネタイズしたい、という思いで商用利用できる(※そしてアダルトコンテンツの作成もできる)Stable Diffusionを選択。
Midjourneyのほうが使いやすいらしいですが、アダルトコンテンツの作成ができないのと、有料なので今回は選択肢から除外。
気合を入れてStable Diffusionを動かしてみます。
Stable Diffusionのインストールについて
Stable Diffusionはローカルで動かす、クラウドで動かす、の2択になります。
ローカルで動かす場合にはある程度以上(GPU16GBくらい)が必要です。
クラウドで動かす際にはGoogleCorabを使用する形になりますが、こちらは月額料金がかかってきます。
とりあえずお金をかけたくない気持ちでローカルで動かしてみよう!と10年前のノートPCでチャレンジしてみました
Stable Diffusionを使ってみた
というわけでいろんなサイトを見ながらインストールを進めます。
今回参考にした動画はこちらです。
ローカルPCにStable Diffusionのインストール
めちゃくちゃ時間がかかりましたが何とかインストールが完了。
Pythonやらほかの必要なソフトもインストールしてみます。
結果
動かない
やっぱりPCのスペックが足りないみたいね。
最後がランタイムエラーになり起動しません。
やっぱりちゃんとしたグラボが無いとそもそも動かないようです。
念のためどんなグラボがついているか「dxdiag」を使って確認しましたがこんな感じでした。
VRAM:112MBって…
共有メモリを足しても2GBほどにしかならないので動かないのは当たり前ですね。
どうしても自分のPCでStable Diffusionを動かしたいんだ!
という人はサクッとハイスペックPCを買ってしまいましょう。
私は次で紹介するGoogleCorabを使っていますが、セッションの予期せぬ切断などちょっと面倒なことが多い気がします。
使用の上限もありますしね。
GoogleCorabを契約してみた
というわけでGoogleCorabを契約してクラウド上で動かすことにしました。
これならハイスペックPCが無くてもStable Diffusionを動かせるので初期費用はかかりません。
料金も1ヶ月あたり1200円ほどなのでハイスペックPCを買うことを考えればだいぶオトクです。
Googleアカウントを持っていない方は最近少ないとは思いますが、Googleアカウントがあればサクッと作れます。
GoogleColab自体は無料でも使用できますがStable Diffusionを動かそうとするとエラーになってしまいます。
安いので有償契約してしまいましょう。
詳しくは上に貼ったサイトを見ていただければと思いますが、100コンピューティングユニットを使えるProで十分です。
GoogleDriveを追加してみた
あとはStable Diffusion入れる領域を確保しなければなりません。
Stable Diffusion本体はそんなに容量を食わないのですが、画像を生成するモデルが1つあたり2GBくらいあります。
またControlnetもあると便利なのですが、これも20GBくらいあります。
Controlnetって?
ControlNetは、Stable Diffusionの拡張機能であり、画像生成時に細かな条件を指定することが可能です。これにより、プロンプトだけでは表現しきれないポーズや構図を指定できるため、より精密な画像生成が実現します。
ControlNetの主な機能
- 出力画像の制御: ControlNetを使用すると、生成される画像の色調や構図、特定のスタイルやテクスチャを細かく制御できます。元画像から特徴を抽出し、それに基づいて新しい画像を生成します12。
- 微調整: 生成される画像のディテールや光の当たり方、色彩などを精密に調整することが可能です。特にキャラクターの表情やポーズの微妙な変更が簡単に行えます13。
- 解像度変更: ControlNetでは、高解像度の画像生成も可能です。特定のモデル(例: tile)を使用することで、必要な情報のみを拡大し、画像が破綻しにくくなります12。
ControlNetの導入方法
- Stable Diffusion Web UIを開く: 「Extensions」タブをクリックし、「Install from URL」を選択します。
- URL入力:
https://github.com/Mikubill/sd-webui-controlnet
を入力し、「Install」をクリックします。 - 再起動: インストール後、「Installed」タブでControlNetが表示されていることを確認し、「Apply and restart UI」を選択します24。
ControlNetモデルの種類
ControlNetには複数のモデルがあり、それぞれ異なる機能があります:
- Canny: 画像からエッジを抽出し、新しいスタイルで再生成します。
- OpenPose: 人物のポーズを検出し、そのポーズに基づいて画像を生成します。
- Depth: 画像の奥行き情報を強調して立体感を与えます。
- Scribble: 手書き風の線からリアルな画像を生成します34。
注意点
ControlNetは商用利用時に著作権や使用許諾に注意が必要です。また、導入時には設定ミスや互換性問題によるエラーが発生する可能性がありますので、事前にシステム要件を確認することが重要です13。
というわけで、GoogleColabと同時にGoogleDriveも課金しておきましょう。
こちらも100GBのプラント2TBのプランがありますが、とりあえず100GBで十分です。
fast-stablediffusionを使ってみた
準備が整ったのでGoogleColab上でStable Diffusionを動かしてみます。
こちらはこの動画を参考にさせていただきました。
私はPythonもGoogleColabも初めて使いましたが、動画の手順通りに進んで問題なく起動ができました。
動画で紹介されているfast_stable_diffusion_AUTOMATIC1111.ipynbですが、2024年10月19日あたりから動かなくなってしまいました。
Githubに対処法が載っていましたのでコードの更新が来るまでこれで対処しましょう。
最初にできた画像
これは元の画像からプロンプトを生成してそのプロンプトで出力した画像です。
Stable Diffusionでの画像生成はプロンプトのほかにモデルの変更やControlnet、VAEやLoraなど複数の要素があるのでとーーーーっても奥が深いです。
皆さんも一緒に画像生成の沼にはまりましょう(笑)
前回の記事はこちら
シリーズトップはこちら
コメント