Stable Diffusion

ステーブルディフュージョン

Stable Diffusion とは

Stable Diffusion(ステーブルディフュージョン)は、テキストプロンプトから高品質な画像を生成する AI モデルです。

例え話をしましょう。あなたが絵を描いてもらいたいとします。

従来の方法(イラストレーターに依頼)

  • 詳細な指示を伝える
  • 数日〜数週間待つ
  • 高額な費用
  • 修正も追加費用

Stable Diffusion を使う

  • 「夕日の海辺で犬が走る絵」と入力
  • 数秒で画像が生成
  • 無料
  • 何度でも調整可能

Stable Diffusion は、言葉で説明するだけで、イメージを画像化してくれる AI です。

Stable Diffusion の仕組み

Stable Diffusion は、「拡散モデル(Diffusion Model)」という技術を使っています。

拡散プロセスの逆転

拡散プロセス(順方向):
きれいな画像 → ノイズを徐々に追加 → 完全なノイズ

逆拡散プロセス(AI が学習):
完全なノイズ → ノイズを徐々に除去 → きれいな画像

Stable Diffusion は逆拡散を学習

テキストの統合

プロセス:
1. テキストプロンプトをエンコード(CLIP)
2. ランダムノイズから開始
3. テキストの情報を使いながら、ノイズを除去
4. 徐々に画像が形成
5. 最終的な画像

テキストがガイドとなり、画像を形成

Latent Diffusion

Stable Diffusion の特徴:
画像を直接生成するのではなく、
「潜在空間(Latent Space)」で処理

メリット:
- 計算効率が良い
- 一般的な GPU でも動作
- 高品質な画像

Stable Diffusion のバージョン

Stable Diffusion は、複数のバージョンがあります。

SD 1.x シリーズ

SD 1.4(2022年8月):
- 最初の公開版
- 512×512 ピクセル

SD 1.5(2022年10月):
- 品質向上
- より安定した生成

SD 2.x シリーズ

SD 2.0(2022年11月):
- 768×768 ピクセル
- 新しいテキストエンコーダー

SD 2.1(2022年12月):
- 品質改善
- より詳細な画像

SDXL(Stable Diffusion XL)

SDXL 1.0(2023年7月):
- 1024×1024 ピクセル
- 大幅な品質向上
- より詳細で写実的
- 手や文字の生成が改善

現在の最高品質版

Stable Diffusion の使い方

Stable Diffusion を使う方法はいくつかあります。

Web UI(AUTOMATIC1111)

最も人気のある UI

特徴:
- ローカルで動作
- 豊富な機能
- 拡張機能が多数

インストール:
GPU 搭載 PC が必要(NVIDIA 推奨)

オンラインサービス

DreamStudio(公式):
- ブラウザで利用
- クレジット制
- 簡単に始められる

Midjourney:
- Discord 経由
- 高品質
- 有料

Leonardo.ai:
- 無料枠あり
- ゲームアセット向け

プログラムから使用

from diffusers import StableDiffusionPipeline

# モデルのロード
pipe = StableDiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-2-1"
)
pipe = pipe.to("cuda")

# 画像生成
prompt = "a beautiful sunset over the ocean"
image = pipe(prompt).images[0]
image.save("sunset.png")

プロンプトの書き方

良い画像を生成するには、効果的なプロンプトが重要です。

基本的な構造

[主題], [スタイル], [品質向上語], [詳細]

例:
a cat, digital art, highly detailed, 4k

より詳細に:
a fluffy white cat sitting on a red cushion,
digital art, highly detailed, 4k resolution,
soft lighting, bokeh background

品質向上語

よく使われる語句:
- highly detailed(非常に詳細)
- masterpiece(傑作)
- best quality(最高品質)
- 4k, 8k(高解像度)
- professional(プロフェッショナル)
- photorealistic(写実的)

スタイル指定

アートスタイル:
- oil painting(油絵)
- watercolor(水彩画)
- anime style(アニメ風)
- sketch(スケッチ)
- 3D render(3Dレンダリング)

有名アーティスト風:
- in the style of Van Gogh
- Studio Ghibli style

ネガティブプロンプト

生成したくない要素を指定

例:
Negative prompt: blurry, low quality, distorted,
ugly, bad anatomy, extra fingers

品質の向上に効果的

Stable Diffusion の高度な機能

Stable Diffusion には、多くの高度な機能があります。

img2img(画像から画像)

既存の画像をベースに新しい画像を生成

用途:
- 写真をアート風に変換
- ラフスケッチから完成画像
- 画像のバリエーション作成

Inpainting(部分修正)

画像の一部を書き換え

例:
- 不要な物を消去
- 背景を変更
- 特定部分を修正

ControlNet

生成をより正確に制御

機能:
- ポーズの指定
- 線画の維持
- 深度マップの使用
- エッジ検出

非常に正確な制御が可能

LoRA(Low-Rank Adaptation)

モデルを軽量にカスタマイズ

メリット:
- 小さなファイルサイズ(数MB〜数百MB)
- 特定のスタイルや人物を学習
- 複数の LoRA を組み合わせ可能

人気の LoRA は Civitai で公開

Stable Diffusion のメリット

Stable Diffusion には、多くのメリットがあります。

メリット 1: オープンソース

完全にオープンソース

メリット:
- 無料で使用可能
- カスタマイズ自由
- コミュニティが活発
- 商用利用も可能(条件あり)

メリット 2: ローカル実行

自分の PC で動作

メリット:
- プライバシー保護
- 生成回数無制限
- ランニングコスト不要
- インターネット不要

メリット 3: カスタマイズ性

様々なカスタマイズが可能

例:
- ファインチューニング
- LoRA の追加
- エンベディング
- スクリプト・拡張機能

メリット 4: コミュニティ

巨大なコミュニティ

リソース:
- Civitai(モデル共有)
- Reddit、Discord
- チュートリアル
- 数千のカスタムモデル

Stable Diffusion の課題

Stable Diffusion にもいくつかの課題があります。

課題 1: 技術的ハードル

ローカル実行には技術知識が必要

要件:
- GPU(VRAM 4GB以上推奨)
- ソフトウェアのインストール
- プロンプトエンジニアリング

初心者には難しい場合も

課題 2: 品質のばらつき

プロンプト次第で結果が大きく変わる

対策:
- プロンプトを工夫
- パラメータ調整
- 複数回生成して選択

課題 3: 苦手な表現

特定の要素が苦手

例:
- 手や指(改善されつつある)
- 複雑なテキスト
- 正確な人数

SDXL で大幅に改善

課題 4: 倫理的問題

悪用の懸念

問題:
- ディープフェイク
- 著作権侵害
- 有害コンテンツ生成

適切な使用が重要

Stable Diffusion vs その他の画像生成 AI

主要な画像生成 AI との比較です。

Midjourney

Midjourney:
- 高品質
- 使いやすい
- 月額制

Stable Diffusion:
- オープンソース
- カスタマイズ自由
- 無料(ローカル実行)

DALL-E 3(OpenAI)

DALL-E 3:
- プロンプト理解が優れる
- 安全性重視
- API 経由

Stable Diffusion:
- より柔軟
- ローカル実行可能
- コミュニティモデル豊富

Stable Diffusion のベストプラクティス

効果的に使うためのベストプラクティスです。

1. 明確なプロンプト

具体的に記述

悪い例: a cat
良い例: a fluffy orange cat sitting on a windowsill,
looking outside, soft natural lighting, photorealistic

2. ネガティブプロンプトの活用

不要な要素を明示

例:
Negative: blurry, low quality, deformed,
ugly, bad anatomy, watermark

3. パラメータの調整

Sampling Steps: 20〜50
CFG Scale: 7〜15
Sampler: Euler a、DPM++ 2M など

試行錯誤で最適化

4. Seed の活用

気に入った結果の Seed を記録

同じ Seed を使えば:
- 類似の画像を生成
- パラメータ調整の比較
- バリエーション作成

まとめ

Stable Diffusion は、テキストから高品質な画像を生成するオープンソースの AI モデルです。誰でも無料で使用でき、カスタマイズも可能な画像生成 AI の代表格です。

重要なポイント

  1. 拡散モデル - ノイズから画像を生成する革新的な技術
  2. オープンソース - 無料で使用・カスタマイズ可能
  3. ローカル実行 - 自分の PC で動作、生成回数無制限
  4. カスタマイズ - LoRA、ControlNet など豊富な機能
  5. コミュニティ - 活発なコミュニティと豊富なリソース

Stable Diffusion が最適な場面

  • イラスト、アート作品の作成
  • プロトタイプのビジュアル作成
  • ゲームアセットの生成
  • コンセプトアートの制作

Stable Diffusion は、画像生成 AI を民主化し、誰でもクリエイティブな画像を作成できるようにしました。今後も、品質向上とコミュニティの成長が期待されます。