- HOME >
- Jamstack用語集 >
- Stable Diffusion
Stable Diffusion
ステーブルディフュージョン
Stable Diffusion とは
Stable Diffusion(ステーブルディフュージョン)は、テキストプロンプトから高品質な画像を生成する AI モデルです。
例え話をしましょう。あなたが絵を描いてもらいたいとします。
従来の方法(イラストレーターに依頼)
- 詳細な指示を伝える
- 数日〜数週間待つ
- 高額な費用
- 修正も追加費用
Stable Diffusion を使う
- 「夕日の海辺で犬が走る絵」と入力
- 数秒で画像が生成
- 無料
- 何度でも調整可能
Stable Diffusion は、言葉で説明するだけで、イメージを画像化してくれる AI です。
Stable Diffusion の仕組み
Stable Diffusion は、「拡散モデル(Diffusion Model)」という技術を使っています。
拡散プロセスの逆転
拡散プロセス(順方向):
きれいな画像 → ノイズを徐々に追加 → 完全なノイズ
逆拡散プロセス(AI が学習):
完全なノイズ → ノイズを徐々に除去 → きれいな画像
Stable Diffusion は逆拡散を学習テキストの統合
プロセス:
1. テキストプロンプトをエンコード(CLIP)
2. ランダムノイズから開始
3. テキストの情報を使いながら、ノイズを除去
4. 徐々に画像が形成
5. 最終的な画像
テキストがガイドとなり、画像を形成Latent Diffusion
Stable Diffusion の特徴:
画像を直接生成するのではなく、
「潜在空間(Latent Space)」で処理
メリット:
- 計算効率が良い
- 一般的な GPU でも動作
- 高品質な画像Stable Diffusion のバージョン
Stable Diffusion は、複数のバージョンがあります。
SD 1.x シリーズ
SD 1.4(2022年8月):
- 最初の公開版
- 512×512 ピクセル
SD 1.5(2022年10月):
- 品質向上
- より安定した生成SD 2.x シリーズ
SD 2.0(2022年11月):
- 768×768 ピクセル
- 新しいテキストエンコーダー
SD 2.1(2022年12月):
- 品質改善
- より詳細な画像SDXL(Stable Diffusion XL)
SDXL 1.0(2023年7月):
- 1024×1024 ピクセル
- 大幅な品質向上
- より詳細で写実的
- 手や文字の生成が改善
現在の最高品質版Stable Diffusion の使い方
Stable Diffusion を使う方法はいくつかあります。
Web UI(AUTOMATIC1111)
最も人気のある UI
特徴:
- ローカルで動作
- 豊富な機能
- 拡張機能が多数
インストール:
GPU 搭載 PC が必要(NVIDIA 推奨)オンラインサービス
DreamStudio(公式):
- ブラウザで利用
- クレジット制
- 簡単に始められる
Midjourney:
- Discord 経由
- 高品質
- 有料
Leonardo.ai:
- 無料枠あり
- ゲームアセット向けプログラムから使用
from diffusers import StableDiffusionPipeline
# モデルのロード
pipe = StableDiffusionPipeline.from_pretrained(
"stabilityai/stable-diffusion-2-1"
)
pipe = pipe.to("cuda")
# 画像生成
prompt = "a beautiful sunset over the ocean"
image = pipe(prompt).images[0]
image.save("sunset.png")
プロンプトの書き方
良い画像を生成するには、効果的なプロンプトが重要です。
基本的な構造
[主題], [スタイル], [品質向上語], [詳細]
例:
a cat, digital art, highly detailed, 4k
より詳細に:
a fluffy white cat sitting on a red cushion,
digital art, highly detailed, 4k resolution,
soft lighting, bokeh background品質向上語
よく使われる語句:
- highly detailed(非常に詳細)
- masterpiece(傑作)
- best quality(最高品質)
- 4k, 8k(高解像度)
- professional(プロフェッショナル)
- photorealistic(写実的)スタイル指定
アートスタイル:
- oil painting(油絵)
- watercolor(水彩画)
- anime style(アニメ風)
- sketch(スケッチ)
- 3D render(3Dレンダリング)
有名アーティスト風:
- in the style of Van Gogh
- Studio Ghibli styleネガティブプロンプト
生成したくない要素を指定
例:
Negative prompt: blurry, low quality, distorted,
ugly, bad anatomy, extra fingers
品質の向上に効果的Stable Diffusion の高度な機能
Stable Diffusion には、多くの高度な機能があります。
img2img(画像から画像)
既存の画像をベースに新しい画像を生成
用途:
- 写真をアート風に変換
- ラフスケッチから完成画像
- 画像のバリエーション作成Inpainting(部分修正)
画像の一部を書き換え
例:
- 不要な物を消去
- 背景を変更
- 特定部分を修正ControlNet
生成をより正確に制御
機能:
- ポーズの指定
- 線画の維持
- 深度マップの使用
- エッジ検出
非常に正確な制御が可能LoRA(Low-Rank Adaptation)
モデルを軽量にカスタマイズ
メリット:
- 小さなファイルサイズ(数MB〜数百MB)
- 特定のスタイルや人物を学習
- 複数の LoRA を組み合わせ可能
人気の LoRA は Civitai で公開Stable Diffusion のメリット
Stable Diffusion には、多くのメリットがあります。
メリット 1: オープンソース
完全にオープンソース
メリット:
- 無料で使用可能
- カスタマイズ自由
- コミュニティが活発
- 商用利用も可能(条件あり)メリット 2: ローカル実行
自分の PC で動作
メリット:
- プライバシー保護
- 生成回数無制限
- ランニングコスト不要
- インターネット不要メリット 3: カスタマイズ性
様々なカスタマイズが可能
例:
- ファインチューニング
- LoRA の追加
- エンベディング
- スクリプト・拡張機能メリット 4: コミュニティ
巨大なコミュニティ
リソース:
- Civitai(モデル共有)
- Reddit、Discord
- チュートリアル
- 数千のカスタムモデルStable Diffusion の課題
Stable Diffusion にもいくつかの課題があります。
課題 1: 技術的ハードル
ローカル実行には技術知識が必要
要件:
- GPU(VRAM 4GB以上推奨)
- ソフトウェアのインストール
- プロンプトエンジニアリング
初心者には難しい場合も課題 2: 品質のばらつき
プロンプト次第で結果が大きく変わる
対策:
- プロンプトを工夫
- パラメータ調整
- 複数回生成して選択課題 3: 苦手な表現
特定の要素が苦手
例:
- 手や指(改善されつつある)
- 複雑なテキスト
- 正確な人数
SDXL で大幅に改善課題 4: 倫理的問題
悪用の懸念
問題:
- ディープフェイク
- 著作権侵害
- 有害コンテンツ生成
適切な使用が重要Stable Diffusion vs その他の画像生成 AI
主要な画像生成 AI との比較です。
Midjourney
Midjourney:
- 高品質
- 使いやすい
- 月額制
Stable Diffusion:
- オープンソース
- カスタマイズ自由
- 無料(ローカル実行)DALL-E 3(OpenAI)
DALL-E 3:
- プロンプト理解が優れる
- 安全性重視
- API 経由
Stable Diffusion:
- より柔軟
- ローカル実行可能
- コミュニティモデル豊富Stable Diffusion のベストプラクティス
効果的に使うためのベストプラクティスです。
1. 明確なプロンプト
具体的に記述
悪い例: a cat
良い例: a fluffy orange cat sitting on a windowsill,
looking outside, soft natural lighting, photorealistic2. ネガティブプロンプトの活用
不要な要素を明示
例:
Negative: blurry, low quality, deformed,
ugly, bad anatomy, watermark3. パラメータの調整
Sampling Steps: 20〜50
CFG Scale: 7〜15
Sampler: Euler a、DPM++ 2M など
試行錯誤で最適化4. Seed の活用
気に入った結果の Seed を記録
同じ Seed を使えば:
- 類似の画像を生成
- パラメータ調整の比較
- バリエーション作成まとめ
Stable Diffusion は、テキストから高品質な画像を生成するオープンソースの AI モデルです。誰でも無料で使用でき、カスタマイズも可能な画像生成 AI の代表格です。
重要なポイント
- 拡散モデル - ノイズから画像を生成する革新的な技術
- オープンソース - 無料で使用・カスタマイズ可能
- ローカル実行 - 自分の PC で動作、生成回数無制限
- カスタマイズ - LoRA、ControlNet など豊富な機能
- コミュニティ - 活発なコミュニティと豊富なリソース
Stable Diffusion が最適な場面
- イラスト、アート作品の作成
- プロトタイプのビジュアル作成
- ゲームアセットの生成
- コンセプトアートの制作
Stable Diffusion は、画像生成 AI を民主化し、誰でもクリエイティブな画像を作成できるようにしました。今後も、品質向上とコミュニティの成長が期待されます。