Stable Diffusionとは
テキストから画像を生成するAIモデルです。
2022年9月に公開され、その高い生成能力で注目を集めています。
このモデルは、ミュンヘン大学のCompVisグループが開発し、Stability AI、CompVis LMU、Runwayの三者が共同で公開しました。
Stable Diffusionは、潜在拡散モデルというアルゴリズムを使って、画像をピクセル空間から潜在空間に圧縮し、ノイズを除去し、再びピクセル空間に逆変換することで、高品質な画像を生成します。
この方法は、人間の脳が画像を認識する方法に似ており、Stable Diffusionは、人間が画像を見たときに感じるような、現実感のある画像を生成することができます。
Stable Diffusionは、パソコンにインストールして利用する形態であるため、自由度の高い運用が可能です。
オープンソースAIとして公開されており、8GBのVRAMを持つGPUがあれば誰でも利用できます。
とはいえ、最近のStable Diffusionは多くの拡張技術を採用したことにより、12GBのVRAMでも画像が生成できない事例が発生しているとの声もあります。
また、Stable Diffusionはインターネット上からスクレイピングした何十億もの画像を学習しており、その画像の多くは著作権で保護されているため、倫理的・法的な問題が指摘されています。
このAIが使用する画像データには著作権の問題があり、提供元のStability AIに対して訴訟が起こされています。