安定拡散法を使って超リアルな人間の顔を生成する3つの方法

翻訳者 |ブガッティ

レビュー | Chonglou

他の人はAI画像を使って超リアルな顔を生成できるのに、自分の顔は欠陥や歪みだらけで明らかに偽物のように見えてしまうのはなぜだろう、と不思議に思ったことはありませんか?プロンプトや設定を調整してみましたが、他の人が生成した画像の品質に匹敵することができませんでした。何を間違えたのですか?

このブログ記事では、Stable Diffusion を使用して超リアルな人間の顔を生成するための3 つの主要な手法について説明します。まず、基本モデルを使用して画像を生成できるように、プロンプトエンジニアリングの基礎について説明します。次に、安定拡散へのアップグレード方法について説明します。 XLモデルは、より大きなパラメータとトレーニングを通じて画像の品質を大幅に向上させることができます。最後に、高品質な画像を生成するために特別に設計されたカスタムモデルを紹介します。

1.迅速なエンジニアリング

まず、現実的な顔を生成するために、肯定的な手がかりと否定的な手がかりを書く方法を学びます。 Hugging Face Spacesで入手可能なStable Diffusionバージョン2.1デモを使用します。無料で、始めるために何も設定する必要はありません。

リンク: hf.co/spaces/stabilityai/stable-diffusion

ポジティブなプロンプトを作成するときは、画像の必要な詳細とスタイルをすべて含めるようにしてください。この例では、通りを歩いている若い女性の画像を生成したいと考えています。基本的な否定的な手がかりを使用しますが、画像内での間違いの繰り返しを避けるために、追加のキーワードを追加することもできます。

ポジティブなヒント: 「 20 代の若い女性が、都会の街の風景を背景に、晴れた日中の光と明るい色彩の中、自信に満ちたフレンドリーな表情でカメラをまっすぐに見つめながら、カジュアルでモダンでスタイリッシュな服を着て通りを歩いています。」

否定的なヒント: 「醜い外観、醜い、未熟、漫画、アニメ、 3D 、描画、漫画、イラスト、最悪な品質、低品質」。

順調なスタートを切りました。画像は正確ですが、画像の品質は改善の余地があります。ヒントを微調整することもできますが、これが基本モデルから得られる最良のものです。

2.安定拡散 XL

安定拡散法を使用する高品質の画像を生成するためのXL ( SDXL )モデル。潜在画像はまずベースモードを使用して生成され、次にリファイナーを使用して処理され、詳細で正確な画像が生成されます。

リンク: hf.co/spaces/hysts/SD-XL

画像を生成する前に、下にスクロールして「詳細オプション」を開きます。ネガティブヒントを追加し、シードを設定し、リファイナーを適用して、最高の画像品質を実現します。

次に、いくつかの小さな変更を加えて、前と同じプロンプトを記述します。一般的な若い女性の画像を生成する代わりに、若いインド人女性の画像を生成します。

この結果は大幅に改善されました。顔立ちも完璧です。他の民族の顔を生成して、偏りがないか確認し、結果を比較してみましょう。

リアルな顔が撮れますが、すべての画像にInstagramフィルターがかかっています。通常、実際の肌は滑らかではなく、ニキビ、シミ、そばかす、シワがあります。

3. CivitAI : RealVisXL V2.0

この部分では、傷跡とリアルな肌を持つ詳細な人間の顔を生成します。この目的のために、高品質の画像を取得するために微調整されたCivitAIのカスタムモデル( RealVisXL V2.0 )を使用します。

リンク: civitai.com/models/139562/realvisxl-v20

「作成」ボタンをクリックしてモデルをオンラインで使用したり、 Stable Diffusion WebUIからダウンロードしてローカルで使用することもできます。

まず、モデルをダウンロードし、ファイルをStable Diffusion Web UIモデルディレクトリ( C:\WebUI\ webui \models\Stable- Diffusion)に移動します。

Web UIにモデルを表示するには、更新ボタンを押して、「 realvisxl20… 」モデルチェックポイントを選択する必要があります。

まず、同一の肯定プロンプトと否定プロンプトを記述して、高品質の 1024X1024 画像を生成します。

この写真は完璧ですね。カスタムモデルを最大限に活用するには、プロンプトを変更する必要があります。

モデルページを下にスクロールし、気に入ったフォトリアリスティックな画像をクリックすると、新しい肯定的および否定的なヒントが表示されます。 CivitAI の画像には、肯定的および否定的な手がかりと高度なステアリングが付属しています。

ポジティブなヒント: 「インドの若い女性の画像、集中力があり、決意に満ち、リアルで、ダイナミックなポーズ、超高解像度、シャープな質感、高精細の RAW 写真、繊細な人間の顔、浅い被写界深度、鋭い目、 (リアルな肌の質感: 1.2 ) 、明るい肌、 DSLR 、フィルムの質感」

否定的なプロンプト: 「(最低品質、低品質、イラスト、3D 、 2D 、絵画、漫画、スケッチ) 、口を開けて」

リアルな肌を持つインド人女性の詳細な画像があります。基本のSDXLモデルに比べて改良されたバージョンです。

異なる人種を比較するために、さらに3 つの画像を生成しました。肌の傷跡、肌の凹凸、顔の特徴の正確さなど、結果は驚くべきものでした。

結論は

ジェネレーティブアートの進歩は、まもなく現実の画像と合成画像を区別できないレベルに到達するでしょう。これは、さまざまな現実世界のデータに基づいてトレーニングされたカスタムモデルを使用して、簡単なテキストプロンプトから誰でも非常にリアルなスプレッド可能なメディアを作成できる未来を示しています。急速な進歩は刺激的な可能性を意味します。おそらく、いつの日か、リアルな動画を制作することが、説明文を入力するのと同じくらい簡単になるかもしれません。