拡散モデルは複雑なプロンプト単語をよりよく理解します。 Pika、北京大学、スタンフォード大学がLLMを使用して理解を深める新しいフレームワークをオープンソース化

Pika、北京大学、スタンフォード大学が共同で最新のテキスト画像生成/編集フレームワークをオープンソース化しました。

追加のトレーニングを行わなくても、拡散モデルはプロンプト単語を理解する能力を高めることができます。

非常に長く複雑なプロンプトワードに直面した場合でも、精度が向上し、詳細に対する制御が強化され、生成される画像はより自然になります。

その効果は最強の画像生成モデルDall·E 3やSDXLを凌駕します。

たとえば、絵には、左側に氷山、右側に火山というように、左右に氷と火のコントラストが求められる場合があります。

SDXL はプロンプトの要件をまったく満たしておらず、Dall E 3 は火山の詳細を生成しません。

生成された画像は、プロンプトワードを通じて再度編集することもできます。

これは、すでにネット上で熱い議論を巻き起こしているテキスト・画像生成・編集フレームワークRPG （Recaption、Plan、Generate）です。

これは北京大学、スタンフォード大学、Pika によって共同開発されました。著者には、北京大学コンピュータサイエンス学院の Cui Bin 教授、Pika の共同創設者兼 CTO の Chenlin Meng 氏などが含まれています。

フレームワークコードは現在オープンソースになっており、さまざまな大規模マルチモーダルモデル (MiniGPT-4 など) や拡散モデルバックボーンネットワーク (ControlNet など) と互換性があります。

マルチモーダル大規模モデルの使用による機能強化

拡散モデルは歴史的に、複雑な手がかり語を理解するのが比較的苦手でした。

既存の改善方法の中には、最終的に良い結果が得られなかったり、追加のトレーニングが必要になるものもあります。

そこで研究チームは、大規模なマルチモーダルモデルの理解能力を活用して、拡散モデルの組み合わせと制御性を高めました。

フレームワークの名前が示すように、モデルを「再記述、計画、生成」することができます。

このアプローチの中核となる戦略は次の 3 つです。

1. マルチモーダル再キャプション: 大規模なモデルを使用して複雑なテキストプロンプトを複数のサブプロンプトに分解し、各サブプロンプトをより詳細に再記述して、拡散モデルのプロンプト単語の理解能力を向上させます。

2. 思考の連鎖計画：マルチモーダル大規模モデルの思考の連鎖推論能力を活用して、画像空間を補完的なサブ領域に分割し、各サブ領域に異なるサブキューを一致させ、複雑な生成タスクを複数のより単純な生成タスクに分解します。

3. 補完的な領域拡散: 空間が分割された後、重複しない領域はそれぞれサブキューに基づいて画像を生成し、それらをつなぎ合わせます。

最後に、プロンプトワードの要件をよりよく満たす画像を生成できます。

RPG フレームワークでは、姿勢や深度などの情報も画像生成に使用できます。

ControlNet と比較すると、RPG は入力プロンプトの単語をさらに分割できます。

ユーザー入力: 明るい部屋に、シャンパン色の長袖のフォーマルドレスを着て目を閉じた美しい黒髪の少女が立っています。部屋の左側にはピンクのバラが入った繊細な青い花瓶があり、右側には鮮やかな白いバラがいくつかありました。

基本的なプロンプト語: かわいい女の子が明るい部屋に立っています。

エリア0: ピンクのバラが入った繊細な青い花瓶

エリア1：目を閉じてシャンパンカラーの長袖のフォーマルドレスを着た美しい黒髪の少女。

ゾーン 2: 鮮やかな白いバラ。

画像生成と編集の閉ループも実現できます。

実験的な比較から、RPG は色、形状、スペース、テキストの精度の点で他の画像生成モデルを上回っています。

研究チーム

この研究には北京大学のリン・ヤン氏とチャオチェン・ユー氏の2人の共同筆頭著者がいる。

他の共著者には、AI スタートアップ Pika の共同創設者兼 CTO である Chenlin Meng氏が含まれます。

彼女はスタンフォード大学でコンピューターサイエンスの博士号を取得しており、コンピュータービジョンと 3D ビジョンに関する幅広い学術経験を持っています。彼女が参加した Denoising Diffusion Implicit Model (DDIM) の論文は、現在 1,700 回以上引用されています。さらに、ICLR、NeurIPS、CVPR、ICMLなどのトップカンファレンスで生成AI関連の研究論文が多数発表されており、その多くが口頭発表に選ばれています。

昨年、Pika は AI 動画生成製品 Pika 1.0 で瞬く間にヒットしました。スタンフォード大学の中国人女性博士 2 人によって設立されたという事実が、さらに注目を集めました。

△左が郭文静（ピカCEO）、右が孟陳林

この研究には、北京大学コンピュータサイエンス学院副学部長兼データサイエンス・エンジニアリング研究所所長の崔斌教授も参加している。

さらに、スタンフォードAIラボの博士号を持つミンカイ・シュー氏とスタンフォード大学の助教授であるステファノ・エルモン氏もこの研究に参加しました。

論文アドレス: https://arxiv.org/abs/2401.11708

コードアドレス: https://github.com/YangLing0818/RPG-DiffusionMaster

<<: おそらく2030年までに、量子コンピューティングのChatGPTの瞬間が到来するだろう

>>: