拡散モデルは複雑なプロンプト単語をよりよく理解します。 Pika、北京大学、スタンフォード大学がLLMを使用して理解を深める新しいフレームワークをオープンソース化

拡散モデルは複雑なプロンプト単語をよりよく理解します。 Pika、北京大学、スタンフォード大学がLLMを使用して理解を深める新しいフレームワークをオープンソース化

Pika、北京大学、スタンフォード大学が共同で最新のテキスト画像生成/編集フレームワークをオープンソース化しました

追加のトレーニングを行わなくても、拡散モデルはプロンプト単語を理解する能力を高めることができます。

非常に長く複雑なプロンプトワードに直面した場合でも、精度が向上し、詳細に対する制御が強化され、生成される画像はより自然になります。

その効果は最強の画像生成モデルDall·E 3やSDXLを凌駕します。

たとえば、絵には、左側に氷山、右側に火山というように、左右に氷と火のコントラストが求められる場合があります。

SDXL はプロンプトの要件をまったく満たしておらず、Dall E 3 は火山の詳細を生成しません。

生成された画像は、プロンプトワードを通じて再度編集することもできます。

これは、すでにネット上で熱い議論を巻き起こしているテキスト・画像生成・編集フレームワークRPG (Recaption、Plan、Generate)です。

これは北京大学、スタンフォード大学、Pika によって共同開発されました。著者には、北京大学コンピュータサイエンス学院の Cui Bin 教授、Pika の共同創設者兼 CTO の Chenlin Meng 氏などが含まれています。

フレームワーク コードは現在オープン ソースになっており、さまざまな大規模マルチモーダル モデル (MiniGPT-4 など) や拡散モデル バックボーン ネットワーク (ControlNet など) と互換性があります。

マルチモーダル大規模モデルの使用による機能強化

拡散モデルは歴史的に、複雑な手がかり語を理解するのが比較的苦手でした。

既存の改善方法の中には、最終的に良い結果が得られなかったり、追加のトレーニングが必要になるものもあります。

そこで研究チームは、大規模なマルチモーダルモデルの理解能力を活用して、拡散モデルの組み合わせと制御性を高めました。

フレームワークの名前が示すように、モデルを「再記述、計画、生成」することができます。

このアプローチの中核となる戦略は次の 3 つです。

1. マルチモーダル再キャプション: 大規模なモデルを使用して複雑なテキストプロンプトを複数のサブプロンプトに分解し、各サブプロンプトをより詳細に再記述して、拡散モデルのプロンプト単語の理解能力を向上させます。

2. 思考の連鎖計画:マルチモーダル大規模モデルの思考の連鎖推論能力を活用して、画像空間を補完的なサブ領域に分割し、各サブ領域に異なるサブキューを一致させ、複雑な生成タスクを複数のより単純な生成タスクに分解します。

3. 補完的な領域拡散: 空間が分割された後、重複しない領域はそれぞれサブキューに基づいて画像を生成し、それらをつなぎ合わせます。

最後に、プロンプトワードの要件をよりよく満たす画像を生成できます。

RPG フレームワークでは、姿勢や深度などの情報も画像生成に使用できます。

ControlNet と比較すると、RPG は入力プロンプトの単語をさらに分割できます。

ユーザー入力: 明るい部屋に、シャンパン色の長袖のフォーマルドレスを着て目を閉じた美しい黒髪の少女が立っています。部屋の左側にはピンクのバラが入った繊細な青い花瓶があり、右側には鮮やかな白いバラがいくつかありました。

基本的なプロンプト語: かわいい女の子が明るい部屋に立っています。

エリア0: ピンクのバラが入った繊細な青い花瓶

エリア1:目を閉じてシャンパンカラーの長袖のフォーマルドレスを着た美しい黒髪の少女。

ゾーン 2: 鮮やかな白いバラ。

画像生成と編集の閉ループも実現できます。

実験的な比較から、RPG は色、形状、スペース、テキストの精度の点で他の画像生成モデルを上回っています。

研究チーム

この研究には北京大学のリン・ヤン氏とチャオチェン・ユー氏の2人の共同筆頭著者がいる。

他の共著者には、AI スタートアップ Pika の共同創設者兼 CTO である Chenlin Meng氏が含まれます。

彼女はスタンフォード大学でコンピューターサイエンスの博士号を取得しており、コンピュータービジョンと 3D ビジョンに関する幅広い学術経験を持っています。彼女が参加した Denoising Diffusion Implicit Model (DDIM) の論文は、現在 1,700 回以上引用されています。さらに、ICLR、NeurIPS、CVPR、ICMLなどのトップカンファレンスで生成AI関連の研究論文が多数発表されており、その多くが口頭発表に選ばれています。

昨年、Pika は AI 動画生成製品 Pika 1.0 で瞬く間にヒットしました。スタンフォード大学の中国人女性博士 2 人によって設立されたという事実が、さらに注目を集めました。

△左が郭文静(ピカCEO)、右が孟陳林

この研究には、北京大学コンピュータサイエンス学院副学部長兼データサイエンス・エンジニアリング研究所所長の崔斌教授も参加している。

さらに、スタンフォードAIラボの博士号を持つミンカイ・シュー氏とスタンフォード大学の助教授であるステファノ・エルモン氏もこの研究に参加しました。

論文アドレス: https://arxiv.org/abs/2401.11708

コードアドレス: https://github.com/YangLing0818/RPG-DiffusionMaster

<<:  おそらく2030年までに、量子コンピューティングのChatGPTの瞬間が到来するだろう

>>: 

推薦する

...

組織内の AI スキルを向上させる 3 つのステップ

[[350689]]今日、ほとんどの組織は人工知能が遍在する世界に向けて準備を進めています。この進化...

Heroku クラウドにディープラーニング Web アプリケーションをデプロイするためのヒントとコツ

[51CTO.com クイック翻訳] Heroku Cloud は、Web 開発者や機械学習愛好家の...

マイクロソフト、データセンターに十分なAIチップが供給されない場合、サービスが中断すると警告

7月29日のニュース、海外メディアの報道によると、マイクロソフトは投資家に対し、グラフィックス・プロ...

Facebook は顔認識を中止することで本当にリスクを回避しているのでしょうか?人種差別は致命的である

名前にちなんでFacebookとしても知られるMateは、顔認識システムを無効化し、10億人以上の個...

Langogo 2019 東京カンファレンス: 4 つの新製品が衝撃的なデビューを飾り、メディア界で話題に

(2019年11月21日、東京)Langogoは現地時間午前11時に神田明神文化交流センターで201...

Llama 2を破り、GPT-3.5と競合するStability AIの新モデルがオープンソースの大規模モデルのリストでトップに

「たった30分の昼休みを取っただけで、私たちの分野はまた変わってしまったのか?」最新のオープンソース...

QQがスーパーQQショーを開始:3D HDモデルが顔認識AIフェイスピンチをサポート

2月10日、QQ誕生23周年にあたり、テンセントQQチームは、これまでのテスト段階を経て、スーパー...

...

DAMOアカデミーは、初めて半教師あり知識注入を使用して、新しい事前トレーニング済み対話モデルを立ち上げ、大幅な改善を達成しました。

ディープラーニングの急速な発展に伴い、テキスト分類、感情分析など、学術界では毎年多くの高品質な注釈付...

ビジネスにおいて人工知能との共生関係を築くには?

現代では、意図的か否かに関わらず、私たちは皆、人工知能に触れたり、人工知能を使用したりしています。私...

2020 年に注目すべき 6 つの機械学習のユースケース

2020 年には人工知能 (AI) が飛躍的に進歩し、機械学習はこのテクノロジーの最も成功し、広く普...

人工知能: インダストリー4.0の原動力

製造業における AI に関する誇大宣伝の多くは産業オートメーションに焦点を当てていますが、これはスマ...

長文情報の精度はChatGPTを上回る、Metaは大規模モデルの幻覚を軽減する新手法を提案

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...