拡散モデルは複雑なプロンプト単語をよりよく理解します。 Pika、北京大学、スタンフォード大学がLLMを使用して理解を深める新しいフレームワークをオープンソース化

拡散モデルは複雑なプロンプト単語をよりよく理解します。 Pika、北京大学、スタンフォード大学がLLMを使用して理解を深める新しいフレームワークをオープンソース化

Pika、北京大学、スタンフォード大学が共同で最新のテキスト画像生成/編集フレームワークをオープンソース化しました

追加のトレーニングを行わなくても、拡散モデルはプロンプト単語を理解する能力を高めることができます。

非常に長く複雑なプロンプトワードに直面した場合でも、精度が向上し、詳細に対する制御が強化され、生成される画像はより自然になります。

その効果は最強の画像生成モデルDall·E 3やSDXLを凌駕します。

たとえば、絵には、左側に氷山、右側に火山というように、左右に氷と火のコントラストが求められる場合があります。

SDXL はプロンプトの要件をまったく満たしておらず、Dall E 3 は火山の詳細を生成しません。

生成された画像は、プロンプトワードを通じて再度編集することもできます。

これは、すでにネット上で熱い議論を巻き起こしているテキスト・画像生成・編集フレームワークRPG (Recaption、Plan、Generate)です。

これは北京大学、スタンフォード大学、Pika によって共同開発されました。著者には、北京大学コンピュータサイエンス学院の Cui Bin 教授、Pika の共同創設者兼 CTO の Chenlin Meng 氏などが含まれています。

フレームワーク コードは現在オープン ソースになっており、さまざまな大規模マルチモーダル モデル (MiniGPT-4 など) や拡散モデル バックボーン ネットワーク (ControlNet など) と互換性があります。

マルチモーダル大規模モデルの使用による機能強化

拡散モデルは歴史的に、複雑な手がかり語を理解するのが比較的苦手でした。

既存の改善方法の中には、最終的に良い結果が得られなかったり、追加のトレーニングが必要になるものもあります。

そこで研究チームは、大規模なマルチモーダルモデルの理解能力を活用して、拡散モデルの組み合わせと制御性を高めました。

フレームワークの名前が示すように、モデルを「再記述、計画、生成」することができます。

このアプローチの中核となる戦略は次の 3 つです。

1. マルチモーダル再キャプション: 大規模なモデルを使用して複雑なテキストプロンプトを複数のサブプロンプトに分解し、各サブプロンプトをより詳細に再記述して、拡散モデルのプロンプト単語の理解能力を向上させます。

2. 思考の連鎖計画:マルチモーダル大規模モデルの思考の連鎖推論能力を活用して、画像空間を補完的なサブ領域に分割し、各サブ領域に異なるサブキューを一致させ、複雑な生成タスクを複数のより単純な生成タスクに分解します。

3. 補完的な領域拡散: 空間が分割された後、重複しない領域はそれぞれサブキューに基づいて画像を生成し、それらをつなぎ合わせます。

最後に、プロンプトワードの要件をよりよく満たす画像を生成できます。

RPG フレームワークでは、姿勢や深度などの情報も画像生成に使用できます。

ControlNet と比較すると、RPG は入力プロンプトの単語をさらに分割できます。

ユーザー入力: 明るい部屋に、シャンパン色の長袖のフォーマルドレスを着て目を閉じた美しい黒髪の少女が立っています。部屋の左側にはピンクのバラが入った繊細な青い花瓶があり、右側には鮮やかな白いバラがいくつかありました。

基本的なプロンプト語: かわいい女の子が明るい部屋に立っています。

エリア0: ピンクのバラが入った繊細な青い花瓶

エリア1:目を閉じてシャンパンカラーの長袖のフォーマルドレスを着た美しい黒髪の少女。

ゾーン 2: 鮮やかな白いバラ。

画像生成と編集の閉ループも実現できます。

実験的な比較から、RPG は色、形状、スペース、テキストの精度の点で他の画像生成モデルを上回っています。

研究チーム

この研究には北京大学のリン・ヤン氏とチャオチェン・ユー氏の2人の共同筆頭著者がいる。

他の共著者には、AI スタートアップ Pika の共同創設者兼 CTO である Chenlin Meng氏が含まれます。

彼女はスタンフォード大学でコンピューターサイエンスの博士号を取得しており、コンピュータービジョンと 3D ビジョンに関する幅広い学術経験を持っています。彼女が参加した Denoising Diffusion Implicit Model (DDIM) の論文は、現在 1,700 回以上引用されています。さらに、ICLR、NeurIPS、CVPR、ICMLなどのトップカンファレンスで生成AI関連の研究論文が多数発表されており、その多くが口頭発表に選ばれています。

昨年、Pika は AI 動画生成製品 Pika 1.0 で瞬く間にヒットしました。スタンフォード大学の中国人女性博士 2 人によって設立されたという事実が、さらに注目を集めました。

△左が郭文静(ピカCEO)、右が孟陳林

この研究には、北京大学コンピュータサイエンス学院副学部長兼データサイエンス・エンジニアリング研究所所長の崔斌教授も参加している。

さらに、スタンフォードAIラボの博士号を持つミンカイ・シュー氏とスタンフォード大学の助教授であるステファノ・エルモン氏もこの研究に参加しました。

論文アドレス: https://arxiv.org/abs/2401.11708

コードアドレス: https://github.com/YangLing0818/RPG-DiffusionMaster

<<:  おそらく2030年までに、量子コンピューティングのChatGPTの瞬間が到来するだろう

>>: 

ブログ    
ブログ    

推薦する

解読: ボストン ダイナミクスがアルゴリズムを使用してアトラス ロボットの感覚世界を構築する方法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

賢明な企業はヘルスケアにおける認知AIの成功から学ぶことができる

認知技術は世界最大の課題を解決するために使用されています。この記事では、企業が認知 AI をどのよう...

2020 年の AI トレンド トップ 10

デジタル労働力をサポートし維持するために職場で AI が普及することは、2020 年の明確なトレンド...

SaaS アプリケーションで AI スノーボールはどのように大きくなるのでしょうか?

Shopify の不正防止機械学習から Salesforce の Einstein まで、過去数年...

ディープラーニングツール: TensorFlow と NLP モデル

[[200204]]序文自然言語処理 (略して NLP) は、コンピューターが人間の言語を処理する方...

知っておくべきビッグデータ用語 75 選

パート1(25用語)ビッグデータに不慣れな場合、この分野を理解したり、どこから始めればよいのかわから...

今後5年間のAI技術の発展と影響を展望する

人工知能 (AI) テクノロジーは、ビジネス プロセスの合理化、運用コストの削減、面倒なタスクの自動...

Google Cloud データベースに AI 機能が追加

Google Cloud は、顧客による人工知能アプリケーションの開発を促進するために、BigQue...

...

...

ムスク・ニューラリンクに挑戦!スタンフォード大学の新しい脳コンピューターインターフェースは脳とシリコンベースのチップを直接接続する

[[319624]]最近、スタンフォード大学の研究者らは、脳をシリコンベースの技術に直接接続できる新...

AIを活用した超解像技術の実装

近年、ディープラーニング技術の急速な発展に伴い、AIベースの超解像技術は画像修復や画像強調の分野で幅...

電源なしで形を変えるソフトロボット「ロールボット」

海外メディアの報道によると、ハーバード大学ジョン・A・ポールソン工学・応用科学大学院(SEAS)とカ...

強風にも耐えられるドローン?カリフォルニア工科大学は12分間の飛行データを使い、ドローンに風の中での飛行を教える

傘が吹き飛ばされるほど風が強いときでも、ドローンは次のように安定した状態を保ちます。風に乗ることは、...