Pika、北京大学、スタンフォード大学が共同で最新のテキスト画像生成/編集フレームワークをオープンソース化しました。 追加のトレーニングを行わなくても、拡散モデルはプロンプト単語を理解する能力を高めることができます。 非常に長く複雑なプロンプトワードに直面した場合でも、精度が向上し、詳細に対する制御が強化され、生成される画像はより自然になります。 その効果は最強の画像生成モデルDall·E 3やSDXLを凌駕します。 たとえば、絵には、左側に氷山、右側に火山というように、左右に氷と火のコントラストが求められる場合があります。 SDXL はプロンプトの要件をまったく満たしておらず、Dall E 3 は火山の詳細を生成しません。 生成された画像は、プロンプトワードを通じて再度編集することもできます。 これは、すでにネット上で熱い議論を巻き起こしているテキスト・画像生成・編集フレームワークRPG (Recaption、Plan、Generate)です。 これは北京大学、スタンフォード大学、Pika によって共同開発されました。著者には、北京大学コンピュータサイエンス学院の Cui Bin 教授、Pika の共同創設者兼 CTO の Chenlin Meng 氏などが含まれています。 フレームワーク コードは現在オープン ソースになっており、さまざまな大規模マルチモーダル モデル (MiniGPT-4 など) や拡散モデル バックボーン ネットワーク (ControlNet など) と互換性があります。 マルチモーダル大規模モデルの使用による機能強化拡散モデルは歴史的に、複雑な手がかり語を理解するのが比較的苦手でした。 既存の改善方法の中には、最終的に良い結果が得られなかったり、追加のトレーニングが必要になるものもあります。 そこで研究チームは、大規模なマルチモーダルモデルの理解能力を活用して、拡散モデルの組み合わせと制御性を高めました。 フレームワークの名前が示すように、モデルを「再記述、計画、生成」することができます。 このアプローチの中核となる戦略は次の 3 つです。 1. マルチモーダル再キャプション: 大規模なモデルを使用して複雑なテキストプロンプトを複数のサブプロンプトに分解し、各サブプロンプトをより詳細に再記述して、拡散モデルのプロンプト単語の理解能力を向上させます。 2. 思考の連鎖計画:マルチモーダル大規模モデルの思考の連鎖推論能力を活用して、画像空間を補完的なサブ領域に分割し、各サブ領域に異なるサブキューを一致させ、複雑な生成タスクを複数のより単純な生成タスクに分解します。 3. 補完的な領域拡散: 空間が分割された後、重複しない領域はそれぞれサブキューに基づいて画像を生成し、それらをつなぎ合わせます。 最後に、プロンプトワードの要件をよりよく満たす画像を生成できます。 RPG フレームワークでは、姿勢や深度などの情報も画像生成に使用できます。 ControlNet と比較すると、RPG は入力プロンプトの単語をさらに分割できます。 ユーザー入力: 明るい部屋に、シャンパン色の長袖のフォーマルドレスを着て目を閉じた美しい黒髪の少女が立っています。部屋の左側にはピンクのバラが入った繊細な青い花瓶があり、右側には鮮やかな白いバラがいくつかありました。 基本的なプロンプト語: かわいい女の子が明るい部屋に立っています。 エリア0: ピンクのバラが入った繊細な青い花瓶 エリア1:目を閉じてシャンパンカラーの長袖のフォーマルドレスを着た美しい黒髪の少女。 ゾーン 2: 鮮やかな白いバラ。 画像生成と編集の閉ループも実現できます。 実験的な比較から、RPG は色、形状、スペース、テキストの精度の点で他の画像生成モデルを上回っています。 研究チームこの研究には北京大学のリン・ヤン氏とチャオチェン・ユー氏の2人の共同筆頭著者がいる。 他の共著者には、AI スタートアップ Pika の共同創設者兼 CTO である Chenlin Meng氏が含まれます。 彼女はスタンフォード大学でコンピューターサイエンスの博士号を取得しており、コンピュータービジョンと 3D ビジョンに関する幅広い学術経験を持っています。彼女が参加した Denoising Diffusion Implicit Model (DDIM) の論文は、現在 1,700 回以上引用されています。さらに、ICLR、NeurIPS、CVPR、ICMLなどのトップカンファレンスで生成AI関連の研究論文が多数発表されており、その多くが口頭発表に選ばれています。 昨年、Pika は AI 動画生成製品 Pika 1.0 で瞬く間にヒットしました。スタンフォード大学の中国人女性博士 2 人によって設立されたという事実が、さらに注目を集めました。 △左が郭文静(ピカCEO)、右が孟陳林 この研究には、北京大学コンピュータサイエンス学院副学部長兼データサイエンス・エンジニアリング研究所所長の崔斌教授も参加している。 さらに、スタンフォードAIラボの博士号を持つミンカイ・シュー氏とスタンフォード大学の助教授であるステファノ・エルモン氏もこの研究に参加しました。 論文アドレス: https://arxiv.org/abs/2401.11708 コードアドレス: https://github.com/YangLing0818/RPG-DiffusionMaster |
<<: おそらく2030年までに、量子コンピューティングのChatGPTの瞬間が到来するだろう
[[350689]]今日、ほとんどの組織は人工知能が遍在する世界に向けて準備を進めています。この進化...
[51CTO.com クイック翻訳] Heroku Cloud は、Web 開発者や機械学習愛好家の...
7月29日のニュース、海外メディアの報道によると、マイクロソフトは投資家に対し、グラフィックス・プロ...
名前にちなんでFacebookとしても知られるMateは、顔認識システムを無効化し、10億人以上の個...
(2019年11月21日、東京)Langogoは現地時間午前11時に神田明神文化交流センターで201...
「たった30分の昼休みを取っただけで、私たちの分野はまた変わってしまったのか?」最新のオープンソース...
2月10日、QQ誕生23周年にあたり、テンセントQQチームは、これまでのテスト段階を経て、スーパー...
AIビデオトラックのPika 1.0は最近非常に人気があります。2人の中国人創業者のチームが半年で...
ディープラーニングの急速な発展に伴い、テキスト分類、感情分析など、学術界では毎年多くの高品質な注釈付...
現代では、意図的か否かに関わらず、私たちは皆、人工知能に触れたり、人工知能を使用したりしています。私...
2020 年には人工知能 (AI) が飛躍的に進歩し、機械学習はこのテクノロジーの最も成功し、広く普...
製造業における AI に関する誇大宣伝の多くは産業オートメーションに焦点を当てていますが、これはスマ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...