Meta がマルチモーダル性を再定義します!北京大学の卒業生が共同で作成した70億パラメータのテキストグラフモデルが拡散に打ち勝つ

メタが再び爆発する！

つい最近、Meta は Transformer ベースのマルチモーダルモデルである CM3leon をリリースしました。これはテキスト画像と画像理解の分野で絶対的な進歩を遂げており、同種のモデルの中では最高のものと考えられています。

さらに、複数のモダリティを単一のモデルに組み合わせるというこの手法は、これまで公開されていた AI システムでは前例のないものです。

写真

明らかに、Meta の研究はマルチモーダル AI の新しい標準を定義し、AI システムが画像、ビデオ、テキストの理解、編集、生成などのタスクを自由に切り替えられることを示しています。

同時に、CM3leon のリリースは、自己回帰モデルが主要なベンチマークで主要な生成拡散モデルに匹敵するパフォーマンスを達成した初めての公式記録となります。

写真

論文アドレス: https://ai.meta.com/research/publications/scaling-autoregressive-multi-modal-models-pretraining-and-instruction-tuning/

これまで、文勝図分野で最も人気のある3つのスターモデルは、Stable Diffusion、DALL-E、Midjourneyでした。 Wensheng グラフテクノロジーは基本的に拡散モデルに依存しています。

しかし、CM3leon の革命的な意義は、トークナイザーベースの自己回帰モデルというまったく異なるテクノロジーを使用していることにあります。

結果は、トークナイザーベースの自己回帰モデルが拡散モデルベースの方法よりも効果的で、テキストグラフの分野で SOTA を達成するだけでなく、トレーニングの計算の複雑さが以前のトランスフォーマーベースの方法の 5 分の 1 であることも示しています。

準備をしてください、クールなエフェクトの波が来ます

生のパフォーマンス指標だけではあまり多くのことはわかりません。

CM3leon が真価を発揮するのは、より複雑なプロンプトや画像編集タスクを処理するときです。

素晴らしい結果で画像を正確にレンダリング

たとえば、「サハラ砂漠で麦わら帽子とネオンサングラスをかけた小さなサボテン」といった手がかりから、画像を正確にレンダリングできます。

任意のプロンプトで好きなように画像を編集します

CM3leon には、空の色を変更したり、特定の場所にオブジェクトを追加したりするなど、自由形式のテキスト指示に基づいて既存の画像を編集できるというユニークな機能もあります。

上記の機能は、DALL-E 2 などのモデルで実現できる機能をはるかに超えています。

写真

前例のないマルチモーダル単一モデル

CM3leon の多用途なアーキテクチャにより、テキスト、画像、構成タスクをスムーズかつ自由に切り替えることができます。

CNN の機能に加えて、CM3leon は画像の注釈を生成したり、画像の内容に関する質問に答えたり、境界ボックスやセグメンテーションマップのテキスト説明から画像を作成したりすることもできます。

このように複数のモダリティを単一のモデルに組み合わせることは、公開されている AI システムでは前例のないことです。

プロンプト: 犬は何を持っていますか?模範解答: 棒。

プロンプト: 与えられた画像を詳しく説明してください。模範解答: この画像では、犬が口に棒をくわえています。地面には草が生えています。画像の背景には木々があります。

写真

画像の境界ボックスのセグメンテーションのテキスト記述が与えられ、画像内のどこに水たまりや鏡が必要かが示されると、CM3leon は指示どおりに対応する画像を生成できます。

写真

超高解像度

別個の超解像度プラットフォームを CM3leon 出力に統合することで、解像度と詳細度を大幅に向上させることができます。

入力プロンプト「湖の真ん中にある小さな丸い島、周囲を森林に囲まれ、コントラストが高い」——

AI画家問題の解決

AIが手を描けないという長年の課題も、CM3leonによって簡単に解決されました。

自己回帰モデルが初めて拡散モデルに勝つ？

近年非常に人気がある文勝図の分野では、Midjourney、DALL-E 2、Stable Diffusion はすべて拡散技術を採用しています。

拡散技術は優れた結果を生み出しますが、計算負荷が大きいため、実行コストが高く、リアルタイムアプリケーションに必要な速度が不足することがよくあります。

興味深いことに、OpenAI は数年前に Image GPT と呼ばれるモデルを通じて、Transformer を画像ジェネレーターとして利用する可能性を検討しました。しかし、最終的にはこのアイデアを放棄し、Diffusion を採用しました。

CM3leon はまったく異なるアプローチを採用しています。 Transformer ベースのモデルとして、アテンションメカニズムを利用して入力データ (テキストまたは画像) の関連性を評価します。

このアーキテクチャの違いにより、CM3leon はトレーニング速度の高速化と並列化の向上を実現し、従来の拡散ベースの方法よりも効率的になります。

CM3leon は、単一の TPU のみを使用して画像データセットで効果的にトレーニングされ、MS-COCO データセットで 4.88 の FID スコアを達成し、Google のテキストから画像への変換モデル Parti を上回りました。

同時に、CM3leon は同様の Transformer アーキテクチャよりも 5 倍以上効率的です。

写真

CM3leon の成功は、その独自のアーキテクチャとトレーニング方法によるものです。

その強力なパフォーマンスの鍵となるのは、教師あり微調整技術 (SFT) です。

SFT はこれまで ChatGPT などのテキスト生成モデルのトレーニングに使用され、良好な結果が得られてきましたが、Meta 氏は、画像領域に適用した場合にも有用であると考えています。

実際、命令の微調整により、CM3Leon の画像生成のパフォーマンスが向上するだけでなく、画像注釈の書き込みのパフォーマンスも向上し、画像に関する質問に答えたり、テキストの命令 (「空の色を明るい青に変更する」など) に従って画像を編集したりできるようになります。

CM3leon は、既存のテキストベースのモデルに似たデコーダーコンバーターアーキテクチャのみを採用していますが、テキストと画像を処理する機能が追加されています。

トレーニングプロセスには、さまざまな画像およびテキスト生成タスクにわたる検索の拡張と指示の微調整が含まれます。

クロスモーダルの教師あり微調整技術を適用することで、Meta は CM3leon の画像キャプション作成、ビジュアル QA、テキスト編集のパフォーマンスを大幅に向上させます。

CM3leon はわずか 30 億のテキストトークンでトレーニングされたにもかかわらず、最大 1,000 億のトークンでトレーニングされた他のモデルと同等かそれ以上の結果を達成しました。

テキストベースの言語モデルと同様の方法で微調整された最初のマルチモーダルモデルとして、Meta は CM3leon に大規模な検索強化型事前トレーニングステージと 2 番目のマルチタスク教師あり微調整 (SFT) ステージを組み込んでいます。

CM3leon のパフォーマンスはどうですか?

CM3leon のパワーにより、画像生成ツールはより一貫性のある画像を生成し、入力プロンプトにより適切に従うことができます。

以下は、さまざまなタスクにおける CM3leon の機能のデモンストレーションです。これらはすべて単一のモデルで実現されています。

テキストから画像への生成

テキストベースの画像編集（「空の色を明るい青に変更する」など）は、モデルがテキストの指示と視覚的なコンテンツの両方を理解する必要があるため、困難です。

特に、複雑なオブジェクトが関係している場合や、プロンプトに出力に表示される必要がある複数の制約が含まれている場合。

CM3leon は、高度に構造化されたプロンプトテキストに基づいて、指示に従った画像を生成できます。

（１）サハラ砂漠で麦わら帽子とネオンサングラスをかけた小さなサボテン

（２）人間の手のクローズアップ

（３）アニメの主人公アライグマは、サムライ刀を持って壮大な戦いに挑む準備をしている

（4）「1991」の文字が書かれたファンタジー風の一時停止標識

テキストベースの画像編集

画像とテキストプロンプトが与えられると、CM3leon はテキストの指示に従って画像を編集できます。

CM3leon モデルの汎用性により、テキストベースの画像編集用にのみ微調整された以前のモデル (InstructPix2Pix など) とは異なり、他のタスクと同じモデルでこれが実現されます。

写真

CM3leon モデルは、さまざまなプロンプトに基づいて短い説明や長い説明を生成し、画像に関する質問に答えることもできます。

例えば。

- ヒント:

質問: これら 2 つのオブジェクトの共通点は何ですか?

コンテキスト: 最適な回答を選択してください。

選択肢: (A) 光沢がある (B) 塩辛い

答え: 順を追って考えてみましょう:

- CM3Leon出力:

それぞれのオブジェクトについて考えてみましょう。チップスは塩辛い味がします。プレッツェルは塩辛いです。したがって答えは（B）です。

写真

- ヒント:

特定の画像内のすべてのオブジェクトを詳細に説明します。

- CM3Leon出力:

道路標識が金属の柱の上に立っています。ロゴは青で文字は白です。ポールに赤いライトが付いています。空は明るい青色です。路上に車が駐車されています。道の両側には木々が植えられています。通りの両側に建物があります。

写真

同様に、CM3leon は次の「画像による質問と回答」も簡単に処理できます。

写真

CM3leon をさらに理解するために、Meta は画像説明生成と視覚的質問応答タスクに関する命令微調整モデルを経験的に評価し、それらを以前の SOTA ベースラインと比較します。

Flamingo (100B) や OpenFlamingo (40B) と比較すると、CM3leon モデルのテキストデータ (約 3B トークン) は大幅に少なくなります。

しかし、MS-COCO 画像記述と VQA2 質問応答に関しては、CM3leon はゼロショット OpenFlamingo と同じパフォーマンスを達成し、VizWiz タスクでは Flamingo を 10 パーセント近く上回っています。

写真

構造ガイドによる画像編集

構造ガイドによる画像編集は、提供されたテキスト指示と構造またはレイアウト情報を理解して解釈することを目的としています。

これにより、CM3leon モデルは、指定された構造またはレイアウトの指示に従いながら、視覚的に一貫性があり、コンテキストに適した画像編集を作成できます。

セグメント化された画像のみ（テキストカテゴリなし）を含む画像を生成します。ここで、入力はセグメンテーションが抽出される画像を表します。

写真

超解像度

これに加えて、画像生成の分野でよく使われる手法として、別途トレーニングされた超解像ステージを使用して、元のモデル出力からより高解像度の画像を生成するというものがあります。

CM3leon は、このタイプのテキストから画像への生成タスクでも非常に優れたパフォーマンスを発揮します。

（１）旅の途中で休憩を取り、山々を背景に湯気の立つコーヒーを飲む

（２）夕日に照らされた美しく雄大なハイウェイ

（３）湖の中央にある、森に囲まれた小さな円形の島

そして、いくつかの「ファンタジー」スタイルの生成。

写真

（１）水中を泳ぐウミガメ

（２）水中を泳ぐゾウ

（２）羊の群れ

CM3Leonの構築方法

建築

アーキテクチャの面では、CM3Leon は成熟したテキストモデルに似たデコーダーのみのトランスフォーマーを使用します。

しかし、CM3Leon はテキストと画像を入力して生成できるという点が異なります。

電車

Meta は、論文「検索強化型マルチモーダル言語モデリング」で提案されたトレーニング検索強化技術を採用することで、CM3Leon モデルの効率と制御性を大幅に向上させました。

同時に、Meta はさまざまな画像およびテキスト生成タスクで CM3Leon モデルを微調整しました。

写真

左: さまざまなタスクの共通入力。右: 対応するモデル出力。

トレーニング中、Meta はモデルの入力と出力を連結し、事前トレーニングフェーズと同じ目的を使用してトレーニングを行います。

AI業界が進歩し続けるにつれて、CM3Leonのような生成モデルはますます洗練されていきます。

これらのモデルは、何百万ものサンプル画像をトレーニングすることで視覚とテキストの関係を学習しますが、トレーニングデータに存在するバイアスを反映することもあります。

そのため、Meta はライセンスされたデータセットを使用して CM3Leon をトレーニングしました。

結果はまた、データの分布が以前のモデルとはまったく異なるにもかかわらず、CM3Leon が依然として強力なパフォーマンスを達成していることを証明しています。

この点に関して、Meta は、全員の共同の努力により、より正確で公平かつ公正なモデルが構築されることを期待しています。

マルチモーダル言語モデルへの道を開く

全体として、Meta は、CM3Leon がさまざまなタスクで優れたパフォーマンスを発揮することは、よりリアルな画像の生成と理解に向けた重要なステップであると考えています。

このようなモデルは、最終的には創造性を高め、メタバースにおけるより優れたアプリケーションを可能にすることに役立ちます。

著者について

Lili Yu、Bowen Shi、Ramakanth Pasunuru が本論文の共同筆頭著者である。

そのうち、リリ・ユーさんは北京大学で物理学の学士号を取得し、マサチューセッツ工科大学で電気工学とコンピューターサイエンスの博士号を取得しました。

写真

<<: 量子超越性のマイルストーン！ Googleの量子コンピュータは47年分の計算を6秒で完了し、世界初のスーパーコンピュータを上回る

>>:

AI のゴッドファーザーであるヒントンは、なぜ自らが作り出した人工知能を恐れているのでしょうか?

ブログ

Meta がマルチモーダル性を再定義します!北京大学の卒業生が共同で作成した70億パラメータのテキストグラフモデルが拡散に打ち勝つ

準備をしてください、クールなエフェクトの波が来ます

自己回帰モデルが初めて拡散モデルに勝つ？

CM3leon のパフォーマンスはどうですか?

CM3Leonの構築方法

著者について

AI のゴッドファーザーであるヒントンは、なぜ自らが作り出した人工知能を恐れているのでしょうか?

エンタープライズ AI プラットフォーム選択ガイド

人工知能の本質的な「差別」を排除する方法

人工知能と機械学習のための 20 の Python オープンソースプロジェクト

小売業界のトレンド: 人工知能からクーポンコードまで

推薦する

脳コンピューターインターフェースツール：脳波からテキストまで、必要なのは機械翻訳モデルだけ

ロビン・リー、馬化騰、ジャック・マーがAIについて語る: 世界は劇的に変化しています。心配するのではなく、責任を取るべきです。

一般的な機械学習アルゴリズム11種の紹介

マッピングドローンは多くの「ファン」を獲得しており、これらの利点は刺激的です

OpenAI のもう一つの「大ヒット作」: AI に芸術的創造性を与える

フォーカス | 機械学習に役立つ 7 つのクラウドコンピューティングサービス

テンセントの最新 AI ツールが画面いっぱいに登場!ヤン・ミーのマルチスタイルの写真が数秒で生成され、ルクンが気に入っている

欧州が世界クラスの人工知能研究機関を建設へ

DeepMind は 35 万個の予測タンパク質構造を公開し、新たなマイルストーンを達成しました。国内の専門家 5 人はどう考えているのでしょうか?

コンピュータニュース 2017年第6号 - 人工知能は会話から始まる

政府データ保護におけるAIの役割