Meta がマルチモーダル性を再定義します!北京大学の卒業生が共同で作成した70億パラメータのテキストグラフモデルが拡散に打ち勝つ

Meta がマルチモーダル性を再定義します!北京大学の卒業生が共同で作成した70億パラメータのテキストグラフモデルが拡散に打ち勝つ

メタが再び爆発する!

つい最近、Meta は Transformer ベースのマルチモーダル モデルである CM3leon をリリースしました。これはテキスト画像と画像理解の分野で絶対的な進歩を遂げており、同種のモデルの中では最高のものと考えられています。

さらに、複数のモダリティを単一のモデルに組み合わせるというこの手法は、これまで公開されていた AI システムでは前例のないものです。

写真

明らかに、Meta の研究はマルチモーダル AI の新しい標準を定義し、AI システムが画像、ビデオ、テキストの理解、編集、生成などのタスクを自由に切り替えられることを示しています。

同時に、CM3leon のリリースは、自己回帰モデルが主要なベンチマークで主要な生成拡散モデルに匹敵するパフォーマンスを達成した初めての公式記録となります。

写真

論文アドレス: https://ai.meta.com/research/publications/scaling-autoregressive-multi-modal-models-pretraining-and-instruction-tuning/

これまで、文勝図分野で最も人気のある3つのスターモデルは、Stable Diffusion、DALL-E、Midjourneyでした。 Wensheng グラフ テクノロジーは基本的に拡散モデルに依存しています。

しかし、CM3leon の革命的な意義は、トークナイザー ベースの自己回帰モデルというまったく異なるテクノロジーを使用していることにあります。

結果は、トークナイザーベースの自己回帰モデルが拡散モデルベースの方法よりも効果的で、テキストグラフの分野で SOTA を達成するだけでなく、トレーニングの計算の複雑さが以前のトランスフォーマーベースの方法の 5 分の 1 であることも示しています。

準備をしてください、クールなエフェクトの波が来ます

生のパフォーマンス指標だけではあまり多くのことはわかりません。

CM3leon が真価を発揮するのは、より複雑なプロンプトや画像編集タスクを処理するときです。

素晴らしい結果で画像を正確にレンダリング

たとえば、「サハラ砂漠で麦わら帽子とネオンサングラスをかけた小さなサボテン」といった手がかりから、画像を正確にレンダリングできます。

任意のプロンプトで好きなように画像を編集します

CM3leon には、空の色を変更したり、特定の場所にオブジェクトを追加したりするなど、自由形式のテキスト指示に基づいて既存の画像を編集できるというユニークな機能もあります。

上記の機能は、DALL-E 2 などのモデルで実現できる機能をはるかに超えています。

写真

前例のないマルチモーダル単一モデル

CM3leon の多用途なアーキテクチャにより、テキスト、画像、構成タスクをスムーズかつ自由に切り替えることができます。

CNN の機能に加えて、CM3leon は画像の注釈を生成したり、画像の内容に関する質問に答えたり、境界ボックスやセグメンテーション マップのテキスト説明から画像を作成したりすることもできます。

このように複数のモダリティを単一のモデルに組み合わせることは、公開されている AI システムでは前例のないことです。

プロンプト: 犬は何を持っていますか?模範解答: 棒。

プロンプト: 与えられた画像を詳しく説明してください。模範解答: この画像では、犬が口に棒をくわえています。地面には草が生えています。画像の背景には木々があります。

写真

画像の境界ボックスのセグメンテーションのテキスト記述が与えられ、画像内のどこに水たまりや鏡が必要かが示されると、CM3leon は指示どおりに対応する画像を生成できます。

写真

超高解像度

別個の超解像度プラットフォームを CM3leon 出力に統合することで、解像度と詳細度を大幅に向上させることができます。

入力プロンプト「湖の真ん中にある小さな丸い島、周囲を森林に囲まれ、コントラストが高い」——

AI画家問題の解決

AIが手を描けないという長年の課題も、CM3leonによって簡単に解決されました。

自己回帰モデルが初めて拡散モデルに勝つ?

近年非常に人気がある文勝図の分野では、Midjourney、DALL-E 2、Stable Diffusion はすべて拡散技術を採用しています。

拡散技術は優れた結果を生み出しますが、計算負荷が大きいため、実行コストが高く、リアルタイム アプリケーションに必要な速度が不足することがよくあります。

興味深いことに、OpenAI は数年前に Image GPT と呼ばれるモデルを通じて、Transformer を画像ジェネレーターとして利用する可能性を検討しました。しかし、最終的にはこのアイデアを放棄し、Diffusion を採用しました。

CM3leon はまったく異なるアプローチを採用しています。 Transformer ベースのモデルとして、アテンション メカニズムを利用して入力データ (テキストまたは画像) の関連性を評価します。

このアーキテクチャの違いにより、CM3leon はトレーニング速度の高速化と並列化の向上を実現し、従来の拡散ベースの方法よりも効率的になります。

CM3leon は、単一の TPU のみを使用して画像データセットで効果的にトレーニングされ、MS-COCO データセットで 4.88 の FID スコアを達成し、Google のテキストから画像への変換モデル Parti を上回りました。

同時に、CM3leon は同様の Transformer アーキテクチャよりも 5 倍以上効率的です。

写真

CM3leon の成功は、その独自のアーキテクチャとトレーニング方法によるものです。

その強力なパフォーマンスの鍵となるのは、教師あり微調整技術 (SFT) です。

SFT はこれまで ChatGPT などのテキスト生成モデルのトレーニングに使用され、良好な結果が得られてきましたが、Meta 氏は、画像領域に適用した場合にも有用であると考えています。

実際、命令の微調整により、CM3Leon の画像生成のパフォーマンスが向上するだけでなく、画像注釈の書き込みのパフォーマンスも向上し、画像に関する質問に答えたり、テキストの命令 (「空の色を明るい青に変更する」など) に従って画像を編集したりできるようになります。

CM3leon は、既存のテキストベースのモデルに似たデコーダー コンバーター アーキテクチャのみを採用していますが、テキストと画像を処理する機能が追加されています。

トレーニング プロセスには、さまざまな画像およびテキスト生成タスクにわたる検索の拡張と指示の微調整が含まれます。

クロスモーダルの教師あり微調整技術を適用することで、Meta は CM3leon の画像キャプション作成、ビジュアル QA、テキスト編集のパフォーマンスを大幅に向上させます。

CM3leon はわずか 30 億のテキスト トークンでトレーニングされたにもかかわらず、最大 1,000 億のトークンでトレーニングされた他のモデルと同等かそれ以上の結果を達成しました。

テキストベースの言語モデルと同様の方法で微調整された最初のマルチモーダル モデルとして、Meta は CM3leon に大規模な検索強化型事前トレーニング ステージと 2 番目のマルチタスク教師あり微調整 (SFT) ステージを組み込んでいます。

CM3leon のパフォーマンスはどうですか?

CM3leon のパワーにより、画像生成ツールはより一貫性のある画像を生成し、入力プロンプトにより適切に従うことができます。

以下は、さまざまなタスクにおける CM3leon の機能のデモンストレーションです。これらはすべて単一のモデルで実現されています。

テキストから画像への生成

テキストベースの画像編集(「空の色を明るい青に変更する」など)は、モデルがテキストの指示と視覚的なコンテンツの両方を理解する必要があるため、困難です。

特に、複雑なオブジェクトが関係している場合や、プロンプトに出力に表示される必要がある複数の制約が含まれている場合。

CM3leon は、高度に構造化されたプロンプト テキストに基づいて、指示に従った画像を生成できます。

(1)サハラ砂漠で麦わら帽子とネオンサングラスをかけた小さなサボテン

(2)人間の手のクローズアップ

(3)アニメの主人公アライグマは、サムライ刀を持って壮大な戦いに挑む準備をしている

(4)「1991」の文字が書かれたファンタジー風の一時停止標識

テキストベースの画像編集

画像とテキストプロンプトが与えられると、CM3leon はテキストの指示に従って画像を編集できます。

CM3leon モデルの汎用性により、テキストベースの画像編集用にのみ微調整された以前のモデル (InstructPix2Pix など) とは異なり、他のタスクと同じモデルでこれが実現されます。

写真

CM3leon モデルは、さまざまなプロンプトに基づいて短い説明や長い説明を生成し、画像に関する質問に答えることもできます。

例えば。

- ヒント:

質問: これら 2 つのオブジェクトの共通点は何ですか?

コンテキスト: 最適な回答を選択してください。

選択肢: (A) 光沢がある (B) 塩辛い

答え: 順を追って考えてみましょう:

- CM3Leon出力:

それぞれのオブジェクトについて考えてみましょう。チップスは塩辛い味がします。プレッツェルは塩辛いです。したがって答えは(B)です。

写真

- ヒント:

特定の画像内のすべてのオブジェクトを詳細に説明します。

- CM3Leon出力:

道路標識が金属の柱の上に立っています。ロゴは青で文字は白です。ポールに赤いライトが付いています。空は明るい青色です。路上に車が駐車されています。道の両側には木々が植えられています。通りの両側に建物があります。

写真

同様に、CM3leon は次の「画像による質問と回答」も簡単に処理できます。

写真

CM3leon をさらに理解するために、Meta は画像説明生成と視覚的質問応答タスクに関する命令微調整モデルを経験的に評価し、それらを以前の SOTA ベースラインと比較します。

Flamingo (100B) や OpenFlamingo (40B) と比較すると、CM3leon モデルのテキスト データ (約 3B トークン) は大幅に少なくなります。

しかし、MS-COCO 画像記述と VQA2 質問応答に関しては、CM3leon はゼロショット OpenFlamingo と同じパフォーマンスを達成し、VizWiz タスクでは Flamingo を 10 パーセント近く上回っています。

写真

構造ガイドによる画像編集

構造ガイドによる画像編集は、提供されたテキスト指示と構造またはレイアウト情報を理解して解釈することを目的としています。

これにより、CM3leon モデルは、指定された構造またはレイアウトの指示に従いながら、視覚的に一貫性があり、コンテキストに適した画像編集を作成できます。

セグメント化された画像のみ(テキスト カテゴリなし)を含む画像を生成します。ここで、入力はセグメンテーションが抽出される画像を表します。

写真

超解像度

これに加えて、画像生成の分野でよく使われる手法として、別途トレーニングされた超解像ステージを使用して、元のモデル出力からより高解像度の画像を生成するというものがあります。

CM3leon は、このタイプのテキストから画像への生成タスクでも非常に優れたパフォーマンスを発揮します。

(1)旅の途中で休憩を取り、山々を背景に湯気の立つコーヒーを飲む

(2)夕日に照らされた美しく雄大なハイウェイ

(3)湖の中央にある、森に囲まれた小さな円形の島

そして、いくつかの「ファンタジー」スタイルの生成。

写真

(1)水中を泳ぐウミガメ

(2)水中を泳ぐゾウ

(2)羊の群れ

CM3Leonの構築方法

建築

アーキテクチャの面では、CM3Leon は成熟したテキスト モデルに似たデコーダーのみのトランスフォーマーを使用します。

しかし、CM3Leon はテキストと画像を入力して生成できるという点が異なります。

電車

Meta は、論文「検索強化型マルチモーダル言語モデリング」で提案されたトレーニング検索強化技術を採用することで、CM3Leon モデルの効率と制御性を大幅に向上させました。

同時に、Meta はさまざまな画像およびテキスト生成タスクで CM3Leon モデルを微調整しました。

写真

左: さまざまなタスクの共通入力。右: 対応するモデル出力。

トレーニング中、Meta はモデルの入力と出力を連結し、事前トレーニング フェーズと同じ目的を使用してトレーニングを行います。

AI業界が進歩し続けるにつれて、CM3Leonのような生成モデルはますます洗練されていきます。

これらのモデルは、何百万ものサンプル画像をトレーニングすることで視覚とテキストの関係を学習しますが、トレーニング データに存在するバイアスを反映することもあります。

そのため、Meta はライセンスされたデータセットを使用して CM3Leon をトレーニングしました。

結果はまた、データの分布が以前のモデルとはまったく異なるにもかかわらず、CM3Leon が依然として強力なパフォーマンスを達成していることを証明しています。

この点に関して、Meta は、全員の共同の努力により、より正確で公平かつ公正なモデルが構築されることを期待しています。

マルチモーダル言語モデルへの道を開く

全体として、Meta は、CM3Leon がさまざまなタスクで優れたパフォーマンスを発揮することは、よりリアルな画像の生成と理解に向けた重要なステップであると考えています。

このようなモデルは、最終的には創造性を高め、メタバースにおけるより優れたアプリケーションを可能にすることに役立ちます。

著者について

Lili Yu、Bowen Shi、Ramakanth Pasunuru が本論文の共同筆頭著者である。

そのうち、リリ・ユーさんは北京大学で物理学の学士号を取得し、マサチューセッツ工科大学で電気工学とコンピューターサイエンスの博士号を取得しました。

写真

<<:  量子超越性のマイルストーン! Googleの量子コンピュータは47年分の計算を6秒で完了し、世界初のスーパーコンピュータを上回る

>>: 

ブログ    
ブログ    
ブログ    

推薦する

企業に利益をもたらす 5 つの AI トレンド

[[358096]]市場の状況がますます複雑化する今日の不安定なビジネス環境では、組織が分析に基づく...

ニューラルネットワークのトレーニングではCPUはGPUより10倍以上高速。インテル:行列演算はもう使わない

ディープラーニングやニューラルネットワークの分野では、研究者は通常、GPU なしでは作業できません。...

壁を登る毛虫のように、上海交通大学の新しいソフトロボットは水平にも垂直にも動くことができる

今日のロボットは、次のようなさまざまな形やサイズのものがあります。こんなのもあります:一見奇妙に見え...

Weiboはどのように実装されていますか? Weiboの背後にあるアルゴリズム

導入Weiboは多くの人が利用するソーシャルアプリケーションです。毎日Weiboを閲覧する人は、オリ...

畳み込みニューラルネットワークに基づく画像分類アルゴリズム

翻訳者 | 朱 仙中校正:孫淑娟1. 畳み込みニューラル ネットワーク (CNN) とは何ですか?一...

2枚の写真でビデオを「計算」できる、Redditのネットユーザーに衝撃

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2020年エンタープライズ機械学習市場レポート:7つの調査結果

[[285635]] [51CTO.com クイック翻訳] Algorithmia が最近発表したレ...

ブロックチェーン技術は人工知能の欠点をどのように解決できるのでしょうか?

今年の618が終わったばかりですが、宅配業者だけでなく、JDのインテリジェント配達ロボットも忙しかっ...

COVID-19ヘルスケア市場はこれまでと異なる

[[355787]]画像ソース: https://pixabay.com/images/id-537...

人工知能は将来どのように発展するのでしょうか?

20 世紀初頭から、ロボットが人間のように考え始めることができるかどうかについて、人々は疑問を持ち...

機械学習のヒント: モデルパラメータとハイパーパラメータの違いをご存知ですか?

[[199395]]導入機械学習におけるモデルパラメータとモデルハイパーパラメータは機能やソースが...

AIは実は人々の思考や視野を制限している

[[252987]] AIは徐々に成熟し、さまざまな産業に導入され、人々の生活を微妙に変えています。...

...

CNNを知っておくべきだ

CNN というと、最初は特定のテレビ局を思い浮かべる人が多かったのですが、数年後にはディープラーニン...

自動運転L2が登場、運転はもっと楽になるのか?

現在、人間による自動運転シリーズの進捗状況はどうなっていますか? 最終エピソードが完成するまでにどれ...