わずか4つの例から、DeepMindの800億のモデルは本当に学習した

知能の鍵となるのは、簡単な指示を与えられて新しいタスクを実行する方法を素早く学習する能力です。たとえば、子どもが動物園で動物を見ると、その動物を本で見た動物と関連付けて認識しますが、本の中の動物と実際の動物には大きな違いがあります。

しかし、一般的な視覚モデルが新しいタスクを学習するには、そのタスク専用にラベル付けされた何万もの例でトレーニングする必要があります。研究の目的が、画像内の動物の数を数えて識別すること、たとえば「シマウマが 3 頭」といった説明である場合、このタスクを完了するには、研究者は何千枚もの写真を収集し、それぞれの写真に動物の数と種を注釈付けする必要があります。しかし、ラベル付けのプロセスは非効率的でコストがかかり、リソースを大量に消費するタスクには大量の注釈付きデータが必要となり、新しいタスクが発生するたびに新しいモデルをトレーニングする必要があります。

DeepMind は異なるアプローチを採用しており、限られたタスク固有の情報のみに基づいてこのプロセスをより簡単かつ効率的に行うことができる代替モデルを模索しています。

DeepMind の最新の論文では、幅広いオープンエンドのマルチモーダルタスクにおける少量学習のための新しい SOTA を確立した単一視覚言語モデル (VLM) である Flamingo モデルが紹介されました。つまり、Flamingo は、追加のトレーニングを必要とせずに、少数の特定の例 (few-shots) のみを使用して、多くの困難な問題を解決できます。 Flamingo のシンプルなインターフェースにより、画像、ビデオ、テキストをプロンプトとして受け取り、関連する言語を出力できるため、これが可能になります。

論文アドレス: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/tackling-multiple-tasks-with-a-single-visual-language-model/flamingo.pdf
コードアドレス: https://github.com/lucidrains/flamingo-pytorch

このFlamingoモデルはどれくらいスマートでしょうか?まずは効果を見てみましょう。Flamingo はすぐにマルチモーダル会話を行うことができます。下の図は、OpenAI の DALL·E 2 を使用して生成された「スープモンスター」の画像を示しています。Flamingo はこの画像に関するさまざまな質問に正確に答えることができます。たとえば、この写真には何がありますか? という質問です。フラミンゴの答え: モンスターの顔が描かれたスープボウル。

Flamingo は有名なストループ効果も識別できます。たとえば、事前にいくつかの例が示されています。たとえば、質問者は緑を意味する GREEN という単語を青いフォントで表現します。回答者は、その色は緑であり、青で書かれていると答える必要があります。いくつかの例を与えられた後、フラミンゴはこのパターンを学習し、緑色のフォント「YELLOW」が与えられたとき、フラミンゴは「色は黄色で、緑色で書かれています」と答えました。

さらに、Flamingo はこれがストループテストであることを認識できます。

以下の画像には、動物の画像の例が 2 つと、その名前と生息地の説明を示すテキストが示されています。Flamingo はこのスタイルを模倣し、新しい画像を与えると関連する説明を出力します。たとえば、チンチラと柴犬の例が与えられた後、Flamingo はこのスタイルを模倣し、これがフラミンゴであり、カリブ海で見つかることを出力します。

Flamingo は算術演算も実行できます (4 行目)。

大規模言語モデルと同様に、Flamingo は、いくつかの例 (上記) を入力するだけで、さまざまな画像やビデオの理解タスクにすばやく適応できます。 Flamingo には、豊富なビジュアルダイアログ機能も備わっています (下記)。

研究概要

モデルアーキテクチャと方法論

実際には、Flamingo は、それぞれが個別に事前トレーニングされ凍結された大規模な言語モデルと、その間に新しいアーキテクチャコンポーネントを追加することで強力な視覚表現を融合します。次に、機械学習の目的で注釈が付けられたデータを使用せずに、Web からの補完的な大規模なマルチモーダル混合データのみを使用してトレーニングされます。

このアプローチに従って、研究者たちは、最近リリースされた計算上最適な 700 億パラメータの言語モデル Chinchilla から始めて、最終的に 800 億パラメータの VLM モデル Flamingo をトレーニングしました。一度トレーニングすると、Flamingo は、追加のタスク固有の微調整なしで、単純な数回のショット学習を通じて視覚タスクに直接適用できます。次の図は、Flamingo アーキテクチャの概要を示しています。

まず最初に、ビジョン処理と Perceiver Resampler について説明します。 Flamingo モデルのビジュアルエンコーダーは事前トレーニング済みの NFNet であり、研究者は F6 モデルを使用しました。 Flamingo モデルの主なトレーニングフェーズでは、テキスト生成の目標に基づいて視覚モデルを直接トレーニングするよりもパフォーマンスが優れていたため、視覚エンコーダーをフリーズしました。最終段階では、図 4 に示すように、フィーチャ X_f の 2D 空間グリッドが 1D に平坦化されます。

パーセプトロンリサンプラーモジュールは、ビジュアルエンコーダーを固定言語モデルに接続し (上の図 3 を参照)、ビジュアルエンコーダーから可変数の画像またはビデオ機能を入力として受け取り、固定数のビジュアル出力を生成します (下の図 4 を参照)。

次に、固定された言語モデルが視覚表現に適応されます。下の図 5 に示すように、テキスト生成は Transformer デコーダーによって実行され、Perceptron リサンプラーによって生成された視覚表現 X に基づいて行われます。研究者らは、テキストのみの言語モデルから取得した事前トレーニング済みのブロックと、パーセプトロン再サンプラーの出力を入力として使用してゼロからトレーニングしたブロックをインターリーブしてモデルを構築しました。

さらに、VLM モデルの表現力を十分に高め、視覚入力に対して優れたパフォーマンスを発揮させるために、初期レイヤーの間に最初からトレーニングされたゲート付きクロスアテンション密ブロックを挿入します。

最後に、下の図 7 に示すように、研究者は、Web ページから取得したインターリーブされた画像とテキストのデータセット、画像とテキストのペア、ビデオとテキストのペアという 3 種類の混合データセットで Flamingo モデルをトレーニングしました。

実験結果

研究された 16 のタスク全体で、Flamingo は、各タスクに 4 つの例のみが与えられた場合、これまでのすべての少数ショット学習方法よりも優れています。場合によっては、Flamingo モデルは、各タスクごとに個別に微調整され、桁違いに多くのタスク固有のデータを使用するアプローチよりも優れたパフォーマンスを発揮します。これにより、専門家以外の人でも、新しいタスクに正確な視覚言語モデルを迅速かつ簡単に使用できるようになります。

下の図 (左) は、16 種類の異なるマルチモーダルタスクにおける Flamingo とタスク固有の SOTA 手法の数回のショットのパフォーマンス比較を示しています。右側には、16 個のベンチマークのうち 3 つの予想される入力と出力の例を示します。

今後の展望

Flamingo は、タスク固有の例がほとんどない画像やビデオの理解タスクに適用できる、効果的で効率的な一般モデルのファミリーです。

DeepMindは、Flamingoのようなモデルは実用的な方法で社会に利益をもたらす大きな可能性を秘めており、安全に導入できるようモデルの柔軟性と機能を継続的に向上させていくと述べた。 Flamingo によって実証された機能は、学習した視覚言語モデルとの豊富なインタラクションへの道を開き、より優れた解釈可能性と、人々の日常生活を支援する視覚アシスタントなどの刺激的な新しいアプリケーションを実現します。

<<: テンセントの「Hunyuan」AIモデルがCLUE分類リストの歴史的記録を更新

>>: 122の古典的なSOTAモデルと223のアルゴリズム実装リソースを1つの記事にまとめました。