わずか4つの例から、DeepMindの800億のモデルは本当に学習した

わずか4つの例から、DeepMindの800億のモデルは本当に学習した

知能の鍵となるのは、簡単な指示を与えられて新しいタスクを実行する方法を素早く学習する能力です。たとえば、子どもが動物園で動物を見ると、その動物を本で見た動物と関連付けて認識しますが、本の中の動物と実際の動物には大きな違いがあります。

しかし、一般的な視覚モデルが新しいタスクを学習するには、そのタスク専用にラベル付けされた何万もの例でトレーニングする必要があります。研究の目的が、画像内の動物の数を数えて識別すること、たとえば「シマウマが 3 頭」といった説明である場合、このタスクを完了するには、研究者は何千枚もの写真を収集し、それぞれの写真に動物の数と種を注釈付けする必要があります。しかし、ラベル付けのプロセスは非効率的でコストがかかり、リソースを大量に消費するタスクには大量の注釈付きデータが必要となり、新しいタスクが発生するたびに新しいモデルをトレーニングする必要があります。

DeepMind は異なるアプローチを採用しており、限られたタスク固有の情報のみに基づいてこのプロセスをより簡単かつ効率的に行うことができる代替モデルを模索しています。

DeepMind の最新の論文では、幅広いオープンエンドのマルチモーダルタスクにおける少量学習のための新しい SOTA を確立した単一視覚言語モデル (VLM) である Flamingo モデルが紹介されました。つまり、Flamingo は、追加のトレーニングを必要とせずに、少数の特定の例 (few-shots) のみを使用して、多くの困難な問題を解決できます。 Flamingo のシンプルなインターフェースにより、画像、ビデオ、テキストをプロンプトとして受け取り、関連する言語を出力できるため、これが可能になります。

  • 論文アドレス: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/tackling-multiple-tasks-with-a-single-visual-language-model/flamingo.pdf
  • コードアドレス: https://github.com/lucidrains/flamingo-pytorch

このFlamingoモデルはどれくらいスマートでしょうか?まずは効果を見てみましょう。Flamingo はすぐにマルチモーダル会話を行うことができます。下の図は、OpenAI の DALL·E 2 を使用して生成された「スープモンスター」の画像を示しています。Flamingo はこの画像に関するさまざまな質問に正確に答えることができます。たとえば、この写真には何がありますか? という質問です。フラミンゴの答え: モンスターの顔が描かれたスープボウル。

Flamingo は有名なストループ効果も識別できます。たとえば、事前にいくつかの例が示されています。たとえば、質問者は緑を意味する GREEN という単語を青いフォントで表現します。回答者は、その色は緑であり、青で書かれていると答える必要があります。いくつかの例を与えられた後、フラミンゴはこのパターンを学習し、緑色のフォント「YELLOW」が与えられたとき、フラミンゴは「色は黄色で、緑色で書かれています」と答えました。

さらに、Flamingo はこれがストループ テストであることを認識できます。

以下の画像には、動物の画像の例が 2 つと、その名前と生息地の説明を示すテキストが示されています。Flamingo はこのスタイルを模倣し、新しい画像を与えると関連する説明を出力します。たとえば、チンチラと柴犬の例が与えられた後、Flamingo はこのスタイルを模倣し、これがフラミンゴであり、カリブ海で見つかることを出力します。

Flamingo は算術演算も実行できます (4 行目)。

大規模言語モデルと同様に、Flamingo は、いくつかの例 (上記) を入力するだけで、さまざまな画像やビデオの理解タスクにすばやく適応できます。 Flamingo には、豊富なビジュアル ダイアログ機能も備わっています (下記)。

研究概要

モデルアーキテクチャと方法論

実際には、Flamingo は、それぞれが個別に事前トレーニングされ凍結された大規模な言語モデルと、その間に新しいアーキテクチャ コンポーネントを追加することで強力な視覚表現を融合します。次に、機械学習の目的で注釈が付けられたデータを使用せずに、Web からの補完的な大規模なマルチモーダル混合データのみを使用してトレーニングされます。

このアプローチに従って、研究者たちは、最近リリースされた計算上最適な 700 億パラメータの言語モデル Chinchilla から始めて、最終的に 800 億パラメータの VLM モデル Flamingo をトレーニングしました。一度トレーニングすると、Flamingo は、追加のタスク固有の微調整なしで、単純な数回のショット学習を通じて視覚タスクに直接適用できます。次の図は、Flamingo アーキテクチャの概要を示しています。

まず最初に、ビジョン処理と Perceiver Resampler について説明します。 Flamingo モデルのビジュアル エンコーダーは事前トレーニング済みの NFNet であり、研究者は F6 モデルを使用しました。 Flamingo モデルの主なトレーニング フェーズでは、テキスト生成の目標に基づいて視覚モデルを直接トレーニングするよりもパフォーマンスが優れていたため、視覚エンコーダーをフリーズしました。最終段階では、図 4 に示すように、フィーチャ X_f の 2D 空間グリッドが 1D に平坦化されます。

パーセプトロン リサンプラー モジュールは、ビジュアル エンコーダーを固定言語モデルに接続し (上の図 3 を参照)、ビジュアル エンコーダーから可変数の画像またはビデオ機能を入力として受け取り、固定数のビジュアル出力を生成します (下の図 4 を参照)。

次に、固定された言語モデルが視覚表現に適応されます。下の図 5 に示すように、テキスト生成は Transformer デコーダーによって実行され、Perceptron リサンプラーによって生成された視覚表現 X に基づいて行われます。研究者らは、テキストのみの言語モデルから取得した事前トレーニング済みのブロックと、パーセプトロン再サンプラーの出力を入力として使用してゼロからトレーニングしたブロックをインターリーブしてモデルを構築しました。

さらに、VLM モデルの表現力を十分に高め、視覚入力に対して優れたパフォーマンスを発揮させるために、初期レイヤーの間に最初からトレーニングされたゲート付きクロスアテンション密ブロックを挿入します。

最後に、下の図 7 に示すように、研究者は、Web ページから取得したインターリーブされた画像とテキストのデータセット、画像とテキストのペア、ビデオとテキストのペアという 3 種類の混合データセットで Flamingo モデルをトレーニングしました。

実験結果

研究された 16 のタスク全体で、Flamingo は、各タスクに 4 つの例のみが与えられた場合、これまでのすべての少数ショット学習方法よりも優れています。場合によっては、Flamingo モデルは、各タスクごとに個別に微調整され、桁違いに多くのタスク固有のデータを使用するアプローチよりも優れたパフォーマンスを発揮します。これにより、専門家以外の人でも、新しいタスクに正確な視覚言語モデルを迅速かつ簡単に使用できるようになります。

下の図 (左) は、16 種類の異なるマルチモーダル タスクにおける Flamingo とタスク固有の SOTA 手法の数回のショットのパフォーマンス比較を示しています。右側には、16 個のベンチマークのうち 3 つの予想される入力と出力の例を示します。

今後の展望

Flamingo は、タスク固有の例がほとんどない画像やビデオの理解タスクに適用できる、効果的で効率的な一般モデルのファミリーです。

DeepMindは、Flamingoのようなモデルは実用的な方法で社会に利益をもたらす大きな可能性を秘めており、安全に導入できるようモデルの柔軟性と機能を継続的に向上させていくと述べた。 Flamingo によって実証された機能は、学習した視覚言語モデルとの豊富なインタラクションへの道を開き、より優れた解釈可能性と、人々の日常生活を支援する視覚アシスタントなどの刺激的な新しいアプリケーションを実現します。

<<:  テンセントの「Hunyuan」AIモデルがCLUE分類リストの歴史的記録を更新

>>:  122の古典的なSOTAモデルと223のアルゴリズム実装リソースを1つの記事にまとめました。

ブログ    
ブログ    

推薦する

...

ドローン技術の最新動向

ドローン分野へと私たちを導いた技術開発はそこで止まりませんでした。ドローンが軍事目的以外の目的で使用...

...

パラメータのわずか4%、GPT-3のパフォーマンスに匹敵:開発者がDeepMindのRETROを説明

BERT から GPT-2、そして GPT-3 へと、大規模モデルの規模は拡大し、そのパフォーマン...

AIがデータ統合の状況をどう変えるのか

生成 AI は統合の状況を変えています。 チームの経済性、速度、プロジェクト構造、配信モデルについて...

AIが医療診断を改善する方法

人工知能システムは刻々と賢くなっています。運転や自然言語の理解などの複雑なタスクはすでに AI で実...

モデルのボトルネックを「ルート」から見つけよう!第一原理からディープラーニングを分析する

モデルのパフォーマンスを向上させたい場合、まず検索エンジンに問い合わせるのが本能でしょうか?通常、表...

効果的な機械学習研究者の6つの習慣

優れた機械学習研究者になるために必要な資質は何でしょうか? 強力なコーディングスキルでしょうか? そ...

...

...

Baidu Apollo、新たなスマート運転体験を提供するためXiaodu Assistantをリリース

自動車のインテリジェンスの急速な発展に伴い、新たなスマートな運転体験を実現し、スマートな移動を再定義...

大型模型+ロボット、詳細なレビューレポートはこちら、多くの中国の学者が参加

大型モデルの優れた能力は誰の目にも明らかであり、ロボットに統合されれば、ロボットはより賢い脳を持つこ...

ナレッジグラフの過去と現在: ナレッジグラフがなぜ人気なのか?

[51CTO.com からのオリジナル記事] 近年、ナレッジグラフは、その強力な表現力、優れたスケ...

DAMOアカデミーが大規模モデルテストベンチマークを発表: GPT-4はかろうじて合格、他のモデルはすべて不合格

ビッグモデルの発展、特に最近のさまざまなオープンソースのビッグモデルのリリースにより、さまざまなモデ...

...