わずか4つの例から、DeepMindの800億のモデルは本当に学習した

わずか4つの例から、DeepMindの800億のモデルは本当に学習した

知能の鍵となるのは、簡単な指示を与えられて新しいタスクを実行する方法を素早く学習する能力です。たとえば、子どもが動物園で動物を見ると、その動物を本で見た動物と関連付けて認識しますが、本の中の動物と実際の動物には大きな違いがあります。

しかし、一般的な視覚モデルが新しいタスクを学習するには、そのタスク専用にラベル付けされた何万もの例でトレーニングする必要があります。研究の目的が、画像内の動物の数を数えて識別すること、たとえば「シマウマが 3 頭」といった説明である場合、このタスクを完了するには、研究者は何千枚もの写真を収集し、それぞれの写真に動物の数と種を注釈付けする必要があります。しかし、ラベル付けのプロセスは非効率的でコストがかかり、リソースを大量に消費するタスクには大量の注釈付きデータが必要となり、新しいタスクが発生するたびに新しいモデルをトレーニングする必要があります。

DeepMind は異なるアプローチを採用しており、限られたタスク固有の情報のみに基づいてこのプロセスをより簡単かつ効率的に行うことができる代替モデルを模索しています。

DeepMind の最新の論文では、幅広いオープンエンドのマルチモーダルタスクにおける少量学習のための新しい SOTA を確立した単一視覚言語モデル (VLM) である Flamingo モデルが紹介されました。つまり、Flamingo は、追加のトレーニングを必要とせずに、少数の特定の例 (few-shots) のみを使用して、多くの困難な問題を解決できます。 Flamingo のシンプルなインターフェースにより、画像、ビデオ、テキストをプロンプトとして受け取り、関連する言語を出力できるため、これが可能になります。

  • 論文アドレス: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/tackling-multiple-tasks-with-a-single-visual-language-model/flamingo.pdf
  • コードアドレス: https://github.com/lucidrains/flamingo-pytorch

このFlamingoモデルはどれくらいスマートでしょうか?まずは効果を見てみましょう。Flamingo はすぐにマルチモーダル会話を行うことができます。下の図は、OpenAI の DALL·E 2 を使用して生成された「スープモンスター」の画像を示しています。Flamingo はこの画像に関するさまざまな質問に正確に答えることができます。たとえば、この写真には何がありますか? という質問です。フラミンゴの答え: モンスターの顔が描かれたスープボウル。

Flamingo は有名なストループ効果も識別できます。たとえば、事前にいくつかの例が示されています。たとえば、質問者は緑を意味する GREEN という単語を青いフォントで表現します。回答者は、その色は緑であり、青で書かれていると答える必要があります。いくつかの例を与えられた後、フラミンゴはこのパターンを学習し、緑色のフォント「YELLOW」が与えられたとき、フラミンゴは「色は黄色で、緑色で書かれています」と答えました。

さらに、Flamingo はこれがストループ テストであることを認識できます。

以下の画像には、動物の画像の例が 2 つと、その名前と生息地の説明を示すテキストが示されています。Flamingo はこのスタイルを模倣し、新しい画像を与えると関連する説明を出力します。たとえば、チンチラと柴犬の例が与えられた後、Flamingo はこのスタイルを模倣し、これがフラミンゴであり、カリブ海で見つかることを出力します。

Flamingo は算術演算も実行できます (4 行目)。

大規模言語モデルと同様に、Flamingo は、いくつかの例 (上記) を入力するだけで、さまざまな画像やビデオの理解タスクにすばやく適応できます。 Flamingo には、豊富なビジュアル ダイアログ機能も備わっています (下記)。

研究概要

モデルアーキテクチャと方法論

実際には、Flamingo は、それぞれが個別に事前トレーニングされ凍結された大規模な言語モデルと、その間に新しいアーキテクチャ コンポーネントを追加することで強力な視覚表現を融合します。次に、機械学習の目的で注釈が付けられたデータを使用せずに、Web からの補完的な大規模なマルチモーダル混合データのみを使用してトレーニングされます。

このアプローチに従って、研究者たちは、最近リリースされた計算上最適な 700 億パラメータの言語モデル Chinchilla から始めて、最終的に 800 億パラメータの VLM モデル Flamingo をトレーニングしました。一度トレーニングすると、Flamingo は、追加のタスク固有の微調整なしで、単純な数回のショット学習を通じて視覚タスクに直接適用できます。次の図は、Flamingo アーキテクチャの概要を示しています。

まず最初に、ビジョン処理と Perceiver Resampler について説明します。 Flamingo モデルのビジュアル エンコーダーは事前トレーニング済みの NFNet であり、研究者は F6 モデルを使用しました。 Flamingo モデルの主なトレーニング フェーズでは、テキスト生成の目標に基づいて視覚モデルを直接トレーニングするよりもパフォーマンスが優れていたため、視覚エンコーダーをフリーズしました。最終段階では、図 4 に示すように、フィーチャ X_f の 2D 空間グリッドが 1D に平坦化されます。

パーセプトロン リサンプラー モジュールは、ビジュアル エンコーダーを固定言語モデルに接続し (上の図 3 を参照)、ビジュアル エンコーダーから可変数の画像またはビデオ機能を入力として受け取り、固定数のビジュアル出力を生成します (下の図 4 を参照)。

次に、固定された言語モデルが視覚表現に適応されます。下の図 5 に示すように、テキスト生成は Transformer デコーダーによって実行され、Perceptron リサンプラーによって生成された視覚表現 X に基づいて行われます。研究者らは、テキストのみの言語モデルから取得した事前トレーニング済みのブロックと、パーセプトロン再サンプラーの出力を入力として使用してゼロからトレーニングしたブロックをインターリーブしてモデルを構築しました。

さらに、VLM モデルの表現力を十分に高め、視覚入力に対して優れたパフォーマンスを発揮させるために、初期レイヤーの間に最初からトレーニングされたゲート付きクロスアテンション密ブロックを挿入します。

最後に、下の図 7 に示すように、研究者は、Web ページから取得したインターリーブされた画像とテキストのデータセット、画像とテキストのペア、ビデオとテキストのペアという 3 種類の混合データセットで Flamingo モデルをトレーニングしました。

実験結果

研究された 16 のタスク全体で、Flamingo は、各タスクに 4 つの例のみが与えられた場合、これまでのすべての少数ショット学習方法よりも優れています。場合によっては、Flamingo モデルは、各タスクごとに個別に微調整され、桁違いに多くのタスク固有のデータを使用するアプローチよりも優れたパフォーマンスを発揮します。これにより、専門家以外の人でも、新しいタスクに正確な視覚言語モデルを迅速かつ簡単に使用できるようになります。

下の図 (左) は、16 種類の異なるマルチモーダル タスクにおける Flamingo とタスク固有の SOTA 手法の数回のショットのパフォーマンス比較を示しています。右側には、16 個のベンチマークのうち 3 つの予想される入力と出力の例を示します。

今後の展望

Flamingo は、タスク固有の例がほとんどない画像やビデオの理解タスクに適用できる、効果的で効率的な一般モデルのファミリーです。

DeepMindは、Flamingoのようなモデルは実用的な方法で社会に利益をもたらす大きな可能性を秘めており、安全に導入できるようモデルの柔軟性と機能を継続的に向上させていくと述べた。 Flamingo によって実証された機能は、学習した視覚言語モデルとの豊富なインタラクションへの道を開き、より優れた解釈可能性と、人々の日常生活を支援する視覚アシスタントなどの刺激的な新しいアプリケーションを実現します。

<<:  テンセントの「Hunyuan」AIモデルがCLUE分類リストの歴史的記録を更新

>>:  122の古典的なSOTAモデルと223のアルゴリズム実装リソースを1つの記事にまとめました。

ブログ    

推薦する

VB.NET バブルソートアルゴリズムの詳細な説明

VB.NET を学習する場合、中国語の情報が非常に少なく、大多数のプログラマーのニーズを満たすのが難...

...

ガートナー: 2020 年の人工知能の成熟度曲線、どのテクノロジーが価値があるか

1. ガートナー: 2018 年から 2020 年までの AI 成熟度曲線の概要最近、世界的に有名な...

AIとIoTはどのように連携するのでしょうか?

人工知能 (AI) とモノのインターネット (IoT) の統合により、技術革新と機能の新しい時代が到...

2021年に注目すべき人工知能と機械学習の5つのトレンド

人工知能と機械学習は市場で注目されている技術であり、その重要性は 2020 年にピークに達しました。...

ハッシュアルゴリズムを使用した ASP.NET データ暗号化

ハッシュ アルゴリズムを使用して ASP.NET データ暗号化を実装するプロセスは何ですか?私たちの...

...

なぜAIは東京オリンピックでバレーボールの試合を無料で観戦できるのか?

[[416801]]ビッグデータダイジェスト制作出典: Wired 8月8日の夜、第32回夏季オリ...

非常に少ないデータで大規模なモデルを微調整するにはどうすればよいでしょうか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

記憶は人工知能開発の重要な側面を示している

一般的に言えば、人間が不規則な電話番号の列を記憶するには長い時間がかかりますが、人工知能はこの情報を...

百度技術委員会の呉華委員長:NLP技術は機械に人間の言語によるコミュニケーション能力を持たせるはずだ

[[211656]] 「人工知能を人間の生活に取り入れたいなら、人間とコミュニケーションできる言語能...

ロボットは独自の言語を作り、将来的には自律的にコミュニケーションできるようになるのでしょうか?

[[187107]]人工知能技術は飛躍的に進歩していますが、人工知能間のコミュニケーションの問題は...

RLHFの可能性を深く掘り下げ、Fudan Language and Visionチームは報酬モデルの最適化を革新し、大規模モデルをより整合させます。

最初の大規模モデルアライメント技術レポート(大規模言語モデルにおけるRLHFの秘密パートI)がNeu...

AIはあなたより年上かもしれない

[[349378]]現在、ほとんどの調査会社は、人工知能が近い将来ますます重要な役割を果たすと予測し...