わずか4つの例から、DeepMindの800億のモデルは本当に学習した

わずか4つの例から、DeepMindの800億のモデルは本当に学習した

知能の鍵となるのは、簡単な指示を与えられて新しいタスクを実行する方法を素早く学習する能力です。たとえば、子どもが動物園で動物を見ると、その動物を本で見た動物と関連付けて認識しますが、本の中の動物と実際の動物には大きな違いがあります。

しかし、一般的な視覚モデルが新しいタスクを学習するには、そのタスク専用にラベル付けされた何万もの例でトレーニングする必要があります。研究の目的が、画像内の動物の数を数えて識別すること、たとえば「シマウマが 3 頭」といった説明である場合、このタスクを完了するには、研究者は何千枚もの写真を収集し、それぞれの写真に動物の数と種を注釈付けする必要があります。しかし、ラベル付けのプロセスは非効率的でコストがかかり、リソースを大量に消費するタスクには大量の注釈付きデータが必要となり、新しいタスクが発生するたびに新しいモデルをトレーニングする必要があります。

DeepMind は異なるアプローチを採用しており、限られたタスク固有の情報のみに基づいてこのプロセスをより簡単かつ効率的に行うことができる代替モデルを模索しています。

DeepMind の最新の論文では、幅広いオープンエンドのマルチモーダルタスクにおける少量学習のための新しい SOTA を確立した単一視覚言語モデル (VLM) である Flamingo モデルが紹介されました。つまり、Flamingo は、追加のトレーニングを必要とせずに、少数の特定の例 (few-shots) のみを使用して、多くの困難な問題を解決できます。 Flamingo のシンプルなインターフェースにより、画像、ビデオ、テキストをプロンプトとして受け取り、関連する言語を出力できるため、これが可能になります。

  • 論文アドレス: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/tackling-multiple-tasks-with-a-single-visual-language-model/flamingo.pdf
  • コードアドレス: https://github.com/lucidrains/flamingo-pytorch

このFlamingoモデルはどれくらいスマートでしょうか?まずは効果を見てみましょう。Flamingo はすぐにマルチモーダル会話を行うことができます。下の図は、OpenAI の DALL·E 2 を使用して生成された「スープモンスター」の画像を示しています。Flamingo はこの画像に関するさまざまな質問に正確に答えることができます。たとえば、この写真には何がありますか? という質問です。フラミンゴの答え: モンスターの顔が描かれたスープボウル。

Flamingo は有名なストループ効果も識別できます。たとえば、事前にいくつかの例が示されています。たとえば、質問者は緑を意味する GREEN という単語を青いフォントで表現します。回答者は、その色は緑であり、青で書かれていると答える必要があります。いくつかの例を与えられた後、フラミンゴはこのパターンを学習し、緑色のフォント「YELLOW」が与えられたとき、フラミンゴは「色は黄色で、緑色で書かれています」と答えました。

さらに、Flamingo はこれがストループ テストであることを認識できます。

以下の画像には、動物の画像の例が 2 つと、その名前と生息地の説明を示すテキストが示されています。Flamingo はこのスタイルを模倣し、新しい画像を与えると関連する説明を出力します。たとえば、チンチラと柴犬の例が与えられた後、Flamingo はこのスタイルを模倣し、これがフラミンゴであり、カリブ海で見つかることを出力します。

Flamingo は算術演算も実行できます (4 行目)。

大規模言語モデルと同様に、Flamingo は、いくつかの例 (上記) を入力するだけで、さまざまな画像やビデオの理解タスクにすばやく適応できます。 Flamingo には、豊富なビジュアル ダイアログ機能も備わっています (下記)。

研究概要

モデルアーキテクチャと方法論

実際には、Flamingo は、それぞれが個別に事前トレーニングされ凍結された大規模な言語モデルと、その間に新しいアーキテクチャ コンポーネントを追加することで強力な視覚表現を融合します。次に、機械学習の目的で注釈が付けられたデータを使用せずに、Web からの補完的な大規模なマルチモーダル混合データのみを使用してトレーニングされます。

このアプローチに従って、研究者たちは、最近リリースされた計算上最適な 700 億パラメータの言語モデル Chinchilla から始めて、最終的に 800 億パラメータの VLM モデル Flamingo をトレーニングしました。一度トレーニングすると、Flamingo は、追加のタスク固有の微調整なしで、単純な数回のショット学習を通じて視覚タスクに直接適用できます。次の図は、Flamingo アーキテクチャの概要を示しています。

まず最初に、ビジョン処理と Perceiver Resampler について説明します。 Flamingo モデルのビジュアル エンコーダーは事前トレーニング済みの NFNet であり、研究者は F6 モデルを使用しました。 Flamingo モデルの主なトレーニング フェーズでは、テキスト生成の目標に基づいて視覚モデルを直接トレーニングするよりもパフォーマンスが優れていたため、視覚エンコーダーをフリーズしました。最終段階では、図 4 に示すように、フィーチャ X_f の 2D 空間グリッドが 1D に平坦化されます。

パーセプトロン リサンプラー モジュールは、ビジュアル エンコーダーを固定言語モデルに接続し (上の図 3 を参照)、ビジュアル エンコーダーから可変数の画像またはビデオ機能を入力として受け取り、固定数のビジュアル出力を生成します (下の図 4 を参照)。

次に、固定された言語モデルが視覚表現に適応されます。下の図 5 に示すように、テキスト生成は Transformer デコーダーによって実行され、Perceptron リサンプラーによって生成された視覚表現 X に基づいて行われます。研究者らは、テキストのみの言語モデルから取得した事前トレーニング済みのブロックと、パーセプトロン再サンプラーの出力を入力として使用してゼロからトレーニングしたブロックをインターリーブしてモデルを構築しました。

さらに、VLM モデルの表現力を十分に高め、視覚入力に対して優れたパフォーマンスを発揮させるために、初期レイヤーの間に最初からトレーニングされたゲート付きクロスアテンション密ブロックを挿入します。

最後に、下の図 7 に示すように、研究者は、Web ページから取得したインターリーブされた画像とテキストのデータセット、画像とテキストのペア、ビデオとテキストのペアという 3 種類の混合データセットで Flamingo モデルをトレーニングしました。

実験結果

研究された 16 のタスク全体で、Flamingo は、各タスクに 4 つの例のみが与えられた場合、これまでのすべての少数ショット学習方法よりも優れています。場合によっては、Flamingo モデルは、各タスクごとに個別に微調整され、桁違いに多くのタスク固有のデータを使用するアプローチよりも優れたパフォーマンスを発揮します。これにより、専門家以外の人でも、新しいタスクに正確な視覚言語モデルを迅速かつ簡単に使用できるようになります。

下の図 (左) は、16 種類の異なるマルチモーダル タスクにおける Flamingo とタスク固有の SOTA 手法の数回のショットのパフォーマンス比較を示しています。右側には、16 個のベンチマークのうち 3 つの予想される入力と出力の例を示します。

今後の展望

Flamingo は、タスク固有の例がほとんどない画像やビデオの理解タスクに適用できる、効果的で効率的な一般モデルのファミリーです。

DeepMindは、Flamingoのようなモデルは実用的な方法で社会に利益をもたらす大きな可能性を秘めており、安全に導入できるようモデルの柔軟性と機能を継続的に向上させていくと述べた。 Flamingo によって実証された機能は、学習した視覚言語モデルとの豊富なインタラクションへの道を開き、より優れた解釈可能性と、人々の日常生活を支援する視覚アシスタントなどの刺激的な新しいアプリケーションを実現します。

<<:  テンセントの「Hunyuan」AIモデルがCLUE分類リストの歴史的記録を更新

>>:  122の古典的なSOTAモデルと223のアルゴリズム実装リソースを1つの記事にまとめました。

ブログ    
ブログ    
ブログ    

推薦する

機械学習プロジェクトにおける特徴エンジニアリングの 5 つのベスト プラクティス

私たちは長年にわたり、機械学習プロジェクトで何が機能し、何が機能しないかを特定するために、さまざまな...

これほど長い時間が経ったのに、なぜ物流ロボットは何千もの家庭に導入されていないのでしょうか?

先日終了したCESで、ドイツのコンチネンタルAGは、新しい物流ロボット、荷物配達ロボット犬「ANYM...

ワールドカップで物議を醸したVARテクノロジーはどのようにして生まれたのでしょうか?

Wiredウェブサイトは、FIFAの話題のVAR(ビデオ・アシスタント・レフェリー)の誕生過程を明...

顔認識: 顔認識攻撃手法と偽装防止手法の種類

コンピュータサイエンスと電子技術の急速な発展により、顔認証は現在、市場シェアで指紋に次ぐ世界第2位の...

AIは人間よりもチップ設計をよく理解しているのでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

画像認証コードで人工バカになる

[[416826]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

人工知能はターミネーターとなるのか?ぜひ見に来てください!

[[253100]]映画「ターミネーター」を見たことがある人は多いでしょう。実は、ターミネーターに似...

...

AmodalSynthDrive: 自動運転のための合成アモーダル知覚データセット

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

火山エンジンは大型モデル用の大きなベースを作ります! MiniMax、Zhipu AIなどが上陸

Volcano Engine は、大規模モデルのトレンドに関する解答用紙を提出しました。大型モデルサ...

ゼロから始める: すぐに使えるニューラルネットワークを作成することもできます

何か新しいことを受け入れたり、始めたりするのは決して簡単なことではありません。機械学習は、新しいプロ...

人工知能、機械学習、ディープラーニングの違い

私たちは皆、「人工知能」という言葉をよく知っています。結局のところ、ターミネーター、マトリックス、エ...

ゲーム理論に基づく大規模データ分析

現代の AI システムは、試験に向けて熱心に勉強する学生のように、画像内の物体を識別したり、タンパク...

この記事では、さまざまな教師なしクラスタリングアルゴリズムのPython実装について簡単に説明します。

教師なし学習は、データ内のパターンを見つけるために使用される機械学習技術の一種です。教師なし学習アル...

2018 年の人工知能と機械学習のトップトレンド

[[243985]]人工知能(AI)は、1955年に米国のダートマス大学のAIの第一人者ジョン・マッ...