一般的な視覚的推論が出現、カリフォルニア大学バークレー校が単一の純粋なCV大規模モデルを改良、3人の上級学者が参加

一般的な視覚的推論が出現、カリフォルニア大学バークレー校が単一の純粋なCV大規模モデルを改良、3人の上級学者が参加

最近では、GPT や LLaMA などの大規模言語モデル (LLM) が世界中で人気になっています。

同様によくある質問は、「大規模ビジュアルモデル (LVM) を構築するには何が必要か?」です。

LLaVA などの視覚言語モデルによって提供されるアイデアは興味深く、検討する価値がありますが、動物界の法則に基づくと、視覚能力と言語能力は関連がないことはすでにわかっています。たとえば、多くの実験により、非ヒト霊長類の言語体系は人間のものと「完全に異なる」にもかかわらず、その視覚世界は人間のものと非常に似ていることが示されています。

最近の論文で、カリフォルニア大学バークレー校とジョンズ・ホプキンス大学の研究者らは、ピクセルだけでどこまでできるのかという別の疑問に対する答えを探りました。


  • 論文アドレス: https://arxiv.org/abs/2312.00785
  • プロジェクトホームページ: https://yutongbai.com/lvm.html

研究者が LVM でエミュレートしようとしている LLM の主な機能は、1) データのサイズに合わせたスケーリング、および 2) ヒント (コンテキスト学習) によるタスクの柔軟な指定です。

データ、アーキテクチャ、損失関数という 3 つの主要コンポーネントを指定します。

データに関して言えば、研究者は視覚データの驚くべき多様性を活用したいと考えています。私たちはラベル付けされていない生の画像とビデオから始めて、過去数十年間に生成されたさまざまなラベル付けされた視覚データ ソース (セマンティック セグメンテーション、深度再構築、キーポイント、マルチビュー 3D オブジェクトなど) を活用します。彼らは、ピクセルを超えたメタ知識を必要とせずに、これらのさまざまな注釈を表すために、「視覚的な文章」という共通形式を定義します。トレーニング セットの合計サイズは 16 億 4,000 万枚の画像/フレームです。

アーキテクチャの面では、研究者らは大規模なトランスフォーマー アーキテクチャ (30 億のパラメータ) を使用し、トークン シーケンスとして表される視覚データでトレーニングし、学習したトークナイザーを使用して各画像を 256 個のベクトル量子化トークンの文字列にマッピングしました。

損失関数に関しては、研究者たちは自然言語コミュニティからインスピレーションを得ました。そこでは、マスクされたトークンモデリングがシーケンス自己回帰予測法に「取って代わられました」。画像、ビデオ、注釈付き画像をシーケンスとして表現できるようになると、トレーニングされたモデルは次のトークンを予測するときにクロスエントロピー損失を最小限に抑えることができます。

この極めてシンプルな設計により、研究者たちはいくつかの注目すべき動作を実証しました。

  • モデルのサイズとデータのサイズが大きくなるにつれて、モデルは適切なスケーリング動作を示します。
  • 現在では、テスト時に適切なプロンプトを設計することで、さまざまな視覚タスクを解決できるようになりました。特別にトレーニングされたカスタムモデルほど高性能ではありませんが、単一のビジョンモデルで非常に多くのタスクを解決できるという事実は非常に心強いものです。
  • 大量の教師なしデータは、さまざまな標準的な視覚タスクのパフォーマンスに大きな影響を与えます。
  • 分布外データの処理や新しいタスクの実行時に、一般的な視覚的推論能力が発揮される可能性が示唆されていますが、さらなる調査が必要です。

ジョンズ・ホプキンス大学のコンピューターサイエンスの博士課程4年生であり、バークレー大学の客員博士課程学生で、この論文の共同筆頭著者でもあるユートン・バイ氏は、自分たちの研究を宣伝するためにツイートした。

画像出典: https://twitter.com/YutongBAI1002/status/1731512110247473608

論文の著者のうち、最後の 3 人はカリフォルニア大学バークレー校の CV 分野の上級学者です。トレバー・ダレル教授はバークレー人工知能研究所 (BAIR) の創設共同所長であり、ジテンドラ・マリク教授は 2019 IEEE コンピュータ パイオニア賞を受賞し、アレクセイ A. エフロス教授は特に最近接点に関する研究で知られています。

左から右へ: Trevor Darrell、Jitendra Malik、Alexei A. Efros。

方法の紹介

私たちは 2 段階のアプローチを採用しています。1) 各画像をビジュアル トークンのシーケンスに変換できる大規模なビジュアル トークナイザー (単一の画像で動作) をトレーニングします。2) 各文がトークンのシーケンスとして表されるビジュアル文に対して自己回帰トランスフォーマー モデルをトレーニングします。方法は図 2 に示されています。

画像のトークン化

Transformer モデルを画像に適用するための一般的な操作には、画像をパッチに分割してシーケンスとして扱うことや、VQVAE や VQGAN などの事前トレーニング済みの画像トークナイザーを使用して画像の特徴を個別のトークン グリッドに集約することなどがあります。本論文では後者の方法、つまりVQGANモデルを使用してセマンティックトークンを生成する方法を採用しています。

LVM フレームワークには、エンコードおよびデコード メカニズムが含まれており、量子化レイヤーも備えています。エンコーダーとデコーダーは畳み込みレイヤーを使用して構築されます。エンコーダーには、入力の空間次元を縮小するための複数のダウンサンプリング モジュールが装備されており、デコーダーには、画像を元のサイズに戻すための一連の同等のアップサンプリング モジュールが装備されています。特定の画像に対して、VQGAN トークナイザーは 256 個の個別のトークンを生成します。

実装の詳細。この論文では、Chang らが提案した VQGAN アーキテクチャを採用し、Chang らが使用した設定に従います。ここで、ダウンサンプリング係数は f = 16、コードブックのサイズは 8192 です。つまり、サイズが 256 × 256 の画像の場合、VQGAN トークナイザーは 16 × 16 = 256 個のトークンを生成し、各トークンは 8192 個の異なる値を取ることができます。さらに、この論文では、LAION 5B データセットの 1.5B サブセットでトークナイザーをトレーニングします。

ビジュアル文章シーケンスモデリング

本論文では、VQGAN を使用して画像を離散トークンに変換した後、複数の画像内の離散トークンを 1 次元シーケンスに連結し、視覚的な文章を統一されたシーケンスとして扱います。重要なのは、視覚的な文章はどれも特別な扱いを受けていない、つまり、特定のタスクや形式を示すために特別なトークンが使用されていないことです。

ビジュアルセンテンスを使用すると、さまざまなビジュアルデータを統一された画像シーケンス構造にフォーマットできます。

実装の詳細。ビジュアルセンテンス内の各画像を 256 個のトークンにトークン化した後、それらを連結して 1D トークンシーケンスを形成します。視覚トークンシーケンスに関しては、この論文のTransformerモデルは実際には自己回帰言語モデルと同じであるため、LLaMAのTransformerアーキテクチャを採用しています。

本論文で使用したコンテキスト長は4096トークンです。言語モデルと同様に、本論文では各ビジュアルセンテンスの先頭に[BOS](文頭)トークン、末尾に[EOS](文末)トークンを追加し、トレーニング中にシーケンス連結を使用して効率を向上させています。

この論文では、UVDv1 データセット全体 (4,200 億トークン) でモデルをトレーニングし、3 億、6 億、10 億、30 億という異なる数のパラメータを持つ合計 4 つのモデルをトレーニングします。

実験結果

この研究では、モデルの拡張能力と、さまざまなタスクを理解して回答する能力を評価するための実験が行われました。

拡張機能

下の図 3 に示すように、この研究ではまず、さまざまなサイズの LVM のトレーニング損失を調べました。

下の図 4 に示すように、モデルが大きいほどすべてのタスクの複雑さが低くなり、モデルの全体的なパフォーマンスをさまざまな下流タスクに転送できることがわかります。

下の図 5 に示すように、各データ コンポーネントは下流のタスクにとって重要な役割を果たします。 LVM は、より大きなデータでメリットが得られるだけでなく、データ セットの多様性によっても改善されます。

シーケンスプロンプト

LVM のさまざまなプロンプトを理解する能力をテストするために、本研究ではまず、順次推論タスクにおける LVM の評価実験を実施しました。プロンプトは非常にシンプルです。モデルに 7 枚の画像のシーケンスを提供し、次の画像を予測するように依頼します。実験結果を下の図 6 に示します。

この研究では、特定のカテゴリのアイテムのリストをシーケンスとして考慮し、LVM に同じカテゴリの画像を予測させました。実験結果を下の図 15 に示します。

では、後続のフレームを正確に予測するには、どの程度のコンテキストが必要でしょうか?

この研究では、異なる長さ(1~15フレーム)のコンテキストプロンプトを与えられたモデルのフレーム生成の困惑度を評価しました。結果を下の図7に示します。困惑度は1フレームから11フレームにかけて大幅に改善し、その後安定しました(62.1→48.4)。

類推プロンプト

この研究では、LVM の高度な解釈機能をテストするために、より複雑なプロンプト構造である Analogy Prompt も評価しました。

下の図 8 は、多くのタスクに対する Analogy Prompt の定性的な結果を示しています。

ビジュアルプロンプトとの比較を以下に示します。シーケンス LVM は、ほぼすべてのタスクで以前の方法よりも優れています。

合成タスク。図 9 は、単一のプロンプトを使用して複数のタスクを組み合わせた結果を示しています。

その他のプロンプト

研究者たちは、これまで見たことのないさまざまなプロンプトをモデルに提供することで、モデルがどの程度拡張できるかを観察しようとした。下の図 10 は、これらのプロンプトの一部が適切に機能していることを示しています。

下の図 11 は、言葉で説明するのが難しいプロンプトを示しています。これらのタスクでは、LVM が最終的に LLM を上回る可能性があります。

図 13 は、非言語的人間の IQ テストに見られる典型的な視覚的推論の質問に対する予備的な定性的な結果を示しています。

詳細については、元の記事をお読みください。

<<:  大規模なモデルをグローバルに微調整できないわけではなく、LoRA の方がコスト効率が高いだけです。チュートリアルは準備完了です。

>>:  RPAとAIを組み合わせることで、自動化の新しい世界が開かれます

ブログ    
ブログ    

推薦する

2023年までに、プライバシーコンプライアンス技術の40%以上がAIに依存するようになる

ガートナーによれば、2023年までにプライバシーコンプライアンス技術の40%以上が人工知能(AI)に...

...

MetaMath: 逆思考で大規模モデルをトレーニングする新しい数学的推論言語モデル

複雑な数学的推論は、大規模言語モデルの推論能力を評価するための重要な指標です。現在、一般的に使用され...

2019年の人工知能の給与水準、給与水準分析チャート、わかりやすい

2019年の人工知能の給与水準、まずは全体の給与水準の2つの分析グラフを見てみましょう! ***は、...

世界に革命をもたらす新たなテクノロジートレンド

急速な技術進歩により、私たちの知る世界は変化し続け、変革の可能性を秘めた新たな時代が到来しています。...

自撮り写真でAIがあなたの顔を認識できないようにする方法

現在、顔認識システムがプライベートな写真で訓練されるのを防ぐツールがますます増えている。個人の写真を...

...

ナレッジグラフに加えて、グラフで他に何ができるでしょうか?

グラフについてはあまり知らないかもしれませんが、ナレッジグラフについて言えば、それは間違いなく現在ホ...

プログラマーの面接でよく聞かれる質問: スケジュールされたタスク スケジューラを設計し、どのようなアルゴリズムとデータ構造を使用するか

学生時代、私は Huya の面接を受けたことがあります。今でもはっきりと覚えている面接の質問がありま...

GitHub のスターや Kaggle のいいねを公に販売する「ブラックマーケット」がますます露骨になっていませんか?

開発者の世界では、GitHub のスターの数は、プロジェクトが人気があるかどうかを判断するための非常...

AI モデルに新たな革命が起こるのでしょうか?脳の記憶は回転するのでしょうか?過去と未来は実際には「直交」した空間である

人間も他の動物も、目覚めるたびに過去の記憶を整理し、新しい記憶を迎える準備をします。私たちは、以前の...

...

マイクロソフト、画像やテキスト内のネガティブなコンテンツを削減する Azure AI コンテンツ セーフティを発表

海外メディアの報道によると、マイクロソフトは10月20日、アプリケーションやサービス内の有害な人工知...

最初の生成 AI 安全ガイダンス文書がここにあります。理解できましたか?

10月11日、国家情報セキュリティ標準化技術委員会の公式サイトで「生成型人工知能サービスの基本セキ...

TensorFlow とオートエンコーダー モデルを使用して手書き数字を生成する方法

[[209419]]オートエンコーダーは、入力データを効率的にエンコードする方法を学習するために使用...