一般的な視覚的推論が出現、カリフォルニア大学バークレー校が単一の純粋なCV大規模モデルを改良、3人の上級学者が参加

最近では、GPT や LLaMA などの大規模言語モデル (LLM) が世界中で人気になっています。

同様によくある質問は、「大規模ビジュアルモデル (LVM) を構築するには何が必要か?」です。

LLaVA などの視覚言語モデルによって提供されるアイデアは興味深く、検討する価値がありますが、動物界の法則に基づくと、視覚能力と言語能力は関連がないことはすでにわかっています。たとえば、多くの実験により、非ヒト霊長類の言語体系は人間のものと「完全に異なる」にもかかわらず、その視覚世界は人間のものと非常に似ていることが示されています。

最近の論文で、カリフォルニア大学バークレー校とジョンズ・ホプキンス大学の研究者らは、ピクセルだけでどこまでできるのかという別の疑問に対する答えを探りました。

論文アドレス: https://arxiv.org/abs/2312.00785
プロジェクトホームページ: https://yutongbai.com/lvm.html

研究者が LVM でエミュレートしようとしている LLM の主な機能は、1) データのサイズに合わせたスケーリング、および 2) ヒント (コンテキスト学習) によるタスクの柔軟な指定です。

データ、アーキテクチャ、損失関数という 3 つの主要コンポーネントを指定します。

データに関して言えば、研究者は視覚データの驚くべき多様性を活用したいと考えています。私たちはラベル付けされていない生の画像とビデオから始めて、過去数十年間に生成されたさまざまなラベル付けされた視覚データソース (セマンティックセグメンテーション、深度再構築、キーポイント、マルチビュー 3D オブジェクトなど) を活用します。彼らは、ピクセルを超えたメタ知識を必要とせずに、これらのさまざまな注釈を表すために、「視覚的な文章」という共通形式を定義します。トレーニングセットの合計サイズは 16 億 4,000 万枚の画像/フレームです。

アーキテクチャの面では、研究者らは大規模なトランスフォーマーアーキテクチャ (30 億のパラメータ) を使用し、トークンシーケンスとして表される視覚データでトレーニングし、学習したトークナイザーを使用して各画像を 256 個のベクトル量子化トークンの文字列にマッピングしました。

損失関数に関しては、研究者たちは自然言語コミュニティからインスピレーションを得ました。そこでは、マスクされたトークンモデリングがシーケンス自己回帰予測法に「取って代わられました」。画像、ビデオ、注釈付き画像をシーケンスとして表現できるようになると、トレーニングされたモデルは次のトークンを予測するときにクロスエントロピー損失を最小限に抑えることができます。

この極めてシンプルな設計により、研究者たちはいくつかの注目すべき動作を実証しました。

モデルのサイズとデータのサイズが大きくなるにつれて、モデルは適切なスケーリング動作を示します。
現在では、テスト時に適切なプロンプトを設計することで、さまざまな視覚タスクを解決できるようになりました。特別にトレーニングされたカスタムモデルほど高性能ではありませんが、単一のビジョンモデルで非常に多くのタスクを解決できるという事実は非常に心強いものです。
大量の教師なしデータは、さまざまな標準的な視覚タスクのパフォーマンスに大きな影響を与えます。
分布外データの処理や新しいタスクの実行時に、一般的な視覚的推論能力が発揮される可能性が示唆されていますが、さらなる調査が必要です。

ジョンズ・ホプキンス大学のコンピューターサイエンスの博士課程4年生であり、バークレー大学の客員博士課程学生で、この論文の共同筆頭著者でもあるユートン・バイ氏は、自分たちの研究を宣伝するためにツイートした。

画像出典: https://twitter.com/YutongBAI1002/status/1731512110247473608

論文の著者のうち、最後の 3 人はカリフォルニア大学バークレー校の CV 分野の上級学者です。トレバー・ダレル教授はバークレー人工知能研究所 (BAIR) の創設共同所長であり、ジテンドラ・マリク教授は 2019 IEEE コンピュータパイオニア賞を受賞し、アレクセイ A. エフロス教授は特に最近接点に関する研究で知られています。

左から右へ: Trevor Darrell、Jitendra Malik、Alexei A. Efros。

方法の紹介

私たちは 2 段階のアプローチを採用しています。1) 各画像をビジュアルトークンのシーケンスに変換できる大規模なビジュアルトークナイザー (単一の画像で動作) をトレーニングします。2) 各文がトークンのシーケンスとして表されるビジュアル文に対して自己回帰トランスフォーマーモデルをトレーニングします。方法は図 2 に示されています。

画像のトークン化

Transformer モデルを画像に適用するための一般的な操作には、画像をパッチに分割してシーケンスとして扱うことや、VQVAE や VQGAN などの事前トレーニング済みの画像トークナイザーを使用して画像の特徴を個別のトークングリッドに集約することなどがあります。本論文では後者の方法、つまりVQGANモデルを使用してセマンティックトークンを生成する方法を採用しています。

LVM フレームワークには、エンコードおよびデコードメカニズムが含まれており、量子化レイヤーも備えています。エンコーダーとデコーダーは畳み込みレイヤーを使用して構築されます。エンコーダーには、入力の空間次元を縮小するための複数のダウンサンプリングモジュールが装備されており、デコーダーには、画像を元のサイズに戻すための一連の同等のアップサンプリングモジュールが装備されています。特定の画像に対して、VQGAN トークナイザーは 256 個の個別のトークンを生成します。

実装の詳細。この論文では、Chang らが提案した VQGAN アーキテクチャを採用し、Chang らが使用した設定に従います。ここで、ダウンサンプリング係数は f = 16、コードブックのサイズは 8192 です。つまり、サイズが 256 × 256 の画像の場合、VQGAN トークナイザーは 16 × 16 = 256 個のトークンを生成し、各トークンは 8192 個の異なる値を取ることができます。さらに、この論文では、LAION 5B データセットの 1.5B サブセットでトークナイザーをトレーニングします。

ビジュアル文章シーケンスモデリング

本論文では、VQGAN を使用して画像を離散トークンに変換した後、複数の画像内の離散トークンを 1 次元シーケンスに連結し、視覚的な文章を統一されたシーケンスとして扱います。重要なのは、視覚的な文章はどれも特別な扱いを受けていない、つまり、特定のタスクや形式を示すために特別なトークンが使用されていないことです。

ビジュアルセンテンスを使用すると、さまざまなビジュアルデータを統一された画像シーケンス構造にフォーマットできます。

実装の詳細。ビジュアルセンテンス内の各画像を 256 個のトークンにトークン化した後、それらを連結して 1D トークンシーケンスを形成します。視覚トークンシーケンスに関しては、この論文のTransformerモデルは実際には自己回帰言語モデルと同じであるため、LLaMAのTransformerアーキテクチャを採用しています。

本論文で使用したコンテキスト長は4096トークンです。言語モデルと同様に、本論文では各ビジュアルセンテンスの先頭に[BOS]（文頭）トークン、末尾に[EOS]（文末）トークンを追加し、トレーニング中にシーケンス連結を使用して効率を向上させています。

この論文では、UVDv1 データセット全体 (4,200 億トークン) でモデルをトレーニングし、3 億、6 億、10 億、30 億という異なる数のパラメータを持つ合計 4 つのモデルをトレーニングします。

実験結果

この研究では、モデルの拡張能力と、さまざまなタスクを理解して回答する能力を評価するための実験が行われました。

拡張機能

下の図 3 に示すように、この研究ではまず、さまざまなサイズの LVM のトレーニング損失を調べました。

下の図 4 に示すように、モデルが大きいほどすべてのタスクの複雑さが低くなり、モデルの全体的なパフォーマンスをさまざまな下流タスクに転送できることがわかります。

下の図 5 に示すように、各データコンポーネントは下流のタスクにとって重要な役割を果たします。 LVM は、より大きなデータでメリットが得られるだけでなく、データセットの多様性によっても改善されます。

シーケンスプロンプト

LVM のさまざまなプロンプトを理解する能力をテストするために、本研究ではまず、順次推論タスクにおける LVM の評価実験を実施しました。プロンプトは非常にシンプルです。モデルに 7 枚の画像のシーケンスを提供し、次の画像を予測するように依頼します。実験結果を下の図 6 に示します。

この研究では、特定のカテゴリのアイテムのリストをシーケンスとして考慮し、LVM に同じカテゴリの画像を予測させました。実験結果を下の図 15 に示します。

では、後続のフレームを正確に予測するには、どの程度のコンテキストが必要でしょうか?

この研究では、異なる長さ（1～15フレーム）のコンテキストプロンプトを与えられたモデルのフレーム生成の困惑度を評価しました。結果を下の図7に示します。困惑度は1フレームから11フレームにかけて大幅に改善し、その後安定しました（62.1→48.4）。

類推プロンプト

この研究では、LVM の高度な解釈機能をテストするために、より複雑なプロンプト構造である Analogy Prompt も評価しました。

下の図 8 は、多くのタスクに対する Analogy Prompt の定性的な結果を示しています。

ビジュアルプロンプトとの比較を以下に示します。シーケンス LVM は、ほぼすべてのタスクで以前の方法よりも優れています。

合成タスク。図 9 は、単一のプロンプトを使用して複数のタスクを組み合わせた結果を示しています。

その他のプロンプト

研究者たちは、これまで見たことのないさまざまなプロンプトをモデルに提供することで、モデルがどの程度拡張できるかを観察しようとした。下の図 10 は、これらのプロンプトの一部が適切に機能していることを示しています。

下の図 11 は、言葉で説明するのが難しいプロンプトを示しています。これらのタスクでは、LVM が最終的に LLM を上回る可能性があります。

図 13 は、非言語的人間の IQ テストに見られる典型的な視覚的推論の質問に対する予備的な定性的な結果を示しています。

詳細については、元の記事をお読みください。

<<: 大規模なモデルをグローバルに微調整できないわけではなく、LoRA の方がコスト効率が高いだけです。チュートリアルは準備完了です。

>>: RPAとAIを組み合わせることで、自動化の新しい世界が開かれます

一般的な視覚的推論が出現、カリフォルニア大学バークレー校が単一の純粋なCV大規模モデルを改良、3人の上級学者が参加

方法の紹介

実験結果

Swift モバイルゲーム開発に適用される幅優先探索アルゴリズム

[オピニオン] アルゴリズムとテクノロジーが成熟すれば、新しい小売業は本当に素晴らしい時代を迎えることになる

百度が銀川市で初のインテリジェントネットワーク試験ライセンスを獲得し、自動運転車が銀川市の公道でデビューした。

人工知能を使ってエッセイを採点するのは信頼できると思いますか?

コミュニティは顔認証システムを起動し、アクセスカードを無効にしました。情報セキュリティを心配し、登録を望まない所有者は帰宅に困難をきたしています。顔認証の強制適用の境界線はどこにあるのでしょうか？

2021年に理解すべき5つのAIコンセプト

Google Gemini の大きな転換？ Stanford Meta Chinese は推論性能が GPT-3.5 よりも優れていることを証明

5分で強力で使いやすいディープラーニング環境を構築

推薦する

データ変換ツールにおけるAIの未来

分析と AI に関する 6 つの警告すべき間違い

人工知能のこれら 5 つのトレンドは世界にどのような影響を与えるでしょうか?

FacebookはVRキーボードを使ってデータを入力する方法を開発中

左手にビッグデータ、右手に人工知能。これらのプログラマーは、パンデミック中に何をしたのでしょうか?

7兆のブルーオーシャンが呼んでいる、ケータリングロボットの商業利用を加速させるには？

1 つのビルドが 1 億回のコーディングに勝ち、MCP がシリコンバレーで流行中!アントロピック・プロトコルはインテリジェントエージェントの「ユニバーサルハンド」を解き放つ

IoT、ビッグデータ、AIの現状はどうなっているのでしょうか？

2022 年にゲームを変える AI と ML テクノロジーのトップトレンド

マイクロソフトは、すべての人に機械学習を推進し、Windowsアプリケーション「Ren Du two meridians」を公開し、5000万人の開発者に利益をもたらす

ファーウェイが「天才少年」の業績を初めて明らかに：彼は入社から1年も経たないうちにこの偉業を成し遂げた