最近では、GPT や LLaMA などの大規模言語モデル (LLM) が世界中で人気になっています。 同様によくある質問は、「大規模ビジュアルモデル (LVM) を構築するには何が必要か?」です。 LLaVA などの視覚言語モデルによって提供されるアイデアは興味深く、検討する価値がありますが、動物界の法則に基づくと、視覚能力と言語能力は関連がないことはすでにわかっています。たとえば、多くの実験により、非ヒト霊長類の言語体系は人間のものと「完全に異なる」にもかかわらず、その視覚世界は人間のものと非常に似ていることが示されています。 最近の論文で、カリフォルニア大学バークレー校とジョンズ・ホプキンス大学の研究者らは、ピクセルだけでどこまでできるのかという別の疑問に対する答えを探りました。
研究者が LVM でエミュレートしようとしている LLM の主な機能は、1) データのサイズに合わせたスケーリング、および 2) ヒント (コンテキスト学習) によるタスクの柔軟な指定です。 データ、アーキテクチャ、損失関数という 3 つの主要コンポーネントを指定します。 データに関して言えば、研究者は視覚データの驚くべき多様性を活用したいと考えています。私たちはラベル付けされていない生の画像とビデオから始めて、過去数十年間に生成されたさまざまなラベル付けされた視覚データ ソース (セマンティック セグメンテーション、深度再構築、キーポイント、マルチビュー 3D オブジェクトなど) を活用します。彼らは、ピクセルを超えたメタ知識を必要とせずに、これらのさまざまな注釈を表すために、「視覚的な文章」という共通形式を定義します。トレーニング セットの合計サイズは 16 億 4,000 万枚の画像/フレームです。 アーキテクチャの面では、研究者らは大規模なトランスフォーマー アーキテクチャ (30 億のパラメータ) を使用し、トークン シーケンスとして表される視覚データでトレーニングし、学習したトークナイザーを使用して各画像を 256 個のベクトル量子化トークンの文字列にマッピングしました。 損失関数に関しては、研究者たちは自然言語コミュニティからインスピレーションを得ました。そこでは、マスクされたトークンモデリングがシーケンス自己回帰予測法に「取って代わられました」。画像、ビデオ、注釈付き画像をシーケンスとして表現できるようになると、トレーニングされたモデルは次のトークンを予測するときにクロスエントロピー損失を最小限に抑えることができます。 この極めてシンプルな設計により、研究者たちはいくつかの注目すべき動作を実証しました。
ジョンズ・ホプキンス大学のコンピューターサイエンスの博士課程4年生であり、バークレー大学の客員博士課程学生で、この論文の共同筆頭著者でもあるユートン・バイ氏は、自分たちの研究を宣伝するためにツイートした。 画像出典: https://twitter.com/YutongBAI1002/status/1731512110247473608 論文の著者のうち、最後の 3 人はカリフォルニア大学バークレー校の CV 分野の上級学者です。トレバー・ダレル教授はバークレー人工知能研究所 (BAIR) の創設共同所長であり、ジテンドラ・マリク教授は 2019 IEEE コンピュータ パイオニア賞を受賞し、アレクセイ A. エフロス教授は特に最近接点に関する研究で知られています。 左から右へ: Trevor Darrell、Jitendra Malik、Alexei A. Efros。 方法の紹介私たちは 2 段階のアプローチを採用しています。1) 各画像をビジュアル トークンのシーケンスに変換できる大規模なビジュアル トークナイザー (単一の画像で動作) をトレーニングします。2) 各文がトークンのシーケンスとして表されるビジュアル文に対して自己回帰トランスフォーマー モデルをトレーニングします。方法は図 2 に示されています。 画像のトークン化 Transformer モデルを画像に適用するための一般的な操作には、画像をパッチに分割してシーケンスとして扱うことや、VQVAE や VQGAN などの事前トレーニング済みの画像トークナイザーを使用して画像の特徴を個別のトークン グリッドに集約することなどがあります。本論文では後者の方法、つまりVQGANモデルを使用してセマンティックトークンを生成する方法を採用しています。 LVM フレームワークには、エンコードおよびデコード メカニズムが含まれており、量子化レイヤーも備えています。エンコーダーとデコーダーは畳み込みレイヤーを使用して構築されます。エンコーダーには、入力の空間次元を縮小するための複数のダウンサンプリング モジュールが装備されており、デコーダーには、画像を元のサイズに戻すための一連の同等のアップサンプリング モジュールが装備されています。特定の画像に対して、VQGAN トークナイザーは 256 個の個別のトークンを生成します。 実装の詳細。この論文では、Chang らが提案した VQGAN アーキテクチャを採用し、Chang らが使用した設定に従います。ここで、ダウンサンプリング係数は f = 16、コードブックのサイズは 8192 です。つまり、サイズが 256 × 256 の画像の場合、VQGAN トークナイザーは 16 × 16 = 256 個のトークンを生成し、各トークンは 8192 個の異なる値を取ることができます。さらに、この論文では、LAION 5B データセットの 1.5B サブセットでトークナイザーをトレーニングします。 ビジュアル文章シーケンスモデリング 本論文では、VQGAN を使用して画像を離散トークンに変換した後、複数の画像内の離散トークンを 1 次元シーケンスに連結し、視覚的な文章を統一されたシーケンスとして扱います。重要なのは、視覚的な文章はどれも特別な扱いを受けていない、つまり、特定のタスクや形式を示すために特別なトークンが使用されていないことです。 ビジュアルセンテンスを使用すると、さまざまなビジュアルデータを統一された画像シーケンス構造にフォーマットできます。 実装の詳細。ビジュアルセンテンス内の各画像を 256 個のトークンにトークン化した後、それらを連結して 1D トークンシーケンスを形成します。視覚トークンシーケンスに関しては、この論文のTransformerモデルは実際には自己回帰言語モデルと同じであるため、LLaMAのTransformerアーキテクチャを採用しています。 本論文で使用したコンテキスト長は4096トークンです。言語モデルと同様に、本論文では各ビジュアルセンテンスの先頭に[BOS](文頭)トークン、末尾に[EOS](文末)トークンを追加し、トレーニング中にシーケンス連結を使用して効率を向上させています。 この論文では、UVDv1 データセット全体 (4,200 億トークン) でモデルをトレーニングし、3 億、6 億、10 億、30 億という異なる数のパラメータを持つ合計 4 つのモデルをトレーニングします。 実験結果この研究では、モデルの拡張能力と、さまざまなタスクを理解して回答する能力を評価するための実験が行われました。 拡張機能 下の図 3 に示すように、この研究ではまず、さまざまなサイズの LVM のトレーニング損失を調べました。 下の図 4 に示すように、モデルが大きいほどすべてのタスクの複雑さが低くなり、モデルの全体的なパフォーマンスをさまざまな下流タスクに転送できることがわかります。 下の図 5 に示すように、各データ コンポーネントは下流のタスクにとって重要な役割を果たします。 LVM は、より大きなデータでメリットが得られるだけでなく、データ セットの多様性によっても改善されます。 シーケンスプロンプト LVM のさまざまなプロンプトを理解する能力をテストするために、本研究ではまず、順次推論タスクにおける LVM の評価実験を実施しました。プロンプトは非常にシンプルです。モデルに 7 枚の画像のシーケンスを提供し、次の画像を予測するように依頼します。実験結果を下の図 6 に示します。 この研究では、特定のカテゴリのアイテムのリストをシーケンスとして考慮し、LVM に同じカテゴリの画像を予測させました。実験結果を下の図 15 に示します。 では、後続のフレームを正確に予測するには、どの程度のコンテキストが必要でしょうか? この研究では、異なる長さ(1~15フレーム)のコンテキストプロンプトを与えられたモデルのフレーム生成の困惑度を評価しました。結果を下の図7に示します。困惑度は1フレームから11フレームにかけて大幅に改善し、その後安定しました(62.1→48.4)。 類推プロンプト この研究では、LVM の高度な解釈機能をテストするために、より複雑なプロンプト構造である Analogy Prompt も評価しました。 下の図 8 は、多くのタスクに対する Analogy Prompt の定性的な結果を示しています。 ビジュアルプロンプトとの比較を以下に示します。シーケンス LVM は、ほぼすべてのタスクで以前の方法よりも優れています。 合成タスク。図 9 は、単一のプロンプトを使用して複数のタスクを組み合わせた結果を示しています。 その他のプロンプト 研究者たちは、これまで見たことのないさまざまなプロンプトをモデルに提供することで、モデルがどの程度拡張できるかを観察しようとした。下の図 10 は、これらのプロンプトの一部が適切に機能していることを示しています。 下の図 11 は、言葉で説明するのが難しいプロンプトを示しています。これらのタスクでは、LVM が最終的に LLM を上回る可能性があります。 図 13 は、非言語的人間の IQ テストに見られる典型的な視覚的推論の質問に対する予備的な定性的な結果を示しています。 詳細については、元の記事をお読みください。 |
<<: 大規模なモデルをグローバルに微調整できないわけではなく、LoRA の方がコスト効率が高いだけです。チュートリアルは準備完了です。
>>: RPAとAIを組み合わせることで、自動化の新しい世界が開かれます
半導体業界では長年にわたり、より多くのコンポーネントを単一のシステムオンチップ (SoC) に緊密に...
この記事では、さまざまな活性化関数を紹介し、活性化関数の長所と短所を比較します。この記事は、人工ニュ...
春が来たが、インターネットの寒い冬の影はまだ消えていない。年初から人員削減、外部採用の中止、採用削減...
2023 年の最後の 1 ~ 2 日で、GitHub のプログラミング指向のチャットボット Copi...
[[429494]] 2021年10月11日にarXivにアップロードされた論文「混合交通流における...
この記事を通じて、ML でよく使用されるアルゴリズムについて常識的に理解することができます。コードや...
[[331263]] 【51CTO.comオリジナル記事】 1. はじめに前回の記事では、レコメンデ...
拡散モデルは新たな大きな応用をもたらしました——ソラが動画を生成するのと同じように、ニューラルネット...
英国最大の報道機関であるBBCは10月7日、ニュース、アーカイブ、「パーソナライズされた体験」の研究...
ハッカーがネットワーク攻撃を開始すると、まず会社のパブリック IP で SSH サービスに使用される...
2021年を迎え、私たちは新しい働き方や新しい労働環境に慣れてきました。多くの人は、デジタル通信手段...
12月28日、工業情報化部など各部門は「第14次5カ年計画:インテリジェント製造業発展計画」(以下、...
世界の歴史は発明の歴史でもあります。火薬の発明は世界地図を変え、電灯の発明は夜を変え、車の発明は空間...