純粋なテキストモデルは「視覚的な」表現をトレーニングします。 MITの最新研究：言語モデルはコードで絵を描くことができる

「本を読む」ことしかできない大規模な言語モデルは、現実世界の視覚的認識を備えているのでしょうか?文字列間の関係をモデル化することで、言語モデルは視覚世界について具体的に何を学ぶことができるのでしょうか?

最近、マサチューセッツ工科大学のコンピュータサイエンスおよび人工知能研究所 (MIT CSAIL) の研究者らは、言語モデルの視覚機能の体系的な評価を実施し、単純な形状や物体から複雑なシーンまで、より複雑な視覚概念を継続的に生成および認識するモデルを要求し、純粋なテキストモデルを使用して予備的な視覚表現学習システムをトレーニングする方法を実証しました。

論文リンク: https://arxiv.org/abs/2401.01862

言語モデルはピクセルの形で視覚情報を入力または出力できないため、研究ではコードを使用しながら画像をレンダリングして表現します。

LLM によって生成された画像は自然な画像のようには見えませんが、生成結果とモデルが自己修正できるという事実は、文字列/テキストの正確なモデリングによって、視覚世界の多くの概念について言語モデルに教えることができることを示しています。

さらに、研究者らは、テキストモデルによって生成された画像を自己教師あり視覚表現学習に使用する方法も研究しました。結果は、視覚モデルのトレーニングの可能性も示しており、自然画像の意味評価は LLM のみを使用して実行できます。

言語モデルの視覚的概念

まず、質問から始めましょう。人間にとって「カエル」の視覚的概念を理解するとはどういう意味でしょうか?

皮膚の色、足が何本あるか、目がどこにあるか、ジャンプしたときの姿がどのようなものか、などを知るだけで十分でしょうか?

カエルの概念を視覚的に理解するには、カエルの画像を見て、さまざまな角度やさまざまな現実世界のシナリオでカエルを観察する必要があると一般的に考えられています。

テキストだけを観察すると、さまざまな概念の視覚的な意味をどの程度理解できるでしょうか?

モデルトレーニングの観点から見ると、大規模言語モデル (LLM) のトレーニング入力はテキストデータのみですが、モデルは形状や色などの概念に関する情報を理解することが証明されており、視覚モデルの表現に線形変換することもできます。

つまり、視覚モデルと言語モデルは、世界の表現方法が非常に似ています。

しかし、既存のモデル特性評価方法のほとんどは、事前に選択された属性のセットに基づいて、モデルがエンコードする情報を調査します。この方法では、属性を動的に拡張できず、モデルの内部パラメータへのアクセスも必要です。

そこで研究者たちは2つの質問をしました。

1. 言語モデルは視覚世界についてどの程度知っているか?

2. 「テキストモデルのみを使用して」自然な画像に使用できる視覚システムをトレーニングできますか?

これを調べるために、研究者らはさまざまな言語モデルをテストし、現実世界の視覚概念をどれだけうまくレンダリング（描画）および認識（視覚化）できるかを調べて、モデルに含まれる情報を評価し、それによって、各属性ごとに特徴分類器を個別にトレーニングすることなく、任意の属性を測定できるようになりました。

言語モデルは画像を生成できませんが、GPT-4 などの大規模なモデルはオブジェクトをレンダリングするコードを生成できます。この記事では、テキストプロンプト -> コード -> 画像というプロセスを通じて、オブジェクトのレンダリングの難易度を徐々に上げていくことで、モデルの能力を測定します。

研究者らは、LLM は複数のオブジェクトで構成される複雑な視覚シーンを生成するのに驚くほど優れており、空間関係を効率的にモデル化できるものの、テクスチャ、正確な形状、画像内の他のオブジェクトとの表面接触などのオブジェクトの特性を含め、視覚世界を適切に捉えていないことを発見しました。

この論文では、形状、位置、色のシーケンスを含むコードで表現された絵画を入力し、コードで記述された視覚コンテンツを言語モデルに回答させることで、LLM が知覚概念を認識する能力も評価しています。

実験結果によると、LLM は人間とは逆のことが分かりました。人間にとって、コードを書くプロセスは難しいですが、画像の内容を確認するのは簡単です。一方、モデルはコードの内容を解釈/認識するのが難しいですが、複雑なシーンを生成することができます。

さらに、結果は、言語モデルの視覚生成能力がテキストベースの修正を通じてさらに向上できることも示しています。

研究者たちはまず言語モデルを使用して概念を説明するコードを生成し、次にコードを修正する条件として「生成されたコードを改善する」というプロンプトを継続的に入力しました。最終的に、モデルはこの反復的な方法を通じて視覚効果を改善できます。

視覚能力データセット: 指差しシーン

研究者らは、単純な形状と組み合わせ、オブジェクト、複雑なシーンなど、低複雑度から高複雑度までの画像レンダリングコードを作成、認識、変更するモデルの能力を測定するために、3 つのテキスト記述データセットを構築しました。

1. 形とその構成

点、線、2D 図形、3D 図形などのさまざまなカテゴリの図形が含まれており、色、テクスチャ、位置、空間配置などの 32 種類のプロパティがあります。

完全なデータセットには 400,000 を超える例が含まれており、そのうち 1,500 のサンプルが実験テストに使用されます。

2. オブジェクト

ADE 20K データセット内の最も一般的な 1000 個のオブジェクトは、より複雑な形状の組み合わせが含まれているため、生成と認識がより困難です。

3. シーン

これは、MS-COCO データセットから 1000 個のシーン記述をランダムかつ均一にサンプリングすることによって取得された、複数のオブジェクトと異なる位置を含む複雑なシーン記述で構成されています。

データセット内の視覚的概念は言語で説明されており、たとえば、シーンは「青い空と穏やかな海のある、ビーチでの晴れた夏の日」と説明されています。

テスト中、LLM は、描画されたシーンに基づいてコードを生成し、レンダリングされた画像をコンパイルするように求められました。

実験結果

モデルを評価するタスクは主に次の 3 つで構成されます。

1. テキストの生成/描画: 特定の概念に対応する画像レンダリングコードを生成する LLM の能力を評価します。

2. テキストの認識/表示: コードで表現された視覚的な概念やシーンを認識する際の LLM のパフォーマンスをテストします。各モデルで人間の描画のコード表現をテストします。

3. テキストフィードバックを使用した図面の修正: LLM が独自に生成した自然言語フィードバックを使用して、生成されたコードを繰り返し修正する能力を評価します。

テストのモデル入力のプロンプトは次のとおりです。[プログラミング言語名] のプログラミング言語で [概念] を描くコードを記述します。

次に、モデルの出力コードをコンパイルしてレンダリングし、生成された画像の視覚的な品質と多様性を評価します。

1. 忠実さ

生成された画像と実際の説明の間の忠実度は、画像の最適な説明を取得することによって計算されます。各画像と同じカテゴリ (形状/オブジェクト/シーン) 内のすべての潜在的な説明との一致は、最初に CLIP スコアを使用して計算され、次にグラウンドトゥルースの説明の順位がパーセンテージとして報告されます (たとえば、スコアが 100% の場合、グラウンドトゥルースの概念が 1 位にランク付けされます)。

2. 多様性

多様なコンテンツをレンダリングするモデルの能力を評価するために、同じ視覚概念を表す画像のペアに LPIPS 多様性スコアが使用されます。

3. リアリズム

ImageNet からサンプリングされた 1K 画像のセットに対して、Fréchet Inception Distance (FID) を使用して、自然画像と LLM によって生成された画像間の分布の違いを定量化します。
比較実験では、安定拡散によって得られたモデルをベースラインとして使用します。
LLM は何を視覚化できますか?
結果は、LLM が視覚階層全体から現実世界の概念を視覚化し、無関係な 2 つの概念 (車の形をしたケーキなど) を組み合わせ、視覚現象 (ぼやけた画像など) を生成し、空間関係 (「自転車の列」の水平配置など) を正しく解釈できることを示しています。

予想どおり、CLIP スコアの結果から、形状からシーンまで概念の複雑さが増すにつれて、モデルの能力は低下します。

複数のオブジェクトを含むシーンを描画するなど、より複雑な視覚概念の場合、処理と tikz を使用して複雑な説明を含むシーンを描画すると、GPT-3.5 と GPT-4 は python-matplotlib や python-turtle よりも正確です。

オブジェクトとシーンについては、CLIP スコアは、「人」、「車両」、「屋外シーン」などの概念が最も描きやすいことを示しています。複雑なシーンをレンダリングするこの能力は、レンダリングコードの表現力、各シーンのモデルのプログラミング能力、および関連するさまざまな概念の内部表現の品質によって決まります。

LLM で視覚化できないものは何ですか?

場合によっては、比較的単純な概念でさえモデル化が難しく、研究者は 3 つの一般的な障害モードを特定しました。

1. 言語モデルは、一連の形状や特定の空間構成の概念を処理できません。

2. 図が粗く、詳細が欠けています。これは、特に matplotlib と turtle コーディングを使用する場合に Davinci で最もよく発生します。

3. 説明が不完全、破損している、または概念のサブセット (通常はシナリオカテゴリ) のみを表しています。

4. すべてのモデルをデジタルで描画できるわけではありません。

多様性とリアリズム

言語モデルは、同じ概念の異なる視覚化を生成する能力を示します。

同じシーンの異なるサンプルを生成するために、この論文では 2 つの戦略を比較します。

1. モデルから繰り返しサンプリングする。

2. パラメータを変更することで概念の新しいプロットを作成できるパラメータ化された関数をサンプリングします。

視覚的概念の多様な実現を提示するモデルの能力は、高い LPIPS 多様性スコアに反映されています。多様な画像を生成する能力は、LLM が視覚的概念をさまざまな方法で表現でき、限られたプロトタイプのセットに制限されないことを示しています。

LLM によって生成された画像は自然画像に比べてはるかにリアルではなく、モデルの FID メトリックのスコアは Stable Diffusion と比較して非常に低いですが、最新のモデルは古いモデルよりもパフォーマンスが優れています。

テキストから視覚システムを学ぶ

研修と評価

研究者らは、教師なし学習によって得られた事前トレーニング済みの視覚モデルをネットワークバックボーンとして使用し、MoCo-v2 メソッドを使用して、LLM によって生成された 130 万枚の 384×384 画像データセットで ResNet-50 モデルを合計 200 エポックトレーニングしました。トレーニング後、2 つの方法を使用して、各データセットでトレーニングされたモデルのパフォーマンスを評価しました。

1. ImageNet-1k分類の固定バックボーン上で線形層を100エポックトレーニングする。

2. ImageNet-100 で 5 近傍法 (kNN) 検索を使用します。

結果から、LLM によって生成されたデータのみを使用してトレーニングされたモデルは、線形レイヤーをトレーニングする必要なく、自然画像に対して強力な表現機能を提供できることがわかります。

結果分析

研究者らは、LLM によって生成された画像と、dead-levaves、フラクタル、StyleGAN などの単純な生成プログラムを含む既存のプログラムによって生成された画像を比較し、非常に多様な画像を生成しました。

結果は、LLM 法がデッドレベブやフラクタルよりは優れているが、SOTA よりは劣っていることを示しています。研究者は、データを手動で検査した後、この劣等性は LLM で生成された画像のほとんどにテクスチャが欠けていることに起因すると結論付けました。

この問題に対処するために、研究者らは Shaders-21k データセットと LLM から取得したサンプルを組み合わせて、テクスチャが豊富な画像を生成しました。

結果から、この方式はパフォーマンスを大幅に向上させ、プログラム生成に基づく他の方式よりも優れていることがわかります。

<<: 約 200 以上の自動運転データセットの包括的な調査!データクローズドループプロセス全体の概要

ブログ

あなたの頭上に「ロボット」がやって来ます！起業家の知恵：リアルタイムで位置を特定し、自動的に警報を鳴らすスマートヘルメットの開発

純粋なテキストモデルは「視覚的な」表現をトレーニングします。 MITの最新研究：言語モデルはコードで絵を描くことができる

言語モデルの視覚的概念

視覚能力データセット: 指差しシーン

実験結果

テキストから視覚システムを学ぶ

あなたの頭上に「ロボット」がやって来ます！起業家の知恵：リアルタイムで位置を特定し、自動的に警報を鳴らすスマートヘルメットの開発

5 つの負荷分散アルゴリズムのうち、いくつ知っていますか?

Adobe、フォトショップで加工された人間の顔を自動検出できるAIツールを開発

Appleが大規模モデル圧縮技術を革新、大規模モデルを携帯電話に搭載可能に

9 トピック PyTorch での畳み込みニューラルネットワーク (CNN) の実装

OSPFはSPFアルゴリズムを使用してルートを伝播します

表形式データでの機械学習に特徴抽出を使用する方法

推薦する

AI人材の競争は軍拡競争となっている。AIの創造性競争に賭けるAI大手の中で、勝利のポイントを獲得するのはどれだろうか？

世界初の3nmチップ、Appleが再び神に！誰もが壮大なCチェンジのために島へ行き、コンソールゲームはiPhoneに搭載され、表面上の最高の画像はVision Proのすぐそばにあります

「人と車のインタラクション」に新たなブレークスルー！パーデュー大学が Talk2Drive フレームワークをリリース: 学習可能/カスタマイズ可能な「コマンド認識」システム

Googleが生成AIをオンラインショッピングに適用、実在のモデルが高精度な仮想衣装着せ替えを実現

ヘルスケアにおけるAI導入が難しい理由

Llama 2 の精度を 80.3% まで高めるヒントは何でしょうか? Metaは、モデルの幻覚を大幅に削減する新しい注意メカニズムS2Aを提案している。

2025年までに音声認識市場は267億9000万ドルに達する

エンタープライズグレードのインテリジェントオートメーションガイド

機械学習とディープラーニングの違いは何ですか? なぜ機械学習を選択する人が増えるのでしょうか?

AIを活用した超解像技術の実装

将来、自動運転車が世界をどのように変えるか