大規模言語モデルの視覚的才能: GPTは文脈学習を通じて視覚的タスクも解決できる

現在、大規模言語モデル (LLM) は、自然言語処理 (NLP) の分野で変化の波を引き起こしています。 LLM は強力な創発機能を備えており、複雑な言語理解タスク、生成タスク、さらには推論タスクでも優れたパフォーマンスを発揮することがわかります。これにより、人々は機械学習の別のサブフィールドであるコンピュータービジョン (CV) における LLM の可能性をさらに探求するようになりました。

LLM の優れた才能の 1 つは、文脈的学習能力です。コンテキスト学習は LLM のパラメータを更新しませんが、さまざまな NLP タスクで驚くべき結果を示しています。では、GPT は文脈学習を通じて視覚タスクを解決できるのでしょうか?

Google とカーネギーメロン大学 (CMU) の研究者による最近の論文では、画像 (またはその他の非言語的様相) を LLM が理解できる言語に翻訳できる限り、これは可能であるようだと示唆しています。

写真

論文アドレス: https://arxiv.org/abs/2306.17842

この論文では、文脈学習を通じて視覚タスクを解決する PaLM または GPT の能力を明らかにし、新しい方法 SPAE (Semantic Pyramid AutoEncoder) を提案します。この新しいアプローチにより、LLM はパラメータを更新せずに画像生成タスクを実行できるようになります。これは、コンテキスト学習を使用して LLM が画像コンテンツを生成できるようにする最初の成功したアプローチでもあります。

まず、コンテキスト学習を通じて画像コンテンツを生成する LLM の実験結果を見てみましょう。

たとえば、与えられたコンテキストでは、50 枚の手書き画像を提供することで、この論文では PaLM 2 に、出力として数字画像を生成することを必要とする複雑なクエリに答えるように求めています。

写真

また、画像コンテキスト入力を与えると、リアルな現実世界の画像を生成することもできます。

写真

PaLM 2 は画像の生成に加えて、コンテキスト学習を通じて画像の説明も実行できます。

画像関連の質問に対する視覚的な質問回答もあります。

写真

生成されたビデオのノイズを除去することもできます。

写真

方法の概要

実際、画像を LLM が理解できる言語に変換することは、Visual Transformer (ViT) 論文で研究されてきた問題です。 Google と CMU によるこの論文では、実際の単語を使用して画像を表現するという次のレベルに進んでいます。

このアプローチは、画像の意味と詳細を捉えた言葉でいっぱいの塔を建てるようなものです。このテキストが豊富な表現により、画像の説明を簡単に生成でき、LLM は画像に関する質問に答えたり、画像のピクセルを再構築したりできるようになります。

具体的には、この研究では、トレーニング済みのエンコーダーと CLIP モデルを使用して画像をトークン空間に変換し、次に LLM を使用して適切な語彙トークンを生成し、最後にトレーニング済みのデコーダーを使用してこれらのトークンをピクセル空間に戻すことを提案しています。この巧妙なプロセスにより、画像が LLM が理解できる言語に変換され、視覚タスクで LLM の生成力を活用できるようになります。