大規模言語モデルの視覚的才能: GPTは文脈学習を通じて視覚的タスクも解決できる

大規模言語モデルの視覚的才能: GPTは文脈学習を通じて視覚的タスクも解決できる

現在、大規模言語モデル (LLM) は、自然言語処理 (NLP) の分野で変化の波を引き起こしています。 LLM は強力な創発機能を備えており、複雑な言語理解タスク、生成タスク、さらには推論タスクでも優れたパフォーマンスを発揮することがわかります。これにより、人々は機械学習の別のサブフィールドであるコンピューター ビジョン (CV) における LLM の可能性をさらに探求するようになりました。

LLM の優れた才能の 1 つは、文脈的学習能力です。コンテキスト学習は LLM のパラメータを更新しませんが、さまざまな NLP タスクで驚くべき結果を示しています。では、GPT は文脈学習を通じて視覚タスクを解決できるのでしょうか?

Google とカーネギーメロン大学 (CMU) の研究者による最近の論文では、画像 (またはその他の非言語的様相) を LLM が理解できる言語に翻訳できる限り、これは可能であるようだと示唆しています。

写真

論文アドレス: https://arxiv.org/abs/2306.17842

この論文では、文脈学習を通じて視覚タスクを解決する PaLM または GPT の能力を明らかにし、新しい方法 SPAE (Semantic Pyramid AutoEncoder) を提案します。この新しいアプローチにより、LLM はパラメータを更新せずに画像生成タスクを実行できるようになります。これは、コンテキスト学習を使用して LLM が画像コンテンツを生成できるようにする最初の成功したアプローチでもあります。

まず、コンテキスト学習を通じて画像コンテンツを生成する LLM の実験結果を見てみましょう。

たとえば、与えられたコンテキストでは、50 枚の手書き画像を提供することで、この論文では PaLM 2 に、出力として数字画像を生成することを必要とする複雑なクエリに答えるように求めています。

写真

また、画像コンテキスト入力を与えると、リアルな現実世界の画像を生成することもできます。

写真

PaLM 2 は画像の生成に加えて、コンテキスト学習を通じて画像の説明も実行できます。

画像関連の質問に対する視覚的な質問回答もあります。

写真

生成されたビデオのノイズを除去することもできます。

写真

方法の概要

実際、画像を LLM が理解できる言語に変換することは、Visual Transformer (ViT) 論文で研究されてきた問題です。 Google と CMU によるこの論文では、実際の単語を使用して画像を表現するという次のレベルに進んでいます。

このアプローチは、画像の意味と詳細を捉えた言葉でいっぱいの塔を建てるようなものです。このテキストが豊富な表現により、画像の説明を簡単に生成でき、LLM は画像に関する質問に答えたり、画像のピクセルを再構築したりできるようになります。

具体的には、この研究では、トレーニング済みのエンコーダーと CLIP モデルを使用して画像をトークン空間に変換し、次に LLM を使用して適切な語彙トークンを生成し、最後にトレーニング済みのデコーダーを使用してこれらのトークンをピクセル空間に戻すことを提案しています。この巧妙なプロセスにより、画像が LLM が理解できる言語に変換され、視覚タスクで LLM の生成力を活用できるようになります。

実験と結果

この研究では、SPAE を SOTA 法の Frozen および LQAE と実験的に比較し、結果を以下の表 1 に示します。 SPAEGPT は、トークンの 2% のみを使用しながら、すべてのタスクで LQAE を上回ります。

写真

全体的に、mini-ImageNet ベンチマークのテストでは、SPAE メソッドにより、以前の SOTA メソッドよりもパフォーマンスが 25% 向上することが示されています。

写真

SPAE設計法の有効性を検証するために、本研究ではアブレーション実験を行った。実験結果を表4と図10に示す。

写真

写真

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<:  中国科学院とアリババが開発したFF3Dでは、カスタムスタイルの3Dポートレートを作成するのにわずか3分しかかかりません。

>>:  ビッグモデルの時代、周志華教授の「ラーニングウェア」の考え方を分析:小さなモデルでも大きなことができる

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

米軍は市街戦環境向けの人工知能システムを開発中

米陸軍研究所は、都市環境における兵士の状況認識力と戦闘能力を向上させるために、認知・神経工学共同技術...

公共の安全とスマートシティ:AIがどのように役立つか

近年、人工知能の進歩により、私たちのコミュニティの安全性は大幅に向上しました。この技術は、緊急管理者...

UAI Trainプラットフォームに基づく分散トレーニング

序文大規模なデータセットでトレーニングされた最新のニューラル ネットワーク アーキテクチャは、画像認...

馬毅教授の新作:ホワイトボックスViTが「セグメンテーション創発」に成功、経験的ディープラーニングの時代は終焉か?

トランスフォーマーベースのビジュアルベースモデルは、セグメンテーションや検出などのさまざまな下流タス...

機械学習は科学プロジェクトからビジネスプランまで3段階の戦略を完了します

【51CTO.com クイック翻訳】 2015年は機械学習技術が学術分野で形を成した年でした。具体的...

2020 年に台頭する AI と機械学習の 6 つのトレンド

人工知能ソリューションの市場は急速に成長を続けており、数百億ドルの収益をもたらしています。調査会社I...

2022年の政府活動報告を聞いた後、人工知能業界が注目するべき点は以下のとおりです。

2022年全国人民代表大会と中国人民政治協商会議が開幕した。3月5日には2022年政府活動報告が発...

...

必ず読むべき28の古典的なプログラミングアルゴリズム

最初の 10 個は、聖書からのトップ 10 アルゴリズムです。発起者からの説明: Proofs fr...

グラフニューラルネットワークが深くなるほど、パフォーマンスは向上しますか?

数十または数百の層を持つニューラル ネットワークの応用は、ディープラーニングの重要な機能の 1 つで...

...

15歳の少女が農場の収穫機にヒントを得てピンポン球を拾うロボットを発明

最近、上海の15歳の中学生が卓球ボールを拾うロボットを発明した。体育館の床に散らばった卓球ボールを自...

2020 年の優れた産業用人工知能アプリケーション

人工知能技術は今、世界を変えつつあります。多くの業界はすでに、ビジネス プロセスを改善するために A...