大規模言語モデルの視覚的才能: GPTは文脈学習を通じて視覚的タスクも解決できる

大規模言語モデルの視覚的才能: GPTは文脈学習を通じて視覚的タスクも解決できる

現在、大規模言語モデル (LLM) は、自然言語処理 (NLP) の分野で変化の波を引き起こしています。 LLM は強力な創発機能を備えており、複雑な言語理解タスク、生成タスク、さらには推論タスクでも優れたパフォーマンスを発揮することがわかります。これにより、人々は機械学習の別のサブフィールドであるコンピューター ビジョン (CV) における LLM の可能性をさらに探求するようになりました。

LLM の優れた才能の 1 つは、文脈的学習能力です。コンテキスト学習は LLM のパラメータを更新しませんが、さまざまな NLP タスクで驚くべき結果を示しています。では、GPT は文脈学習を通じて視覚タスクを解決できるのでしょうか?

Google とカーネギーメロン大学 (CMU) の研究者による最近の論文では、画像 (またはその他の非言語的様相) を LLM が理解できる言語に翻訳できる限り、これは可能であるようだと示唆しています。

写真

論文アドレス: https://arxiv.org/abs/2306.17842

この論文では、文脈学習を通じて視覚タスクを解決する PaLM または GPT の能力を明らかにし、新しい方法 SPAE (Semantic Pyramid AutoEncoder) を提案します。この新しいアプローチにより、LLM はパラメータを更新せずに画像生成タスクを実行できるようになります。これは、コンテキスト学習を使用して LLM が画像コンテンツを生成できるようにする最初の成功したアプローチでもあります。

まず、コンテキスト学習を通じて画像コンテンツを生成する LLM の実験結果を見てみましょう。

たとえば、与えられたコンテキストでは、50 枚の手書き画像を提供することで、この論文では PaLM 2 に、出力として数字画像を生成することを必要とする複雑なクエリに答えるように求めています。

写真

また、画像コンテキスト入力を与えると、リアルな現実世界の画像を生成することもできます。

写真

PaLM 2 は画像の生成に加えて、コンテキスト学習を通じて画像の説明も実行できます。

画像関連の質問に対する視覚的な質問回答もあります。

写真

生成されたビデオのノイズを除去することもできます。

写真

方法の概要

実際、画像を LLM が理解できる言語に変換することは、Visual Transformer (ViT) 論文で研究されてきた問題です。 Google と CMU によるこの論文では、実際の単語を使用して画像を表現するという次のレベルに進んでいます。

このアプローチは、画像の意味と詳細を捉えた言葉でいっぱいの塔を建てるようなものです。このテキストが豊富な表現により、画像の説明を簡単に生成でき、LLM は画像に関する質問に答えたり、画像のピクセルを再構築したりできるようになります。

具体的には、この研究では、トレーニング済みのエンコーダーと CLIP モデルを使用して画像をトークン空間に変換し、次に LLM を使用して適切な語彙トークンを生成し、最後にトレーニング済みのデコーダーを使用してこれらのトークンをピクセル空間に戻すことを提案しています。この巧妙なプロセスにより、画像が LLM が理解できる言語に変換され、視覚タスクで LLM の生成力を活用できるようになります。

実験と結果

この研究では、SPAE を SOTA 法の Frozen および LQAE と実験的に比較し、結果を以下の表 1 に示します。 SPAEGPT は、トークンの 2% のみを使用しながら、すべてのタスクで LQAE を上回ります。

写真

全体的に、mini-ImageNet ベンチマークのテストでは、SPAE メソッドにより、以前の SOTA メソッドよりもパフォーマンスが 25% 向上することが示されています。

写真

SPAE設計法の有効性を検証するために、本研究ではアブレーション実験を行った。実験結果を表4と図10に示す。

写真

写真

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<:  中国科学院とアリババが開発したFF3Dでは、カスタムスタイルの3Dポートレートを作成するのにわずか3分しかかかりません。

>>:  ビッグモデルの時代、周志華教授の「ラーニングウェア」の考え方を分析:小さなモデルでも大きなことができる

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

スマートドライビングが誕生してから10年経った今、なぜ理想的なビジネスモデルの実現が難しいのでしょうか?

[[420239]] 2011年7月14日、紅旗HQ3は長沙から武漢までの286キロの高速道路を疾...

機械学習を使用してデータクレンジングを自動化する方法

調査会社ガートナーが最近発表した調査レポートによると、40%の企業がデータ品質の低さのためにビジネス...

スマートなモノのインターネットを導入する時が来た

[[427797]]画像ソース: https://pixabay.com/images/id-567...

スタートアップが大手企業から学び機械学習を開発する際に考慮すべき5つの変数

[[186364]]人工知能 (AI) と機械学習 (ML) をめぐる誇大宣伝は信じられないほどのレ...

ロボットはどうやってコーヒーを飲みながら心臓手術を行うのでしょうか?

「2、3年前、アメリカの医師たちが手術室の外に座り、コーヒーを片手にしているのを見ました。彼らはリ...

ディープニューラルネットワークの数学的基礎は難しすぎますか?

ディープフィードフォワードネットワーク統計学から始めると、自然に関数 f を定義し、データサンプルは...

...

中国の大学はいかにして「新世代の人工知能」をリードできるのか?

教育省は最近、「高等教育機関における人工知能イノベーションのための行動計画」を発行しました。計画によ...

医療機器製造における3つの大きなトレンド

医療製造にロボット工学と自動化を導入したダヴィンチ ロボット手術システムが発売されてから 20 年が...

マスクのロボットが進化した!新たなスキルが解き放たれ、エンドツーエンドのニューラルネットワークが実現

マスク氏のロボットの大いなる進化。 1年前に初めて舞台に立ったときは動きが少しぎこちなかったが、今で...

なぜ今、AI 画像はすべて女性なのでしょうか?人間とコンピュータの相互作用のメンタルモデルから始めましょう

興味深い質問です。Siri、Cortana、Alexa など、ほとんどの AI ロボットや音声アシス...

2020 年の機械学習スタートアップ トップ 10

[[326722]] [51CTO.com クイック翻訳] データ、テクノロジー、人材の統合により...

人間をより人間らしくし、機械に触覚を与えましょう!電子皮膚の専門家4人の最新の成果のレビュー

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

人工知能は建設ロボットを誇大広告から現実のものへと変える

ロボットが建設業界で重要な役割を果たすことは間違いありませんが、マッキンゼーのレポートによると、プロ...