Googleが最新のゼロショット学習画像発話モデルをリリース、ユーザーは複数の種類のタスクを直接使用できるようになる

[[430758]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

Google は、ゼロショット学習タスク転送を簡単に実現できる、新しい弱教師付き画像発話モデルSimVLMをリリースしました。

画像を言葉で説明することから画像に関する質問に答えることまで、モデルは微調整なしですべてを実行できます。

一般的な視覚言語事前トレーニング (VLP) モデルの場合、トレーニングデータセットには多数の正確なラベルが含まれている必要があります。モデルのタスク移行では、特定のタスクのデータセットの再ラベル付けが必要です。

要約すると、データセットのラベル付けは時間がかかり、労力がかかるだけでなく、複数のタスクには適用できません。

シンプルで汎用性の高い VLP モデルを開発できるでしょうか?

Google が新たに開発したこのモデルは、モデルのトレーニングに弱教師あり学習を使用しています。モデル化に弱く整合された多数の画像とテキストのペアを利用することで、VLP のトレーニングプロセスが簡素化され、トレーニングの複雑さが大幅に軽減されます。

SimVLM は、接頭辞言語モデリングという単一の目的のためにエンドツーエンドでトレーニングされ、生の画像を直接入力として受け取ります。これらの設定により、モデルは大規模な弱ラベル付きデータセットを活用できるようになり、ゼロショット学習でより優れた一般化効果が得られます。

SimVLM モデルはどのように実装されていますか?

SimVLM モデルの事前トレーニングプロセスでは、プレフィックス言語モデリング (PrefixLM) という単一の目的を採用し、シーケンスのプレフィックスを入力として受け入れ、モデルデコーダーを通じてその継続を予測します。

データセット内の画像とテキストのペアの場合、画像シーケンスはテキスト記述のプレフィックスと見なすことができます。

このアプローチにより、トレーニングプロセスが簡素化され、さまざまなタスク設定に適応する際のモデルの柔軟性と汎用性が最大化されます。

モデルのバックボーンネットワークは、言語タスクとビジョンタスクの両方で優れたパフォーマンスを発揮する Transformer アーキテクチャを使用します。

入力された生画像データからコンテキストパッチを抽出するために、ResNet 畳み込みネットワークが使用されます。

上の図に示すように、視覚モダリティでは、画像は複数のパッチに分割され、1 次元のシーケンスに圧縮されます。テキストモーダル文は表現ベクトルにマッピングされます。

このモデルは、約 18 億のノイズを含む画像とテキストのペアの ALIGN トレーニングセットを使用して、ゼロショット学習の一般化能力を向上させます。

トレーニングセット内のノイズを補正するために、トレーニングモデルでは合計 800G の Colossal Clean Crawled Corpus (C4) データセットも使用しました。

SimVLM モデルの基本的なパフォーマンスは何ですか?

モデルを事前トレーニングした後、そのパフォーマンスをテストするために、マルチモーダルタスクでモデルを微調整する必要があります。

ここで使用されるマルチモーダルタスクは、VQA、NLVR2、SNLI-VE、COCO Caption、NoCaps、Multi30K En-De です。

SimVLM モデルは、既存の完全機能モデルと比較されます。テスト結果は上記の表に示されています。評価に使用された SimVLM モデルには、8,600 万パラメータ、3 億 700 万パラメータ、6 億 3,200 万パラメータの 3 つの異なるサイズも含まれています。

クロスモーダルタスクのテスト結果では、SimVLM モデルが最も優れたパフォーマンスを発揮しました (データが大きいほど、パフォーマンスが向上します)。CoCo Caption の B@4 指標を除き、他のタスクでも新しい SOTA 結果を達成し、モデルの高度な性質を十分に実証しました。

SimVLMモデルのゼロショット一般化

SimVLM モデルはクロスモーダルタスクテストで優れたパフォーマンスを達成できるため、ゼロサンプルのクロスモーダル転送を正常に実行できるでしょうか?

事前トレーニング済みの SimVLM モデルは、テキストデータのみで微調整されるか、まったく調整されず、画像キャプション、多言語キャプション、オープンエンド VQA、ビジュアルテキスト生成などのタスクでテストされます。

テスト結果は次の図に示されています。

画像とテキストプロンプトが与えられると、事前トレーニング済みのモデルは微調整なしで画像の内容を予測できます。

さらに、微調整されていないモデルは、ドイツ語の字幕生成、データセット外の回答生成、画像コンテンツに基づくテキストの説明、自由形式の視覚的な質問への回答などのアプリケーションで優れたパフォーマンスを発揮します。

SimVLM のゼロショット学習パフォーマンスを定量化するために、事前トレーニング済みの固定モデルを使用して COCO Caption と NoCaps をデコードし、その後、教師あり標準ベースライン (Sup.) と比較します。

結果の比較から、教師ありの微調整がなくても、SimVLM は教師ありトレーニングの品質レベルを達成できることがわかります。

著者について

この研究の第一著者は、現在カーネギーメロン大学に在学中の Google 学生研究者 Wang Zirui 氏です。彼は、ICLR、EMNLP、CVPR などのトップカンファレンスで第一著者として多くの論文を発表しています。

2020年12月20日時点ではSuperGLUEデータセットで人間のスコアを上回る初のSOTAパフォーマンス（スコア90以上）を達成し、現在はBaiduチームに追い抜かれ2位となっている。

今回開発したSimVLMは、6つの視覚言語ベンチマークにおいてシングルモデルSOTA性能も達成し、テキスト誘導ゼロショット学習の一般化能力も実現しました。

<<: 人工知能を背景とした公共読書空間の探究と創造

>>: 放送・ホスティング業界における人工知能の限界についての簡単な分析

ブログ

Googleが最新のゼロショット学習画像発話モデルをリリース、ユーザーは複数の種類のタスクを直接使用できるようになる

SimVLM モデルはどのように実装されていますか?

SimVLM モデルの基本的なパフォーマンスは何ですか?

SimVLMモデルのゼロショット一般化

著者について

サービスロボットは大きな将来性があり、すぐに何千もの家庭に導入されるだろう

2023年の人工知能に関する6つの予測

完全武装したこの「アイアンマン」は、走ったり、人命を救ったり、さらには飛行可能な初のヒューマノイドロボットになるかもしれません。

Facebook、MITなどが研究論文を発表：ディープラーニングの実際の仕組みを説明する理論

Googleが最新のゼロショット学習画像発話モデルをリリース、ユーザーは複数の種類のタスクを直接使用できるようになる

大型模型シリーズ - RAGの解釈

中国航空工業集団の「ドラゴンネスト」の初飛行は、電力検査のインテリジェント時代の幕開けを告げる

推薦する

海外AI界が騒然！ Googleの黒人女性AI倫理研究者が「退職」し騒動を引き起こす

地図メーカーの次の戦い：AI戦争

人工知能が高齢者の日常生活に影響を与えないようにする

プロジェクト Digging 21 - 軽量 LLM エージェントの構築方法

ゲイツ氏は人工知能に楽観的だが、グーグルが自動運転車に大きく賭けている理由が理解できない

IBM と KPMG が従業員をどのようにトレーニングしているかの秘密を明らかにします。トレーニングに AI を使用するのは良い考えでしょうか?

テンセントゲームズが顔認識の範囲を拡大。未成年者のデータをどう保護するのか？

清華大学のJiTuアップデート：微分可能レンダリングをサポートし、マルチタスク速度はPyTorchを上回る

見逃せない 7 つのディープニューラルネットワーク可視化ツール

人工知能と機械学習における13の共通概念

ディープラーニングは自動運転車にとって何を意味するのでしょうか?

機械学習はインビザラインの患者が完璧な笑顔を手に入れるのを助けている

2018 年の最もクールな機械学習と人工知能のスタートアップ 10 社