この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 Google は、ゼロショット学習タスク転送を簡単に実現できる、新しい弱教師付き画像発話モデルSimVLMをリリースしました。 画像を言葉で説明することから画像に関する質問に答えることまで、モデルは微調整なしですべてを実行できます。 一般的な視覚言語事前トレーニング (VLP) モデルの場合、トレーニング データセットには多数の正確なラベルが含まれている必要があります。モデルのタスク移行では、特定のタスクのデータセットの再ラベル付けが必要です。 要約すると、データセットのラベル付けは時間がかかり、労力がかかるだけでなく、複数のタスクには適用できません。 シンプルで汎用性の高い VLP モデルを開発できるでしょうか? Google が新たに開発したこのモデルは、モデルのトレーニングに弱教師あり学習を使用しています。モデル化に弱く整合された多数の画像とテキストのペアを利用することで、VLP のトレーニング プロセスが簡素化され、トレーニングの複雑さが大幅に軽減されます。 SimVLM は、接頭辞言語モデリングという単一の目的のためにエンドツーエンドでトレーニングされ、生の画像を直接入力として受け取ります。これらの設定により、モデルは大規模な弱ラベル付きデータセットを活用できるようになり、ゼロショット学習でより優れた一般化効果が得られます。 SimVLM モデルはどのように実装されていますか?SimVLM モデルの事前トレーニング プロセスでは、プレフィックス言語モデリング (PrefixLM) という単一の目的を採用し、シーケンスのプレフィックスを入力として受け入れ、モデル デコーダーを通じてその継続を予測します。 データセット内の画像とテキストのペアの場合、画像シーケンスはテキスト記述のプレフィックスと見なすことができます。 このアプローチにより、トレーニング プロセスが簡素化され、さまざまなタスク設定に適応する際のモデルの柔軟性と汎用性が最大化されます。 モデルのバックボーン ネットワークは、言語タスクとビジョン タスクの両方で優れたパフォーマンスを発揮する Transformer アーキテクチャを使用します。 入力された生画像データからコンテキスト パッチを抽出するために、ResNet 畳み込みネットワークが使用されます。 上の図に示すように、視覚モダリティでは、画像は複数のパッチに分割され、1 次元のシーケンスに圧縮されます。テキストモーダル文は表現ベクトルにマッピングされます。 このモデルは、約 18 億のノイズを含む画像とテキストのペアの ALIGN トレーニング セットを使用して、ゼロ ショット学習の一般化能力を向上させます。 トレーニング セット内のノイズを補正するために、トレーニング モデルでは合計 800G の Colossal Clean Crawled Corpus (C4) データセットも使用しました。 SimVLM モデルの基本的なパフォーマンスは何ですか?モデルを事前トレーニングした後、そのパフォーマンスをテストするために、マルチモーダル タスクでモデルを微調整する必要があります。 ここで使用されるマルチモーダル タスクは、VQA、NLVR2、SNLI-VE、COCO Caption、NoCaps、Multi30K En-De です。 SimVLM モデルは、既存の完全機能モデルと比較されます。テスト結果は上記の表に示されています。評価に使用された SimVLM モデルには、8,600 万パラメータ、3 億 700 万パラメータ、6 億 3,200 万パラメータの 3 つの異なるサイズも含まれています。 クロスモーダルタスクのテスト結果では、SimVLM モデルが最も優れたパフォーマンスを発揮しました (データが大きいほど、パフォーマンスが向上します)。CoCo Caption の B@4 指標を除き、他のタスクでも新しい SOTA 結果を達成し、モデルの高度な性質を十分に実証しました。 SimVLMモデルのゼロショット一般化SimVLM モデルはクロスモーダルタスクテストで優れたパフォーマンスを達成できるため、ゼロサンプルのクロスモーダル転送を正常に実行できるでしょうか? 事前トレーニング済みの SimVLM モデルは、テキスト データのみで微調整されるか、まったく調整されず、画像キャプション、多言語キャプション、オープンエンド VQA、ビジュアル テキスト生成などのタスクでテストされます。 テスト結果は次の図に示されています。 画像とテキストプロンプトが与えられると、事前トレーニング済みのモデルは微調整なしで画像の内容を予測できます。 さらに、微調整されていないモデルは、ドイツ語の字幕生成、データセット外の回答生成、画像コンテンツに基づくテキストの説明、自由形式の視覚的な質問への回答などのアプリケーションで優れたパフォーマンスを発揮します。 SimVLM のゼロショット学習パフォーマンスを定量化するために、事前トレーニング済みの固定モデルを使用して COCO Caption と NoCaps をデコードし、その後、教師あり標準ベースライン (Sup.) と比較します。 結果の比較から、教師ありの微調整がなくても、SimVLM は教師ありトレーニングの品質レベルを達成できることがわかります。 著者についてこの研究の第一著者は、現在カーネギーメロン大学に在学中の Google 学生研究者 Wang Zirui 氏です。彼は、ICLR、EMNLP、CVPR などのトップカンファレンスで第一著者として多くの論文を発表しています。 2020年12月20日時点ではSuperGLUEデータセットで人間のスコアを上回る初のSOTAパフォーマンス(スコア90以上)を達成し、現在はBaiduチームに追い抜かれ2位となっている。 今回開発したSimVLMは、6つの視覚言語ベンチマークにおいてシングルモデルSOTA性能も達成し、テキスト誘導ゼロショット学習の一般化能力も実現しました。 |
>>: 放送・ホスティング業界における人工知能の限界についての簡単な分析
5G が推進し主導する、デジタル技術変革の新世代が正式に到来しました。今日、インターネットの急速な変...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
かつて、顔認識は人々が非常に信頼する技術でした。生産と生活に利便性、効率性、正確性をもたらしたため、...
ウォルマートの創業者サム・ウォルトンはよく「私たちの人材が違いを生み出す」と言っていましたが、この言...
[[441326]]リンクリストの交差LeetCode の問題へのリンク: https://leet...
[[264976]] [画像出典: Microsoft Research ブログ 所有者: Micr...
AI の責任ある使用に関する包括的な原則は、信頼、公平性、説明責任を促進することです。人工知能 (A...
国内企業におけるAI導入の現状アクセンチュアが世界各国の企業幹部を対象に実施した「中国企業はどのよう...
建設業界は現在、デジタル革新が業界の方向性をますます推進する中で、大きな変革期を迎えています。ロボッ...
この記事では、Xiaohongshu プッシュ検索シナリオの完全な GPU 構築プロセスにおけるモデ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...