1. はじめにこの論文では、新しい MAGIC (iMAge-guided text Generation with CLIP) フレームワークを提案します。このフレームワークは、画像モダリティからの情報を活用して、事前トレーニング済みの言語モデルをガイドし、画像キャプションの作成や視覚に基づいたストーリーの生成など、一連のクロスモーダル生成タスクを完了することができます。他の方法とは異なり、MAGIC フレームワークはマルチモーダルトレーニングデータを必要としません。既存の言語モデル (GPT-2 など) と画像テキストマッチングモデル (CLIP など) を活用して、ゼロショット方式で高品質のマルチモーダル生成タスクを完了できます。さらに、勾配更新を使用してモデル キャッシュを生成する従来の方法とは異なり、MAGIC フレームワークでは勾配更新が必要ないため、推論効率が向上します。
2. 研究の背景と目的ますます強力になる事前トレーニング済み言語モデルの助けを借りて、テキスト接頭辞に基づいて流暢なテキストを生成できるようになりました。現在、ほとんどの研究の主な研究方向は、テキスト モダリティの接頭辞を使用して後続のテキストを生成する方法に焦点を当てています。しかし、他のモダリティ(画像など)からの情報を効果的に活用して、事前トレーニング済みの言語モデルをガイドし、高品質のテキストを生成する方法は、解決すべき困難な問題のままです。現在、この種の問題に対する最も一般的な解決策は、高品質のマルチモーダル並列データの収集に基づいて、特定のクロスモーダルタスクを完了するようにマルチモーダルモデルをトレーニングすることです。たとえば、画像とテキストのマッチングに関するラベル付きデータセットで教師あり学習を通じて画像キャプション モデルをトレーニングし、入力画像に基づいて対応するテキストの説明を生成することができます。 ただし、この方法にはラベル付きデータを取得するのが難しいという欠点があり、すべてのアプリケーション シナリオに適しているわけではありません。この問題を解決するために、多くの研究者が一連の弱教師あり手法を提案してきました。ただし、これらの方法には、さまざまなマルチモーダル タスクの特定の制限の影響を受けるという欠点もあります。たとえば、画像キャプション作成タスクでは、弱教師あり手法では、画像内の識別可能なオブジェクトのラベル情報を収集するために、特定のオブジェクト検出器を使用する必要があります。ただし、画像にターゲット検出器が認識できない領域外のオブジェクトが含まれている場合、弱い監視方法の有効性は大幅に低下します。 オブジェクト検出器への依存を取り除き、ゼロショットのクロスモーダルテキスト生成を真に実現するために、ZeroCap[1]は、推論フェーズ中に勾配更新を通じて生成された言語モデル内の隠れ状態を修正し、生成されたテキストの説明と画像の内容が可能な限り近くなるようにすることを提案しました。ただし、この方法にも欠点があります。複数の反復勾配更新を通じてモデルの内部の隠れ状態を調整します。現在の事前トレーニング済み言語モデルのパラメータ数が増えるにつれて、その動作効率はますます低下し、実際のシナリオでのこの方法の適用は著しく制限されます。 この論文では、新しい MAGIC フレームワークを提案します。 MAGIC は、制御可能な画像とテキストのマッチング モデル スコアを直接挿入し、デコード プロセス中に言語モデルが画像情報に近い生成結果を選択できるようにします。このようにして、言語モデルはクロスモーダルトレーニングなしでクロスモーダル生成タスクを高品質で解決し、弱く監視されたモデルよりも大幅に優れたテキスト生成品質を得ることができます。同時に、ZeroCap と比較すると、MAGIC の推論速度も約 27 倍向上しています。 3. 研究方法3.1 教師なし言語モデリング特定のクロスモーダルタスクのテキスト領域に適応するために、本研究では、クロスモーダルトレーニングデータセット内のテキストデータを事前に使用し、言語モデルのパラメータを教師なし方式で更新しました(1台のNVIDIA 1080Tiで実行するのに2時間未満しかかかりませんでした)。これにより、言語モデルはこの分野のテキスト分布にさらに慣れるようになりました。具体的には、この論文では MLE 損失関数を使用して言語モデルのパラメータをトレーニングします。 さらに、SimCTG[2]の最新の研究では、対照損失を導入してモデルの意味空間を調整することで、より高品質の言語モデルが得られることが実証されました。したがって、この論文では、次のコントラスト損失も最適化します。 マージン パラメーターは、生成モデルの表現空間を調整するために使用され、トークン表現間のコサイン類似度を計算するために使用されます。最後に、この論文では 2 つの損失関数を組み合わせて、テキスト モードで GPT-2 言語モデルを最適化します。 3.2 マジック検索この論文では、MAGIC Search デコード アルゴリズムを提案します。 MAGIC は視覚情報を使用して、事前トレーニング済みの言語モデルの生成プロセスをガイドします。具体的には、テキストプレフィックスと画像が与えられた場合、ステップ t のトークン選択式は次のようになります。
ここで、 は CLIP の画像エンコーダーによって生成された画像表現であり、 は CLIP のテキスト エンコーダーによって生成されたテキスト表現です。パラメータは視覚情報の制御強度を調整するために使用されます。値が 0 の場合、言語モデルの生成プロセスは視覚情報の影響を受けなくなり、マジック検索は従来の対照検索に退化します。 4. 実験的結論4.1 ゼロショット画像キャプション4.1.1 実験のセットアップこの論文では、MS-COCO および Flickr30k データセットに対して多数の実験を実施し、比較のために次の教師なしベースラインを選択しました。 1. Top-kサンプリング:画像情報に基づかず、言語モデルを使用してTop-kデコード方式でキャプションを生成する 2. 核サンプリング:画像情報ではなく、核デコード法を用いて言語モデルを用いてキャプションを生成する 3. 対照検索: 画像情報に基づかず、対照検索デコード方式を使用して言語モデルを使用してキャプションを生成する 4. CLIPRe: CLIPモデルを使用してMS-COCOまたはFlickr30kトレーニングデータからテキストデータを取得する 5.ZeroCap: デコード中にCLIP情報を使用して言語モデルの勾配更新をガイドする手法 注目すべきは、トップ k サンプリング、核サンプリング、および対照検索デコード手法は、画像情報に基づいていないため、クロスモーダルタスクにおけるテキスト生成モデルのパフォーマンスの下限と見なすことができるという点です。さらに、本論文では比較のためにいくつかの教師あり学習法と弱教師あり学習法も選択しています。 評価方法として、本論文では画像キャプションにおける古典的な評価指標であるBLEU-1、BLEU-4、METEOR、ROUGE-L、CIDEr、SPICEを採用し、異なるモデルの相対的なデコード率もテストします。 4.1.2 MS-COCOとFlickr30kでの実験結果 上図に示すように、この論文では、キャプションの情報を無視して言語モデルのみを生成に使用した場合、効果は良くないことがわかりました(Top-k、Nucleus、Contrastive)。これは、対応する画像情報がなければ、言語モデルのみに頼ってこのクロスモーダルタスクを完了することが難しいことを示しています。 CLIPRe メソッドは Top-k などのプレーンテキスト デコード メソッドよりもはるかに優れていますが、トレーニング セットとテスト セットのデータの違いにより、現在の SOTA の教師なしメソッドである ZeroCap よりもまだ弱いです。これは、このタスクでは検索モデルが生成モデルよりも弱いことも証明しています。 この論文における MAGIC の生成結果は ZeroCap の生成結果よりも大幅に優れており、MAGIC フレームワークの有効性を実証しています。また、MAGIC は勾配更新にまったく依存しないため、デコード速度は ZeroCap よりも約 27 倍高速です。 4.1.3. クロスドメイン実験結果さらに、本論文では、MAGIC の一般化能力をさらにテストするために、クロスドメイン実験を実施しています。具体的には、本論文では、ソースドメイン(MS-COCOなど)で得られた教師なし言語モデルを使用し、ターゲットドメイン(Flickr30kなど)のテストセットで実験を行います。この実験では、教師なしデコード手法と CLIPRe を比較します。 CLIPRe の検索データセットは、ソースドメインのトレーニング セットのみから取得されます。実験結果は次のとおりです。 表の結果から、MAGIC はプレーンテキストのデコード方法や CLIPRe の強力なベースラインよりもはるかに優れていることがわかります。 4.1.4. ケーススタディこの研究では、いくつかの例を通じてベースラインとこの方法を定性的に比較します。 これらの例は、MAGIC が非常に流暢なテキストを生成できるだけでなく、生成されたテキスト内の情報が画像モダリティとより密接に関連していることを示しています。例えば、図(a)では、MAGICは正確に「建物」を生成できますが、ZeroCapは無関係な「スクールバス」を生成します。また、図(d)では、ZeroCapは関連単語「boatboard」を生成しましたが、文章の流暢性が低く、文法的な誤りがあります。対照的に、MAGIC によって生成されたテキストは滑らかで、画像に表示される内容と一致しています。 4.2 ビジョンベースのストーリー生成この研究では、画像キャプション作成タスクに加えて、視覚に基づいたストーリー生成など、他の視覚ベースのテキスト生成タスクにも MAGIC フレームワークを拡張しました。このタスクでは、画像とストーリーのタイトルが与えられた場合、モデルのタスクは、画像の内容とストーリーのタイトルと一致する流暢で興味深いストーリーを生成することです。 4.2.1 実験のセットアップ本論文では、ROCStoriesデータセットで実験を行い、本研究のベースラインとして以下のテキストデコード手法を選択しました:(1)貪欲検索、(2)ビーム検索、(3)Top-Kサンプリング、(4)核サンプリング、(5)典型サンプリング、(6)対照検索。 ROCStories データセット内の各テスト例に画像情報を提供するために、この論文では CLIP モデルを使用して、公開されている ConceptCaption データセットからストーリーのタイトルに最も関連性の高い画像を取得します。 モデルの効果を効果的に評価するために、本稿では以下の評価指標を採用しています。 1. 自動評価指標: この論文では、これまでのテキスト生成研究から一連の評価指標を採用しています。 a. グラム繰り返し率 (rep-n) b. 生成されたテキストの多様性 (div.) c. 意味的一貫性 (coh.): 生成されたストーリーとタイトルが意味的に一貫しているかどうか d. 画像とテキストのマッチング関連性 (CLIPScore) e. MAUVE スコア 2. 手動評価指標: 生成されたストーリーの品質をより正確に反映するために、5 人のプロの注釈者が、生成されたストーリーの品質を次の観点から採点しました (1 ~ 5 点、1 点が最低、5 点が最高)。a. 関連性: 生成されたストーリーはタイトルに関連していますか? b. 流暢性: 生成されたストーリーは流暢で理解しやすいですか? c. 情報コンテンツ: 生成されたストーリーは多様で興味深いですか? d. ストーリーと画像の関連性: 生成されたストーリーは、タイトルを通じて取得された画像と意味的に一貫していますか? 4.2.2 実験結果上の図に示すように、MAGIC はほとんどの指標で最高の結果を達成し、他の方法よりも大幅に優れています。 rep-n、多様性、MAUVE の最良の結果は、MAGIC によって生成されたストーリーが人間のテキストに近いことを示しています。さらに、MAGIC は一貫性と画像とテキストの一致の一貫性スコアにおいて他の方法を大幅に上回っており、MAGIC は画像とテキストのタイトルの情報を総合的に活用した後、タイトル情報と関連性の高いストーリー コンテンツを生成できることを示しています。手動評価の結果からも、MAGIC によって生成されたストーリーがあらゆる面で最高の結果を達成していることが示されています。 4.2.3 ケーススタディ上図に示すように、MAGIC は画像に関連する情報を効果的に生成できます。最初の例では、MAGIC によって生成されたストーリーに、アイスクリームの種類とフレーバーに関する詳細な情報が含まれています。オレンジの結果がわずかに異なることを除けば、他のテキストは画像の説明と完全に一致しています。 2 番目の例では、対照検索によって、ストーリーのタイトルとの関連性が低い結果が生成されます。対照的に、MAGIC によって生成されたコンテンツは、画像内の情報やテーマと非常に関連性が高く、たとえば、(1) 友達とビーチにいる、(2) ビーチバレーをしている、(3) ゲームは 2 時間続いた、(4) 友達がゲームに勝った、などです。 |
>>: 今年のGoogle I/Oカンファレンスは超「ハード」で、次世代のAIモデルも披露された
2021年全国二会議において、中国人民政治協商会議全国委員会委員でPCIテクノロジー会長の劉偉氏は...
人工知能はかつてはSFの世界のものと考えられていましたが、今ではどこにでもあります。私たちが行う、ま...
観光業界では徐々に人工知能を導入し、観光客にパーソナライズされた体験を提供しています。人工知能の助け...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
グーグルは8月14日、飛行機による気候への影響を大幅に軽減できる人工知能の分野で大きな進歩を遂げたと...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
中小企業、大企業を問わず、コールドコールは製品の売上とビジネスを拡大するための最も効果的な戦略の 1...
IEEEは、米国、英国、中国、インド、ブラジルの最高情報責任者(CIO)と最高技術責任者(CTO)を...
生成型 AI の破壊的な脅威から抜け出す方法を模索している IT リーダーは、LexisNexis ...
脳コンピューターインターフェースの時代では、毎日新しいものが生まれます。今日、私が皆さんに紹介したい...