著者の半数以上が中国人です！ Google Researchの画像表現モデルALIGNがImageNetを支配

[[399343]]

ニューラルネットワークは実際には表現を学習しています。CV の分野では、優れた視覚と視覚言語表現は、コンピュータービジョンの問題 (画像検索、画像分類、ビデオ理解) を解決するために非常に重要であり、人々が日常生活で問題を解決するのに役立ちます。

たとえば、優れた視覚言語マッチングモデルは、ユーザーがテキストの説明や画像入力を通じて最も関連性の高い画像を見つけるのに役立つだけでなく、Google レンズなどのデバイスがより詳細な画像情報を見つけるのにも役立ちます。

このような表現を学習するために、現在の最先端の視覚および視覚言語モデルは、専門知識と広範なラベルを必要とするトレーニングデータセットに大きく依存しています。

視覚関連のアプリケーションシナリオでは、視覚表現は主に、ImageNet、OpenImages、JFT-300M などの明示的なクラスラベルを持つ大規模なデータセットで学習されます。

視覚言語アプリケーションの場合、Conceptual Captions や Visual Genome Dense Captions などの一般的に使用される事前トレーニングデータセットでは、大量のデータ収集とクリーニングが必要となり、データセットのサイズが制限され、トレーニングモデルのスケールが制限されます。

対照的に、GLUE および SuperGLUE ベンチマークの自然言語処理モデルは、手動ラベルを使用せずに生のテキストで大規模な事前トレーニングを行うことで、SOTA パフォーマンスを実現します。

ICML 2021 カンファレンスで、Google Research は論文「ノイズの多いテキスト監視による視覚および視覚言語表現学習のスケールアップ」を発表し、このギャップを埋めて、より大規模で最先端の視覚および視覚言語モデルをトレーニングするために、公開画像の代替テキストデータ (画像がユーザーの画面に表示されない場合に Web ページ上の画像を置き換えるテキスト) を使用することを提案しました。

この目的のために、私たちはコンセプトキャプションデータセットから高価なフィルタリングや後処理の手順を踏まずに取得した、10億を超える画像とテキストのペアのノイズの多いデータセットを活用します。実験結果によると、コーパスのサイズによってノイズの多いデータの不足を補うことができ、SotA 表現が実現され、ImageNet や VTAB などの分類タスクに転送されたときに優れたパフォーマンスを発揮することが示されています。調整された視覚表現と言語表現は、より複雑なクロスアテンションモデルと比較しても、Flickr30K および MS-COCO ベンチマークで新しい SotA 結果を設定し、複雑なテキストおよびテキスト + 画像クエリのゼロショット画像分類とクロスモーダル検索を可能にします。

画像テキストデータセット内の代替テキストは通常、画像の説明ですが、データセットにはノイズが含まれる場合があります。たとえば、一部の説明テキストは、ペアになっている画像と部分的または完全に無関係である可能性があります。

たとえば、2 番目の画像には、日付、サムネイルなど、画像とは関係のない説明が含まれています。

Google の研究作業は主に、Conceptual Captions データセットを構築して、元の英語の説明テキストデータ、つまり画像と代替テキストのペアを取得する方法に従っています。

概念キャプションデータセットは、広範囲にわたるフィルタリングと後処理によってクリーンアップされていますが、本論文の研究では、データクリーニングの手段を緩和することでデータセットを拡張しており、これは視覚と視覚言語表現の学習を拡張するアプローチです。

最終結果は、合計 18 億の画像とテキストのペアを含む、より大規模でノイズの多いデータセットです。

ALIGN: 大規模な画像とノイズの多いテキストの埋め込み

より大きなモデルの構築を容易にするために、モデルフレームワークは、画像とテキストのペアの視覚的表現と言語的表現の整列した表現を学習するためのシンプルなデュアルエンコーダー構造を採用しています。

画像エンコーダーとテキストエンコーダーは、対照学習、つまり正規化されたソフトマックスによってトレーニングされます。

このコントラスト損失により、一致する画像とテキストのペアの埋め込みが可能な限り近くなり、一致しない画像とテキストのペア (同じバッチ内) が可能な限り分離されます。

大規模なデータセットを使用すると、より多くのパラメータを使用してモデルをトレーニングできるほか、EffecientNet-L2 や BERT-large のような大規模なモデルをゼロからトレーニングすることもできます。学習された視覚表現は、下流の視覚および視覚言語タスクで使用できます。

得られた表現は、純粋な視覚または視覚言語タスクでの転移学習に使用できます。微調整なしで、ALIGN は画像からテキスト、テキストから画像へのクロスモーダル検索、さらには画像とテキストのクエリを共同検索できます。

上記の例は、ALIGN のこの機能を示しています。

検索と表現の評価

検索と表現の学習を評価する際、ALIGN モデルは、テキストおよび画像エンコーダーとして BERT-Large および EfficientNet-L2 とともに使用され、複数の画像テキスト検索タスク (Flickr30K および MS-COCO) ZeroShot タスクおよび微調整で sota のパフォーマンスを実現します。

ALIGN は強力な画像表現モデルでもあります。特徴を修正した後、ALIGN は CLIP をわずかに上回り、ImageNet で 85.5% の SotA 結果を達成しました。微調整により、ALIGN は BiT や ViT などの一般的なモデルのほとんどよりも高い精度を実現し、Meta Pseudo Labels にのみ劣りますが、後者では ImageNet トレーニングと大規模なラベルなしデータ間のより深い相互作用が必要です。

ゼロショット画像分類では、画像分類問題では各カテゴリを独立した ID として扱い、各カテゴリに対して少なくともいくつかのラベル付きデータを取得して分類階層をトレーニングする必要があります。しかし、クラス名は実際には自然言語のフレーズであるため、トレーニングデータなしで ALIGN 画像分類の画像テキスト検索機能を拡張するのは自然なことです。

ImageNet 検証データセットでは、ALIGN は 76.4% のトップ 1 ゼロショット精度を達成し、さまざまな ImageNet バリアントにわたって強力な堅牢性を示しています。これは、トレーニングにテキストキューを使用する最新の研究である CLIP と非常によく似ています。

画像検索の実際の効果を説明するために、この論文では、ALIGN によってトレーニングされた埋め込みを使用し、1 億 6000 万枚の画像のプール内でいくつかのテキストクエリのテキストから画像への検索結果のトップ 1 を表示する簡単な画像検索システムも構築しました。

ALIGN は、シーンの詳細な説明、またはランドマークやアートワークなどのきめ細かいインスタンスレベルの概念に基づいて、正確な画像を取得できます。

これらの例は、ALIGN モデルによって画像とテキストに同様のセマンティクスを持たせることができ、ALIGN が新しい複雑な概念に一般化できることを示しています。

マルチモーダル (画像 + テキスト) 画像検索クエリの単語ベクトルの驚くべき特性は、単語の類推がベクトルアルゴリズムを使用して解決できることが多いことです。よくある例は「キング-マン + ウーマン = クイーン」です。画像とテキストの埋め込み間のこの線形関係は、ALIGN にも表示されます。

具体的には、クエリ画像とテキスト文字列が与えられた場合、それらの ALIGN 埋め込みが加算され、コサイン距離を使用して関連する画像が取得されます。

これらの例は、視覚領域と言語領域にわたる ALIGN 埋め込みの構成性を示すだけでなく、マルチモーダルクエリを使用した検索の実現可能性も実証しています。たとえば、人々は「オーストラリア」や「マダガスカル」のパンダに相当するものを検索したり、黒い靴をまったく同じ見た目のベージュ色の靴に変えたりできるようになりました。さらに、埋め込み空間で減算を実行することで、シーンからオブジェクト/属性を削除することも可能です。

社会的影響の点では、この研究は単純なデータ収集アプローチによる方法論的観点からは有望な結果を示していますが、モデルを実際に責任を持って使用するには、データと結果として得られたモデルのさらなる分析が必要です。たとえば、代替テキストで有害なテキストデータを使用することで、そのような害を増大させる可能性を考慮する必要があります。公平性に関しては、ネットワークデータによる固定観念の強化を防ぐために、データのバランスをとる努力が必要になる場合があります。誤ってラベル付けされた可能性のあるデータの影響を理解し、軽減するために、宗教的または文化的に機密性の高い項目については追加のテストとトレーニングを実施する必要があります。

さらに分析を行って、人間の人口分布や、衣服、食べ物、芸術作品などの関連する文化的遺物がモデルのパフォーマンスを歪めないようにする必要があります。これらのモデルを実稼働環境で使用する場合は、分析してバランスを取る必要があります。

要約すると、Google Research は、大規模な画像とテキストデータを使用して視覚的および視覚言語的表現を学習する簡単な方法を提案しました。ALIGN モデルはクロスモーダル検索が可能で、SotA モデルよりも大幅に優れています。純粋な視覚ダウンストリームタスクでは、ALIGN は大規模なラベル付きデータでトレーニングされた SotA モデルと同等か、それを上回るパフォーマンスを発揮することもできます。

この記事の第一著者と第二著者は、Chao Jia 氏と Yinfei Yang 氏という2人の中国人で、それぞれの研究分野は CV と NLP です。ニューラルネットワークによって NLP と CV の境界がさらに曖昧になり、あらゆるものを埋め込むことができるようになったことがわかります。

<<: マインドタイピングがネイチャーの表紙に登場！ 99%以上の正確さで1分間に90文字を書く

>>: 人工知能技術の登場によるデジタル変革をどう理解すればよいのでしょうか?