著者の半数以上が中国人です! Google Researchの画像表現モデルALIGNがImageNetを支配

著者の半数以上が中国人です! Google Researchの画像表現モデルALIGNがImageNetを支配

  [[399343]]

ニューラル ネットワークは実際には表現を学習しています。CV の分野では、優れた視覚と視覚言語表現は、コンピューター ビジョンの問題 (画像検索、画像分類、ビデオ理解) を解決するために非常に重要であり、人々が日常生活で問題を解決するのに役立ちます。

たとえば、優れた視覚言語マッチング モデルは、ユーザーがテキストの説明や画像入力を通じて最も関連性の高い画像を見つけるのに役立つだけでなく、Google レンズなどのデバイスがより詳細な画像情報を見つけるのにも役立ちます。

このような表現を学習するために、現在の最先端の視覚および視覚言語モデルは、専門知識と広範なラベルを必要とするトレーニング データセットに大きく依存しています。

視覚関連のアプリケーション シナリオでは、視覚表現は主に、ImageNet、OpenImages、JFT-300M などの明示的なクラス ラベルを持つ大規模なデータセットで学習されます。

視覚言語アプリケーションの場合、Conceptual Captions や Visual Genome Dense Captions などの一般的に使用される事前トレーニング データセットでは、大量のデータ収集とクリーニングが必要となり、データセットのサイズが制限され、トレーニング モデルのスケールが制限されます。

対照的に、GLUE および SuperGLUE ベンチマークの自然言語処理モデルは、手動ラベルを使用せずに生のテキストで大規模な事前トレーニングを行うことで、SOTA パフォーマンスを実現します。

ICML 2021 カンファレンスで、Google Research は論文「ノイズの多いテキスト監視による視覚および視覚言語表現学習のスケールアップ」を発表し、このギャップを埋めて、より大規模で最先端の視覚および視覚言語モデルをトレーニングするために、公開画像の代替テキスト データ (画像がユーザーの画面に表示されない場合に Web ページ上の画像を置き換えるテキスト) を使用することを提案しました。

この目的のために、私たちはコンセプトキャプションデータセットから高価なフィルタリングや後処理の手順を踏まずに取得した、10億を超える画像とテキストのペアのノイズの多いデータセットを活用します。実験結果によると、コーパスのサイズによってノイズの多いデータの不足を補うことができ、SotA 表現が実現され、ImageNet や VTAB などの分類タスクに転送されたときに優れたパフォーマンスを発揮することが示されています。調整された視覚表現と言語表現は、より複雑なクロスアテンションモデルと比較しても、Flickr30K および MS-COCO ベンチマークで新しい SotA 結果を設定し、複雑なテキストおよびテキスト + 画像クエリのゼロショット画像分類とクロスモーダル検索を可能にします。

画像テキスト データセット内の代替テキストは通常​​、画像の説明ですが、データセットにはノイズが含まれる場合があります。たとえば、一部の説明テキストは、ペアになっている画像と部分的または完全に無関係である可能性があります。

たとえば、2 番目の画像には、日付、サムネイルなど、画像とは関係のない説明が含まれています。

Google の研究作業は主に、Conceptual Captions データセットを構築して、元の英語の説明テキスト データ、つまり画像と代替テキストのペアを取得する方法に従っています。

概念キャプションデータセットは、広範囲にわたるフィルタリングと後処理によってクリーンアップされていますが、本論文の研究では、データクリーニングの手段を緩和することでデータセットを拡張しており、これは視覚と視覚言語表現の学習を拡張するアプローチです。

最終結果は、合計 18 億の画像とテキストのペアを含む、より大規模でノイズの多いデータセットです。

ALIGN: 大規模な画像とノイズの多いテキストの埋め込み

より大きなモデルの構築を容易にするために、モデル フレームワークは、画像とテキストのペアの視覚的表現と言語的表現の整列した表現を学習するためのシンプルなデュアル エンコーダー構造を採用しています。

画像エンコーダーとテキストエンコーダーは、対照学習、つまり正規化されたソフトマックスによってトレーニングされます。

このコントラスト損失により、一致する画像とテキストのペアの埋め込みが可能な限り近くなり、一致しない画像とテキストのペア (同じバッチ内) が可能な限り分離されます。

大規模なデータセットを使用すると、より多くのパラメータを使用してモデルをトレーニングできるほか、EffecientNet-L2 や BERT-large のような大規模なモデルをゼロからトレーニングすることもできます。学習された視覚表現は、下流の視覚および視覚言語タスクで使用できます。

得られた表現は、純粋な視覚または視覚言語タスクでの転移学習に使用できます。微調整なしで、ALIGN は画像からテキスト、テキストから画像へのクロスモーダル検索、さらには画像とテキストのクエリを共同検索できます。

上記の例は、ALIGN のこの機能を示しています。

検索と表現の評価

検索と表現の学習を評価する際、ALIGN モデルは、テキストおよび画像エンコーダーとして BERT-Large および EfficientNet-L2 とともに使用され、複数の画像テキスト検索タスク (Flickr30K および MS-COCO) ZeroShot タスクおよび微調整で sota のパフォーマンスを実現します。

ALIGN は強力な画像表現モデルでもあります。特徴を修正した後、ALIGN は CLIP をわずかに上回り、ImageNet で 85.5% の SotA 結果を達成しました。微調整により、ALIGN は BiT や ViT などの一般的なモデルのほとんどよりも高い精度を実現し、Meta Pseudo Labels にのみ劣りますが、後者では ImageNet トレーニングと大規模なラベルなしデータ間のより深い相互作用が必要です。

ゼロショット画像分類では、画像分類問題では各カテゴリを独立した ID として扱い、各カテゴリに対して少なくともいくつかのラベル付きデータを取得して分類階層をトレーニングする必要があります。しかし、クラス名は実際には自然言語のフレーズであるため、トレーニング データなしで ALIGN 画像分類の画像テキスト検索機能を拡張するのは自然なことです。

ImageNet 検証データセットでは、ALIGN は 76.4% のトップ 1 ゼロショット精度を達成し、さまざまな ImageNet バリアントにわたって強力な堅牢性を示しています。これは、トレーニングにテキスト キューを使用する最新の研究である CLIP と非常によく似ています。

画像検索の実際の効果を説明するために、この論文では、ALIGN によってトレーニングされた埋め込みを使用し、1 億 6000 万枚の画像のプール内でいくつかのテキスト クエリのテキストから画像への検索結果のトップ 1 を表示する簡単な画像検索システムも構築しました。

ALIGN は、シーンの詳細な説明、またはランドマークやアートワークなどのきめ細かいインスタンス レベルの概念に基づいて、正確な画像を取得できます。

これらの例は、ALIGN モデルによって画像とテキストに同様のセマンティクスを持たせることができ、ALIGN が新しい複雑な概念に一般化できることを示しています。

マルチモーダル (画像 + テキスト) 画像検索クエリの単語ベクトルの驚くべき特性は、単語の類推がベクトル アルゴリズムを使用して解決できることが多いことです。よくある例は「キング-マン + ウーマン = クイーン」です。画像とテキストの埋め込み間のこの線形関係は、ALIGN にも表示されます。

具体的には、クエリ画像とテキスト文字列が与えられた場合、それらの ALIGN 埋め込みが加算され、コサイン距離を使用して関連する画像が取得されます。

これらの例は、視覚領域と言語領域にわたる ALIGN 埋め込みの構成性を示すだけでなく、マルチモーダル クエリを使用した検索の実現可能性も実証しています。たとえば、人々は「オーストラリア」や「マダガスカル」のパンダに相当するものを検索したり、黒い靴をまったく同じ見た目のベージュ色の靴に変えたりできるようになりました。さらに、埋め込み空間で減算を実行することで、シーンからオブジェクト/属性を削除することも可能です。

社会的影響の点では、この研究は単純なデータ収集アプローチによる方法論的観点からは有望な結果を示していますが、モデルを実際に責任を持って使用するには、データと結果として得られたモデルのさらなる分析が必要です。たとえば、代替テキストで有害なテキストデータを使用することで、そのような害を増大させる可能性を考慮する必要があります。公平性に関しては、ネットワーク データによる固定観念の強化を防ぐために、データのバランスをとる努力が必要になる場合があります。誤ってラベル付けされた可能性のあるデータの影響を理解し、軽減するために、宗教的または文化的に機密性の高い項目については追加のテストとトレーニングを実施する必要があります。

さらに分析を行って、人間の人口分布や、衣服、食べ物、芸術作品などの関連する文化的遺物がモデルのパフォーマンスを歪めないようにする必要があります。これらのモデルを実稼働環境で使用する場合は、分析してバランスを取る必要があります。

要約すると、Google Research は、大規模な画像とテキスト データを使用して視覚的および視覚言語的表現を学習する簡単な方法を提案しました。ALIGN モデルはクロスモーダル検索が可能で、SotA モデルよりも大幅に優れています。純粋な視覚ダウンストリームタスクでは、ALIGN は大規模なラベル付きデータでトレーニングされた SotA モデルと同等か、それを上回るパフォーマンスを発揮することもできます。

この記事の第一著者と第二著者は、Chao Jia 氏と Yinfei Yang 氏という2人の中国人で、それぞれの研究分野は CV と NLP です。ニューラル ネットワークによって NLP と CV の境界がさらに曖昧になり、あらゆるものを埋め込むことができるようになったことがわかります。

<<:  マインドタイピングがネイチャーの表紙に登場! 99%以上の正確さで1分間に90文字を書く

>>:  人工知能技術の登場によるデジタル変革をどう理解すればよいのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

DALL·Eの超進化により、写真の品質と芸術性が大幅に向上し、写真をシームレスに修正することもできるようになりました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

わずか60行のコードでディープニューラルネットワークを実装する

01データセットの準備使用されるデータセットは、30 次元の特徴と 569 個のサンプルを含む、sk...

人工知能がウェブホスティング業界に優位性をもたらす

近年、ウェブホスティング業界は劇的に変化しました。そして、業界を永遠に変える可能性のあるいくつかのト...

...

ダンジョンズ&ドラゴンズ: ビッグモデルへの道 テキストゲーム

著者 | 崔昊レビュー | Chonglouまとめこの記事の著者は、海外のブロガーに触発され、大規模...

自動運転:最も安全ではないが、より安全

「九章」量子コンピューティングのプロトタイプ、「天極」脳型チップ、国内最大直径のシールドマシン「景華...

...

ビッグデータ、人工知能、そして法曹界の未来

私は人工知能と法曹界の将来について数多くの講演を行ってきました。過去2年間、AlphaGo Zero...

困難な選択のターミネーター: さまざまな問題に対する機械学習アルゴリズム

データサイエンスを学び始めた頃、特定の問題に対してどのアルゴリズムを選択すればよいのかという疑問によ...

人工知能時代の機械の未来

この記事では、人間が持っているが機械がまだ獲得していないいくつかの必要な能力を列挙し、現在の開発動向...

ジェフ・ディーンらの新しい研究:言語モデルを別の視点から見る:規模が十分でなければ発見されない

近年、言語モデルは自然言語処理 (NLP) に革命的な影響を与えています。パラメータなどの言語モデル...

2019年、小売業界はこれら10のテクノロジーによって革命を起こすでしょう。

[[252097]] 2013年から2018年にかけて、AI + 小売業の新興企業は374件の取引...

小鵬汽車と徳賽SV自動車有限公司がレベル3自動運転システムの開発で協力

最近、小鵬汽車とDesay SVは戦略的協力協定を締結し、レベル3自動運転システムの開発で協力すると...

認知グラフは人工知能の次の大きなトレンド

AIの次のチャンスはどこにあるのでしょうか? AIの概念が初めて提唱されたのは1956年なので、60...

冬季オリンピックの AI: 氷と雪の世界における 5 つの「テクノロジーの花」

2022年2月4日、第24回冬季オリンピックが北京で正式に開幕しました。 2008年の「一つの夢」...