Google MITの最新の研究は、高品質のデータを入手することは難しくなく、大規模なモデルが最適な方法であることを証明しています。

高品質なデータの取得は、現在の大規模モデルのトレーニングにおける大きなボトルネックとなっています。

数日前、OpenAIはニューヨーク・タイムズ紙から訴えられ、数十億ドルの損害賠償を要求された。訴訟では、GPT-4 の盗作の証拠が複数列挙されている。

ニューヨークタイムズでさえ、GPT のようなほぼすべての大規模モデルを破壊するよう求めました。

長い間、多くの AI リーダーは、「合成データ」がこの問題に対する最善の解決策であると信じてきました。

以前、Google チームは、LLM を使用して人間のラベル付けの好みを置き換える RLAIF と呼ばれる手法も提案しており、その効果は人間よりもさらに優れています。

現在、Google と MIT の研究者は、大規模なモデルから学習することで、実際のデータを使用してトレーニングされた最良のモデルの表現が得られる可能性があることを発見しました。

SynCLR と呼ばれる最新のアプローチは、実際のデータを必要とせずに、合成画像と合成記述から完全に仮想表現を学習する方法です。

論文アドレス: https://arxiv.org/abs/2312.17742

実験結果によると、SynCLR メソッドによって学習された表現は、OpenAI の CLIP と同様に ImageNet に転送できることがわかりました。

生成モデルからの学習

視覚表現を学習するための現在の最先端の方法は、大規模な現実世界のデータセットに依存しています。しかし、実際のデータの収集には多くの困難が伴います。

データ収集のコストを削減するために、この論文の研究者たちは次のような質問をしました。

既成の生成モデルからサンプリングされた合成データは、最先端の視覚表現をトレーニングするための大規模なキュレーションされたデータセットへの実行可能な道筋となるでしょうか?

Google の研究者は、データから直接学習するのではなく、このアプローチを「モデルからの学習」と呼んでいます。大規模なトレーニングセットを構築するためのデータソースとして、このモデルにはいくつかの利点があります。

- 潜在変数、条件変数、ハイパーパラメータを通じてデータ管理のための新しい制御方法を提供します。

- モデルは共有や保存も簡単です (モデルはデータよりも圧縮しやすいため)。また、無制限の数のデータサンプルを生成できます。

下流モデルをトレーニングするためのデータソースとして生成モデルのこれらの利点と欠点、およびその他の利点と欠点を調査する文献が増えています。

これらの方法の中には、ハイブリッドモデル、つまり実際のデータセットと合成データセットを混合したものや、別の合成データセットを生成するために実際のデータセットを必要とするものがあります。

他のアプローチは、純粋に「合成データ」から表現を学習しようとしますが、最高のパフォーマンスを発揮するモデルには大きく遅れをとっています。

論文では、研究者らは生成モデルを使用して視覚化クラスの粒度を再定義する新しいアプローチを提案した。

図 2 に示すように、「サングラスとビーチハットをかぶって自転車に乗っているゴールデンレトリバー」と「寿司でできた家に座っているかわいいゴールデンレトリバー」という 2 つのプロンプトを使用して、4 つの画像が生成されました。

Sim-CLR などの従来の自己教師あり手法では、これらの画像を異なるクラスとして扱い、画像間の共有セマンティクスを明示的に考慮せずに、異なる画像の埋め込みが分離されます。

一方、教師あり学習アプローチ（SupCE）では、これらすべての画像を単一のクラス（「ゴールデンレトリバー」など）に属するものとして扱います。これは、一方のペアでは犬が自転車に乗っているのに対し、もう一方のペアでは犬が寿司屋に座っているなど、画像の意味の微妙な違いを無視しています。

対照的に、SynCLR アプローチでは、説明をクラスとして扱います。つまり、説明ごとに 1 つの視覚化クラスです。

このようにして、「自転車に乗る」と「寿司レストランに座る」という概念ごとに画像をグループ化することができます。

特定の説明を持つ複数の画像を収集することは、特に説明の数が増えると簡単ではないため、実際のデータでこの粒度をマイニングすることは困難です。

ただし、テキストから画像への拡散モデルは基本的にこの機能を備えています。

同じ説明を条件として異なるノイズ入力を使用するだけで、テキストから画像への拡散モデルは同じ説明に一致する異なる画像を生成できます。

具体的には、著者らは、実際の画像やテキストデータがない場合の視覚エンコーダの学習の問題を研究しています。

最新の方法は、言語生成モデル (g1)、テキストから画像への生成モデル (g2)、および視覚概念のキュレーションされたリスト (c) という 3 つの主要なリソースの利用に依存しています。

前処理には次の 3 つのステップが含まれます。

（１）（g1）を使用して、Cのさまざまな視覚概念をカバーする包括的な画像記述Tのセットを合成する。

（２）T内の各キャプションに対して、（g2）を用いて複数の画像を生成し、最終的に広範な合成画像データセットXを生成する。

（３）Xを訓練して視覚表現エンコーダfを得る。

次に、推論速度が速いため、それぞれ(g1)と(g2)としてllama-27bとStable Diffusion 1.5が使用されます。

合成の説明

強力なテキストから画像への変換モデルの力を活用して、トレーニング画像の大規模なデータセットを生成するには、まず、画像を正確に説明するだけでなく、幅広い視覚的概念を網羅する多様性も示す記述のコレクションが必要です。

これに応えて、著者らは、大規模モデルのコンテキスト学習機能を活用して、このような大規模な記述セットを作成するためのスケーラブルな方法を開発しました。

以下に、合成テンプレートの例を 3 つ示します。

以下は、Llama-2 を使用して生成されたコンテキストの説明です。研究者は、推論の実行ごとに 3 つのコンテキスト例をランダムに選択しました。

合成画像

研究者らは、それぞれのテキスト記述に対して、さまざまなランダムノイズによる逆拡散プロセスを開始し、さまざまな画像を生成しました。

このプロセスでは、分類器フリーガイダンス (CFG) 比率が重要な要素となります。

CFG スケールが高くなるほど、サンプルの品質とテキストと画像間の一貫性が向上し、スケールが低くなるほど、サンプルの多様性が高まり、指定されたテキストに基づく画像の元の条件付き分布との一貫性が高まります。

表現学習

この論文では、表現学習法はStableRepに基づいています。

著者らのアプローチの重要な要素は、同じ記述から生成された画像を（埋め込み空間内で）整列させることによって機能する、多重正対照学習損失である。

さらに、この研究では他の自己教師学習法のさまざまな手法も組み合わせました。

OpenAIのCLIPに匹敵

実験評価では、研究者らはまずアブレーション研究を実施してパイプライン内のさまざまな設計とモジュールの有効性を評価し、その後合成データの量を拡大し続けました。

下の図は、さまざまな記述合成戦略の比較です。

研究者らは、9 つの細粒度データセットにおける ImageNet の線形評価精度と平均精度を報告しています。ここの各アイテムには、1,000 万の説明と、説明ごとに 4 枚の画像が含まれています。

次の表は、ImageNet の線形評価と細粒度分類を比較したものです。

合成データのみを使用しているにもかかわらず、SynCLR は OpenAI の CLIP および DINO v2 モデルに匹敵する結果を達成しました。

以下の表は、同じ合成データで SynCLR と CLIP を比較したものです。SynCLR が CLIP よりも大幅に優れていることがわかります。

具体的には、キャプションごとに 4 つの画像が生成され、SynCaps-150M は SynCLR と CLIP のより優れた表現を提供します。

PCA の視覚化を以下に示します。 DINO v2 に従って、研究者は同じ画像セットのパッチ間の PCA を計算し、最初の 3 つのコンポーネントに従って色付けしました。

DINO v2 と比較すると、SynCLR の車や飛行機の描画はより正確ですが、エネルギーの描画は若干劣ります。

図 6 と 7 は、それぞれ異なるトレーニングスケールでの ImageNet 線形精度と、異なるトレーニングパラメータスケールでの詳細分類を示しています。

なぜ生成モデルから学ぶのでしょうか?

説得力のある理由の 1 つは、生成モデルが数百のデータセットを同時に処理できるため、トレーニングデータをキュレートする便利で効率的な方法を提供できることです。

要約すると、最新の論文では、視覚表現を学習するための新しいパラダイム、つまり生成モデルからの学習を研究しています。

SynCLR は、実際のデータを一切使用せずに、最先端の一般的な視覚表現学習器によって学習されたものに匹敵する視覚表現を学習します。

<<:

>>:

ブログ

AutoAI: ModelOps と DevOps を同期してデジタル変革を推進

ブログ

アメリカがスーパーコンピューティングで世界トップの座を奪還！人類はエクサスケールのスーパーコンピューティングを実現、フロンティアが世界トップ500リストのトップに

ブログ

Google MITの最新の研究は、高品質のデータを入手することは難しくなく、大規模なモデルが最適な方法であることを証明しています。

生成モデルからの学習

OpenAIのCLIPに匹敵

AutoAI: ModelOps と DevOps を同期してデジタル変革を推進

CMU がオープンソースの AI コード生成モデルを作成、C 言語は Codex を上回る

本当に良いものです！機械学習技術と市場の最強評価ガイド

マシンビジョンは人工知能の次のフロンティアとなる

PyTorch 公式チュートリアルの大きなアップデート: ラベルインデックスを追加し、初心者にとってより使いやすくなりました

アメリカがスーパーコンピューティングで世界トップの座を奪還！人類はエクサスケールのスーパーコンピューティングを実現、フロンティアが世界トップ500リストのトップに

推薦する

同レベルの7Bモデルを上回る！中国のチームが大規模で高品質な画像とテキストのデータセットShareGPT4Vをオープンソース化し、マルチモーダルのパフォーマンスを大幅に向上させた。

スポットロボット犬が古代ポンペイの警備員として活躍！墓泥棒を防ぐだけでなく、宙返りや3Dモデリングもできる

若者がAI倫理について語り始めるとき

屋台経済は活況を呈している！ロボットも問題を抱えている

Giskard: AI モデル向けのオープンソース品質管理

IBMとNASAが炭素排出量追跡のためのオープンソースAIモデルを発表

人工知能は業界の生態系を変え、銀行支店を減らし、スマートカードを活用する

OpenAI と Mistral AI によって人気を博した MoE の背景にあるストーリーとは?ハイブリッドアーキテクチャの導入に関する包括的なガイド

RFID と AI が出会うとき: 「敵」か「味方」か?

HDビデオは本物ではなく、数枚の写真でレンダリングされた3Dシーンでは本物かどうか判断が難しい。