Google MITの最新の研究は、高品質のデータを入手することは難しくなく、大規模なモデルが最適な方法であることを証明しています。

Google MITの最新の研究は、高品質のデータを入手することは難しくなく、大規模なモデルが最適な方法であることを証明しています。

高品質なデータの取得は、現在の大規模モデルのトレーニングにおける大きなボトルネックとなっています。

数日前、OpenAIはニューヨーク・タイムズ紙から訴えられ、数十億ドルの損害賠償を要求された。訴訟では、GPT-4 の盗作の証拠が複数列挙されている。

ニューヨークタイムズでさえ、GPT のようなほぼすべての大規模モデルを破壊するよう求めました。

長い間、多くの AI リーダーは、「合成データ」がこの問題に対する最善の解決策であると信じてきました。

以前、Google チームは、LLM を使用して人間のラベル付けの好みを置き換える RLAIF と呼ばれる手法も提案しており、その効果は人間よりもさらに優れています。

現在、Google と MIT の研究者は、大規模なモデルから学習することで、実際のデータを使用してトレーニングされた最良のモデルの表現が得られる可能性があることを発見しました。

SynCLR と呼ばれる最新のアプローチは、実際のデータを必要とせずに、合成画像と合成記述から完全に仮想表現を学習する方法です。

論文アドレス: https://arxiv.org/abs/2312.17742

実験結果によると、SynCLR メソッドによって学習された表現は、OpenAI の CLIP と同様に ImageNet に転送できることがわかりました。

生成モデルからの学習

視覚表現を学習するための現在の最先端の方法は、大規模な現実世界のデータセットに依存しています。しかし、実際のデータの収集には多くの困難が伴います。

データ収集のコストを削減するために、この論文の研究者たちは次のような質問をしました。

既成の生成モデルからサンプリングされた合成データは、最先端の視覚表現をトレーニングするための大規模なキュレーションされたデータセットへの実行可能な道筋となるでしょうか?

Google の研究者は、データから直接学習するのではなく、このアプローチを「モデルからの学習」と呼んでいます。大規模なトレーニング セットを構築するためのデータ ソースとして、このモデルにはいくつかの利点があります。

- 潜在変数、条件変数、ハイパーパラメータを通じてデータ管理のための新しい制御方法を提供します。

- モデルは共有や保存も簡単です (モデルはデータよりも圧縮しやすいため)。また、無制限の数のデータ サンプルを生成できます。

下流モデルをトレーニングするためのデータ ソースとして生成モデルのこれらの利点と欠点、およびその他の利点と欠点を調査する文献が増えています。

これらの方法の中には、ハイブリッド モデル、つまり実際のデータセットと合成データセットを混合したものや、別の合成データセットを生成するために実際のデータセットを必要とするものがあります。

他のアプローチは、純粋に「合成データ」から表現を学習しようとしますが、最高のパフォーマンスを発揮するモデルには大きく遅れをとっています。

論文では、研究者らは生成モデルを使用して視覚化クラスの粒度を再定義する新しいアプローチを提案した。

図 2 に示すように、「サングラスとビーチハットをかぶって自転車に乗っているゴールデン レトリバー」と「寿司でできた家に座っているかわいいゴールデン レトリバー」という 2 つのプロンプトを使用して、4 つの画像が生成されました。

Sim-CLR などの従来の自己教師あり手法では、これらの画像を異なるクラスとして扱い、画像間の共有セマンティクスを明示的に考慮せずに、異なる画像の埋め込みが分離されます。

一方、教師あり学習アプローチ(SupCE)では、これらすべての画像を単一のクラス(「ゴールデン レトリバー」など)に属するものとして扱います。これは、一方のペアでは犬が自転車に乗っているのに対し、もう一方のペアでは犬が寿司屋に座っているなど、画像の意味の微妙な違いを無視しています。

対照的に、SynCLR アプローチでは、説明をクラスとして扱います。つまり、説明ごとに 1 つの視覚化クラスです。

このようにして、「自転車に乗る」と「寿司レストランに座る」という概念ごとに画像をグループ化することができます。

特定の説明を持つ複数の画像を収集することは、特に説明の数が増えると簡単ではないため、実際のデータでこの粒度をマイニングすることは困難です。

ただし、テキストから画像への拡散モデルは基本的にこの機能を備えています。

同じ説明を条件として異なるノイズ入力を使用するだけで、テキストから画像への拡散モデルは同じ説明に一致する異なる画像を生成できます。

具体的には、著者らは、実際の画像やテキストデータがない場合の視覚エンコーダの学習の問題を研究しています。

最新の方法は、言語生成モデル (g1)、テキストから画像への生成モデル (g2)、および視覚概念のキュレーションされたリスト (c) という 3 つの主要なリソースの利用に依存しています。

前処理には次の 3 つのステップが含まれます。

(1)(g1)を使用して、Cのさまざまな視覚概念をカバーする包括的な画像記述Tのセットを合成する。

(2)T内の各キャプションに対して、(g2)を用いて複数の画像を生成し、最終的に広範な合成画像データセットXを生成する。

(3)Xを訓練して視覚表現エンコーダfを得る。

次に、推論速度が速いため、それぞれ(g1)と(g2)としてllama-27bとStable Diffusion 1.5が使用されます。

合成の説明

強力なテキストから画像への変換モデルの力を活用して、トレーニング画像の大規模なデータセットを生成するには、まず、画像を正確に説明するだけでなく、幅広い視覚的概念を網羅する多様性も示す記述のコレクションが必要です。

これに応えて、著者らは、大規模モデルのコンテキスト学習機能を活用して、このような大規模な記述セットを作成するためのスケーラブルな方法を開発しました。

以下に、合成テンプレートの例を 3 つ示します。

以下は、Llama-2 を使用して生成されたコンテキストの説明です。研究者は、推論の実行ごとに 3 つのコンテキスト例をランダムに選択しました。

合成画像

研究者らは、それぞれのテキスト記述に対して、さまざまなランダムノイズによる逆拡散プロセスを開始し、さまざまな画像を生成しました。

このプロセスでは、分類器フリーガイダンス (CFG) 比率が重要な要素となります。

CFG スケールが高くなるほど、サンプルの品質とテキストと画像間の一貫性が向上し、スケールが低くなるほど、サンプルの多様性が高まり、指定されたテキストに基づく画像の元の条件付き分布との一貫性が高まります。

表現学習

この論文では、表現学習法はStableRepに基づいています。

著者らのアプローチの重要な要素は、同じ記述から生成された画像を(埋め込み空間内で)整列させることによって機能する、多重正対照学習損失である。

さらに、この研究では他の自己教師学習法のさまざまな手法も組み合わせました。

OpenAIのCLIPに匹敵

実験評価では、研究者らはまずアブレーション研究を実施してパイプライン内のさまざまな設計とモジュールの有効性を評価し、その後合成データの量を拡大し続けました。

下の図は、さまざまな記述合成戦略の比較です。

研究者らは、9 つ​​の細粒度データセットにおける ImageNet の線形評価精度と平均精度を報告しています。ここの各アイテムには、1,000 万の説明と、説明ごとに 4 枚の画像が含まれています。

次の表は、ImageNet の線形評価と細粒度分類を比較したものです。

合成データのみを使用しているにもかかわらず、SynCLR は OpenAI の CLIP および DINO v2 モデルに匹敵する結果を達成しました。

以下の表は、同じ合成データで SynCLR と CLIP を比較したものです。SynCLR が CLIP よりも大幅に優れていることがわかります。

具体的には、キャプションごとに 4 つの画像が生成され、SynCaps-150M は SynCLR と CLIP のより優れた表現を提供します。

PCA の視覚化を以下に示します。 DINO v2 に従って、研究者は同じ画像セットのパッチ間の PCA を計算し、最初の 3 つのコンポーネントに従って色付けしました。

DINO v2 と比較すると、SynCLR の車や飛行機の描画はより正確ですが、エネルギーの描画は若干劣ります。

図 6 と 7 は、それぞれ異なるトレーニング スケールでの ImageNet 線形精度と、異なるトレーニング パラメータ スケールでの詳細分類を示しています。

なぜ生成モデルから学ぶのでしょうか?

説得力のある理由の 1 つは、生成モデルが数百のデータセットを同時に処理できるため、トレーニング データをキュレートする便利で効率的な方法を提供できることです。

要約すると、最新の論文では、視覚表現を学習するための新しいパラダイム、つまり生成モデルからの学習を研究しています。

SynCLR は、実際のデータを一切使用せずに、最先端の一般的な視覚表現学習器によって学習されたものに匹敵する視覚表現を学習します。

<<: 

>>: 

ブログ    
ブログ    

推薦する

ChatGPT が突然大きなバグを発見しました!フル機能のGPT-4は無料で使用でき、ネットユーザーは大喜びしている

11月15日、OpenAIは突然、ChatGPT Plusの新規ユーザー登録を停止すると発表しました...

初の高校向けAI基礎教科書が出版:唐暁氏が編集、重点中学校40校が導入

教育は幼少期から始めるべきであり、AIは高校から学ぶことができます。 4月28日、SenseTime...

南京科技大学とオックスフォード大学は、1行のコードでゼロショット学習法の効果を大幅に向上させるプラグアンドプレイ分類モジュールを提案した。

ゼロショット学習は、トレーニングプロセス中に出現しなかったカテゴリの分類に重点を置いています。意味記...

Java 配列から HashMap へのアルゴリズムの説明

1. 配列とは何ですか?どの本にこのような文章があったか忘れましたが、「すべてのデータ構造は配列の進...

現在、人工知能技術はどのような分野に応用されていますか?

まず、人工知能プラットフォームの実装により、人工知能技術は多くの業界や分野、特にインターネットと密接...

トラフィックを30%削減し、鮮明度を向上: MITが新しいAIビデオキャッシュアルゴリズムを提案

オンラインビデオの読み込み速度と鮮明さに対する人々の要求は常に尽きることがありません。最近、マサチュ...

中国AIGC広告・マーケティング業界パノラマレポート:5つの大きな変化と4つの大きな影響、生成AIにより「1人」のための広告作成が可能に

インターネット トラフィックの配当が薄れるにつれ、広告およびマーケティング業界は既存の市場シェアをめ...

AIが都市の交通管理を改善する方法

交通分野における人工知能 (AI) の応用は、車両とインフラのより効果的で的を絞った使用に向けたイノ...

...

...

テクノロジー市場: エッジデバイスで利用可能なエッジAIソリューション

エッジコンピューティングと人工知能の組み合わせにより、エッジ AI は現在のテクノロジー市場における...

IBMは今後5年間で全人類に大きな影響を与える5つの主要な技術革新を発表

海外メディアの報道によると、IBMは3月19日に「Five-for-Five」レポートを発表し、世界...

2024年には、AI PCが目を見張るほど登場するでしょう。企業や消費者はどのように選択すべきでしょうか?

先日開催されたCES 2024カンファレンスでは、AI PC(人工知能コンピュータ)のコンセプトや製...

自動運転は自動車産業の未来だが、これはドライバーが手を完全に自由にできることを意味するものではない。

自動運転車は未来を象徴しているが、運転手が全てを完全に機械に任せることはできないかもしれない。おそら...

最大の効率: AIがソースコードを読み取って教えてくれる

みなさんこんにちは、カソンです。テクノロジー系のブログをよく読む友人なら、 Webpilot [1]...