Google MITの最新の研究は、高品質のデータを入手することは難しくなく、大規模なモデルが最適な方法であることを証明しています。

Google MITの最新の研究は、高品質のデータを入手することは難しくなく、大規模なモデルが最適な方法であることを証明しています。

高品質なデータの取得は、現在の大規模モデルのトレーニングにおける大きなボトルネックとなっています。

数日前、OpenAIはニューヨーク・タイムズ紙から訴えられ、数十億ドルの損害賠償を要求された。訴訟では、GPT-4 の盗作の証拠が複数列挙されている。

ニューヨークタイムズでさえ、GPT のようなほぼすべての大規模モデルを破壊するよう求めました。

長い間、多くの AI リーダーは、「合成データ」がこの問題に対する最善の解決策であると信じてきました。

以前、Google チームは、LLM を使用して人間のラベル付けの好みを置き換える RLAIF と呼ばれる手法も提案しており、その効果は人間よりもさらに優れています。

現在、Google と MIT の研究者は、大規模なモデルから学習することで、実際のデータを使用してトレーニングされた最良のモデルの表現が得られる可能性があることを発見しました。

SynCLR と呼ばれる最新のアプローチは、実際のデータを必要とせずに、合成画像と合成記述から完全に仮想表現を学習する方法です。

論文アドレス: https://arxiv.org/abs/2312.17742

実験結果によると、SynCLR メソッドによって学習された表現は、OpenAI の CLIP と同様に ImageNet に転送できることがわかりました。

生成モデルからの学習

視覚表現を学習するための現在の最先端の方法は、大規模な現実世界のデータセットに依存しています。しかし、実際のデータの収集には多くの困難が伴います。

データ収集のコストを削減するために、この論文の研究者たちは次のような質問をしました。

既成の生成モデルからサンプリングされた合成データは、最先端の視覚表現をトレーニングするための大規模なキュレーションされたデータセットへの実行可能な道筋となるでしょうか?

Google の研究者は、データから直接学習するのではなく、このアプローチを「モデルからの学習」と呼んでいます。大規模なトレーニング セットを構築するためのデータ ソースとして、このモデルにはいくつかの利点があります。

- 潜在変数、条件変数、ハイパーパラメータを通じてデータ管理のための新しい制御方法を提供します。

- モデルは共有や保存も簡単です (モデルはデータよりも圧縮しやすいため)。また、無制限の数のデータ サンプルを生成できます。

下流モデルをトレーニングするためのデータ ソースとして生成モデルのこれらの利点と欠点、およびその他の利点と欠点を調査する文献が増えています。

これらの方法の中には、ハイブリッド モデル、つまり実際のデータセットと合成データセットを混合したものや、別の合成データセットを生成するために実際のデータセットを必要とするものがあります。

他のアプローチは、純粋に「合成データ」から表現を学習しようとしますが、最高のパフォーマンスを発揮するモデルには大きく遅れをとっています。

論文では、研究者らは生成モデルを使用して視覚化クラスの粒度を再定義する新しいアプローチを提案した。

図 2 に示すように、「サングラスとビーチハットをかぶって自転車に乗っているゴールデン レトリバー」と「寿司でできた家に座っているかわいいゴールデン レトリバー」という 2 つのプロンプトを使用して、4 つの画像が生成されました。

Sim-CLR などの従来の自己教師あり手法では、これらの画像を異なるクラスとして扱い、画像間の共有セマンティクスを明示的に考慮せずに、異なる画像の埋め込みが分離されます。

一方、教師あり学習アプローチ(SupCE)では、これらすべての画像を単一のクラス(「ゴールデン レトリバー」など)に属するものとして扱います。これは、一方のペアでは犬が自転車に乗っているのに対し、もう一方のペアでは犬が寿司屋に座っているなど、画像の意味の微妙な違いを無視しています。

対照的に、SynCLR アプローチでは、説明をクラスとして扱います。つまり、説明ごとに 1 つの視覚化クラスです。

このようにして、「自転車に乗る」と「寿司レストランに座る」という概念ごとに画像をグループ化することができます。

特定の説明を持つ複数の画像を収集することは、特に説明の数が増えると簡単ではないため、実際のデータでこの粒度をマイニングすることは困難です。

ただし、テキストから画像への拡散モデルは基本的にこの機能を備えています。

同じ説明を条件として異なるノイズ入力を使用するだけで、テキストから画像への拡散モデルは同じ説明に一致する異なる画像を生成できます。

具体的には、著者らは、実際の画像やテキストデータがない場合の視覚エンコーダの学習の問題を研究しています。

最新の方法は、言語生成モデル (g1)、テキストから画像への生成モデル (g2)、および視覚概念のキュレーションされたリスト (c) という 3 つの主要なリソースの利用に依存しています。

前処理には次の 3 つのステップが含まれます。

(1)(g1)を使用して、Cのさまざまな視覚概念をカバーする包括的な画像記述Tのセットを合成する。

(2)T内の各キャプションに対して、(g2)を用いて複数の画像を生成し、最終的に広範な合成画像データセットXを生成する。

(3)Xを訓練して視覚表現エンコーダfを得る。

次に、推論速度が速いため、それぞれ(g1)と(g2)としてllama-27bとStable Diffusion 1.5が使用されます。

合成の説明

強力なテキストから画像への変換モデルの力を活用して、トレーニング画像の大規模なデータセットを生成するには、まず、画像を正確に説明するだけでなく、幅広い視覚的概念を網羅する多様性も示す記述のコレクションが必要です。

これに応えて、著者らは、大規模モデルのコンテキスト学習機能を活用して、このような大規模な記述セットを作成するためのスケーラブルな方法を開発しました。

以下に、合成テンプレートの例を 3 つ示します。

以下は、Llama-2 を使用して生成されたコンテキストの説明です。研究者は、推論の実行ごとに 3 つのコンテキスト例をランダムに選択しました。

合成画像

研究者らは、それぞれのテキスト記述に対して、さまざまなランダムノイズによる逆拡散プロセスを開始し、さまざまな画像を生成しました。

このプロセスでは、分類器フリーガイダンス (CFG) 比率が重要な要素となります。

CFG スケールが高くなるほど、サンプルの品質とテキストと画像間の一貫性が向上し、スケールが低くなるほど、サンプルの多様性が高まり、指定されたテキストに基づく画像の元の条件付き分布との一貫性が高まります。

表現学習

この論文では、表現学習法はStableRepに基づいています。

著者らのアプローチの重要な要素は、同じ記述から生成された画像を(埋め込み空間内で)整列させることによって機能する、多重正対照学習損失である。

さらに、この研究では他の自己教師学習法のさまざまな手法も組み合わせました。

OpenAIのCLIPに匹敵

実験評価では、研究者らはまずアブレーション研究を実施してパイプライン内のさまざまな設計とモジュールの有効性を評価し、その後合成データの量を拡大し続けました。

下の図は、さまざまな記述合成戦略の比較です。

研究者らは、9 つ​​の細粒度データセットにおける ImageNet の線形評価精度と平均精度を報告しています。ここの各アイテムには、1,000 万の説明と、説明ごとに 4 枚の画像が含まれています。

次の表は、ImageNet の線形評価と細粒度分類を比較したものです。

合成データのみを使用しているにもかかわらず、SynCLR は OpenAI の CLIP および DINO v2 モデルに匹敵する結果を達成しました。

以下の表は、同じ合成データで SynCLR と CLIP を比較したものです。SynCLR が CLIP よりも大幅に優れていることがわかります。

具体的には、キャプションごとに 4 つの画像が生成され、SynCaps-150M は SynCLR と CLIP のより優れた表現を提供します。

PCA の視覚化を以下に示します。 DINO v2 に従って、研究者は同じ画像セットのパッチ間の PCA を計算し、最初の 3 つのコンポーネントに従って色付けしました。

DINO v2 と比較すると、SynCLR の車や飛行機の描画はより正確ですが、エネルギーの描画は若干劣ります。

図 6 と 7 は、それぞれ異なるトレーニング スケールでの ImageNet 線形精度と、異なるトレーニング パラメータ スケールでの詳細分類を示しています。

なぜ生成モデルから学ぶのでしょうか?

説得力のある理由の 1 つは、生成モデルが数百のデータセットを同時に処理できるため、トレーニング データをキュレートする便利で効率的な方法を提供できることです。

要約すると、最新の論文では、視覚表現を学習するための新しいパラダイム、つまり生成モデルからの学習を研究しています。

SynCLR は、実際のデータを一切使用せずに、最先端の一般的な視覚表現学習器によって学習されたものに匹敵する視覚表現を学習します。

<<: 

>>: 

ブログ    

推薦する

顔認識における克服すべき困難

顔認識は、生体認証の分野、さらには人工知能の分野においても最も難しい研究テーマの 1 つと考えられて...

画像を外国語として扱うKuaishouと北京大学のマルチモーダル大規模モデルはDALLE-3に匹敵する

GPT や LLaMA などの現在の大規模言語モデルは、自然言語処理の分野で大きな進歩を遂げており、...

IDCは、年平均成長率31.4%で、世界のAIソフトウェアの収益は2027年に2,790億ドルに達すると予測している。

11月2日、市場調査会社IDCが発表した最新の予測レポートによると、世界のAIソフトウェア市場規模...

データサイエンス技術の未来

[[361283]]画像ソース: https://pixabay.com/images/id-477...

北京で人工知能アイスクリームマシンがデビュー、IBMは「AI + ブロックチェーン」でダイヤモンドを識別

1. 人工知能搭載のアイスクリームセルフサービス機が北京でデビューDairyXmas AI人工知能ア...

ベイジアンネットワークを使用して病院の患者数を予測する

翻訳者|朱 仙中レビュー | Chonglou複雑さを乗り越える: 医療における患者数の予測医療にお...

2021年1月から2月までの中国人工知能の月次情報まとめ

[[389793]]国内人工知能産業への投資と資金調達の調査不完全な統計によると、過去2か月間に66...

中科世宇の王金橋氏:5Gは新しい警察アプリケーションを強化し、交通管理の「細かく科学的な」管理を改善します

最近、「つながりとインテリジェンス、より安全な世界の構築」をテーマにした2021年世界セキュリティ博...

...

再帰アルゴリズム: 不可解なスイッチ「ライトを引く」

[[411620]]タイトル出典:AcWing[1]。トピック「Pull the Light」とい...

5分でトップ10の機械学習アルゴリズムを学ぶ

[[317656]]機械学習は業界にとって革新的で重要な分野です。機械学習プログラムに選択するアルゴ...

Raspberry Pi の「リス対策アーティファクト」が Reddit で人気に。13 行のコードで AI があなたの代わりに食べ物を守れる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能が試験重視教育の華容道を阻む

01 はじめに人工知能のビッグデータトレーニングと試験重視の教育における質疑応答トレーニングは、トレ...