ユニバーサルデータ拡張技術、ランダム量子化はあらゆるデータモダリティに適用可能

自己教師あり学習アルゴリズムは、自然言語処理やコンピュータービジョンなどの分野で大きな進歩を遂げました。これらの自己教師学習アルゴリズムは概念的には一般的ですが、特定のデータモダリティで動作します。つまり、異なるデータモダリティに対して異なる自己教師学習アルゴリズムを開発する必要があるということです。この目的のために、本論文では、あらゆるデータモダリティに適用できる一般的なデータ拡張手法を提案します。この方法は、既存の一般的な自己教師学習と比較して、大幅なパフォーマンスの向上を実現できるだけでなく、特定のモダリティ向けに設計された一連の複雑なデータ拡張方法を置き換えて、同様のパフォーマンスを実現することもできます。

論文アドレス: https://arxiv.org/abs/2212.08663
コード: https://github.com/microsoft/random_quantize

導入

現在の Siamese 表現学習/対照学習では、データ拡張技術を使用して同じデータの異なるサンプルを構築し、それを 2 つの並列ネットワーク構造に入力して十分に強力な監視信号を生成する必要があります。ただし、これらのデータ拡張技術は、モダリティ固有の事前知識に大きく依存することが多く、通常は手動での設計や、現在のモダリティに適用可能な最適な組み合わせの検索が必要になります。時間と労力がかかるだけでなく、発見された最適なデータ拡張方法を他の分野に移転することも非常に困難です。たとえば、自然な RGB 画像に共通する色のジッタリングは、自然な画像以外のデータモダリティには適用できません。

一般的に、入力データは、シーケンシャル次元とチャネル次元で構成される 2 次元ベクトルとして表すことができます。シーケンス次元は通常、画像における空間次元、音声における時間次元、言語における統語次元などのモダリティに関連しています。チャネル次元はモダリティに依存しません。自己教師学習では、マスクモデリング[1]やデータ拡張としてのマスクの使用[2]が効果的な学習方法となっている。ただし、これらの操作はすべてシーケンス次元に対して実行されます。さまざまなデータモダリティに広く適用できるようにするために、この論文では、チャネル次元に作用するデータ強化方法、つまりランダム化量子化を提案します。各チャネルのデータは、非均一量子化器によって動的に量子化され、量子化された値はランダムに分割された間隔からランダムにサンプリングされます。このようにして、同じ間隔内にある元の入力の情報の差は削除され、異なる間隔内のデータの相対的なサイズは保持され、マスキング効果が実現されます。

私たちのアプローチは、自然画像、3D ポイントクラウド、音声、テキスト、センサーデータ、医療画像など、さまざまなデータモダリティにおいて、既存の任意モダリティの自己教師学習方法よりも優れたパフォーマンスを発揮します。対照学習（MoCo-v3 など）や自己蒸留自己教師学習（BYOL など）などのさまざまな事前トレーニング学習タスクでは、既存の方法よりも優れた特徴が学習されます。この方法は、CNN や Transformer などのさまざまなバックボーンネットワーク構造にも適用できることが検証されています。

方法

量子化とは、データの効率的な保存、計算、転送を容易にするために、離散的な数値のセットを使用して連続データを表すことを指します。ただし、量子化の一般的な目的は、精度を失わずにデータを圧縮することであるため、プロセスは決定論的であり、元のデータに可能な限り近くなるように設計されています。これにより、強化手段としての強度と出力のデータの豊富さが制限されます。

本論文では、入力データの各チャネルを複数の重複しないランダムな間隔（）に分割し、各間隔に含まれる元の入力を間隔からランダムにサンプリングされた定数にマッピングするランダム化量子化操作を提案します。

自己教師学習タスクでチャネル次元データをマスクする確率的量子化の能力は、1) 値間隔のランダム分割、2) 出力値のランダムサンプリング、3) 分割された値間隔の数という 3 つの側面の設計に依存します。

具体的には、ランダムプロセスにより、より豊富なサンプルが得られ、同じデータに対してランダム量子化操作を実行するたびに、異なるデータサンプルが生成されます。同時に、ランダム処理は、大きなデータ間隔をランダムに分割するなど、元のデータに大きな強化をもたらします。また、マッピングポイントが間隔の中央点から外れると、間隔内の元の入力と出力の差が大きくなる可能性があります。

また、分割間隔を適宜減らすことで、強調強度を上げることも非常に簡単です。このように、Siamese 表現学習に適用すると、2 つのネットワークブランチは十分な情報差を持つ入力データを確認できるため、特徴学習に役立つ十分に強力な学習信号を構築できます。

次の図は、このデータ強化方法を使用した後のさまざまなデータモダリティの効果を視覚化したものです。

実験結果

モード1: 画像

この論文では、線形評価を評価指標として、MoCo-v3 と BYOL に適用されたランダム化量子化が ImageNet-1K データセットに与える影響を評価します。唯一のデータ拡張方法として使用する場合、つまり、本論文の拡張を元の画像の中央クロップに適用し、一般的なランダムサイズ変更クロップ (RRC) と組み合わせて使用すると、この方法は既存の一般的な自己教師学習方法よりも優れた結果を実現します。

カラージッタリング (CJ) などの画像データ用に開発された既存のデータ拡張方法と比較すると、私たちの方法は明らかなパフォーマンス上の利点があります。同時に、この方法は、カラージッタリング、ランダムグレースケール、ランダムガウスぼかし、ランダムソラリゼーションなど、MoCo-v3/BYOL の一連の複雑なデータ拡張方法 (Full) を置き換え、複雑なデータ拡張方法と同様の効果を実現することもできます。

モード 2: 3D ポイントクラウド

この論文では、ModelNet40 データセットの分類タスクと ShapeNet Part データセットのセグメンテーションタスクにおいて、ランダム化量子化が既存の自己教師あり学習よりも優れていることも検証しています。特に下流のトレーニングセットデータの量が少ない場合、この論文の方法は既存のポイントクラウド自己教師ありアルゴリズムよりも大幅に優れています。

モード3: 音声

私たちの方法は、音声データセットにおいて既存の自己教師学習方法よりも優れたパフォーマンスを達成しました。この論文では、6 つの下流データセットでこの方法の優位性を検証しています。最も難しいデータセットである VoxCeleb1 (カテゴリ数が最も多く、他のデータセットの数をはるかに上回る) では、この方法により大幅なパフォーマンスの向上 (5.6 ポイント) が達成されています。

モード4: DABS

DABS は、自然画像、テキスト、音声、センサーデータ、医療画像、グラフィックスなど、複数のモーダルデータをカバーする、モダリティ全般の自己教師あり学習ベンチマークです。私たちの方法は、DABS がカバーするさまざまな異なるモーダルデータに対して、既存の任意のモーダル自己教師学習方法よりも優れたパフォーマンスを発揮します。

興味のある読者は原著論文を読んで詳細な研究内容を知ることができます。

<<: マスク氏、XデータをAIの訓練に利用していると認める「マイクロソフトは使えないが、自分なら使える」

>>: AutoAgentsは、あらゆるシナリオで独自のAIエージェントチームを作成するためにここにあります