ユニバーサルデータ拡張技術、ランダム量子化はあらゆるデータモダリティに適用可能

ユニバーサルデータ拡張技術、ランダム量子化はあらゆるデータモダリティに適用可能

自己教師あり学習アルゴリズムは、自然言語処理やコンピュータービジョンなどの分野で大きな進歩を遂げました。これらの自己教師学習アルゴリズムは概念的には一般的ですが、特定のデータ モダリティで動作します。つまり、異なるデータ モダリティに対して異なる自己教師学習アルゴリズムを開発する必要があるということです。この目的のために、本論文では、あらゆるデータ モダリティに適用できる一般的なデータ拡張手法を提案します。この方法は、既存の一般的な自己教師学習と比較して、大幅なパフォーマンスの向上を実現できるだけでなく、特定のモダリティ向けに設計された一連の複雑なデータ拡張方法を置き換えて、同様のパフォーマンスを実現することもできます。

  • 論文アドレス: https://arxiv.org/abs/2212.08663
  • コード: https://github.com/microsoft/random_quantize

導入

現在の Siamese 表現学習/対照学習では、データ拡張技術を使用して同じデータの異なるサンプルを構築し、それを 2 つの並列ネットワーク構造に入力して十分に強力な監視信号を生成する必要があります。ただし、これらのデータ拡張技術は、モダリティ固有の事前知識に大きく依存することが多く、通常は手動での設計や、現在のモダリティに適用可能な最適な組み合わせの検索が必要になります。時間と労力がかかるだけでなく、発見された最適なデータ拡張方法を他の分野に移転することも非常に困難です。たとえば、自然な RGB 画像に共通する色のジッタリングは、自然な画像以外のデータ モダリティには適用できません。

一般的に、入力データは、シーケンシャル次元とチャネル次元で構成される 2 次元ベクトルとして表すことができます。シーケンス次元は通常、画像における空間次元、音声における時間次元、言語における統語次元などのモダリティに関連しています。チャネル次元はモダリティに依存しません。自己教師学習では、マスクモデリング[1]やデータ拡張としてのマスクの使用[2]が効果的な学習方法となっている。ただし、これらの操作はすべてシーケンス次元に対して実行されます。さまざまなデータ モダリティに広く適用できるようにするために、この論文では、チャネル次元に作用するデータ強化方法、つまりランダム化量子化を提案します。各チャネルのデータは、非均一量子化器によって動的に量子化され、量子化された値はランダムに分割された間隔からランダムにサンプリングされます。このようにして、同じ間隔内にある元の入力の情報の差は削除され、異なる間隔内のデータの相対的なサイズは保持され、マスキング効果が実現されます。

私たちのアプローチは、自然画像、3D ポイント クラウド、音声、テキスト、センサー データ、医療画像など、さまざまなデータ モダリティにおいて、既存の任意モダリティの自己教師学習方法よりも優れたパフォーマンスを発揮します。対照学習(MoCo-v3 など)や自己蒸留自己教師学習(BYOL など)などのさまざまな事前トレーニング学習タスクでは、既存の方法よりも優れた特徴が学習されます。この方法は、CNN や Transformer などのさまざまなバックボーン ネットワーク構造にも適用できることが検証されています。

方法

量子化とは、データの効率的な保存、計算、転送を容易にするために、離散的な数値のセットを使用して連続データを表すことを指します。ただし、量子化の一般的な目的は、精度を失わずにデータを圧縮することであるため、プロセスは決定論的であり、元のデータに可能な限り近くなるように設計されています。これにより、強化手段としての強度と出力のデータの豊富さが制限されます。

本論文では、入力データの各チャネルを複数の重複しないランダムな間隔( )に分割し、各間隔に含まれる元の入力を間隔からランダムにサンプリングされた定数にマッピングするランダム化量子化操作を提案します

自己教師学習タスクでチャネル次元データをマスクする確率的量子化の能力は、1) 値間隔のランダム分割、2) 出力値のランダムサンプリング、3) 分割された値間隔の数という 3 つの側面の設計に依存します。

具体的には、ランダム プロセスにより、より豊富なサンプルが得られ、同じデータに対してランダム量子化操作を実行するたびに、異なるデータ サンプルが生成されます。同時に、ランダム処理は、大きなデータ間隔をランダムに分割するなど、元のデータに大きな強化をもたらします。また、マッピング ポイントが間隔の中央点から外れると、間隔内の元の入力と出力の差が大きくなる可能性があります。

また、分割間隔を適宜減らすことで、強調強度を上げることも非常に簡単です。このように、Siamese 表現学習に適用すると、2 つのネットワーク ブランチは十分な情報差を持つ入力データを確認できるため、特徴学習に役立つ十分に強力な学習信号を構築できます。

次の図は、このデータ強化方法を使用した後のさまざまなデータ モダリティの効果を視覚化したものです。

実験結果

モード1: 画像

この論文では、線形評価を評価指標として、MoCo-v3 と BYOL に適用されたランダム化量子化が ImageNet-1K データセットに与える影響を評価します。唯一のデータ拡張方法として使用する場合、つまり、本論文の拡張を元の画像の中央クロップに適用し、一般的なランダムサイズ変更クロップ (RRC) と組み合わせて使用​​すると、この方法は既存の一般的な自己教師学習方法よりも優れた結果を実現します。

カラージッタリング (CJ) などの画像データ用に開発された既存のデータ拡張方法と比較すると、私たちの方法は明らかなパフォーマンス上の利点があります。同時に、この方法は、カラージッタリング、ランダムグレースケール、ランダムガウスぼかし、ランダムソラリゼーションなど、MoCo-v3/BYOL の一連の複雑なデータ拡張方法 (Full) を置き換え、複雑なデータ拡張方法と同様の効果を実現することもできます。

モード 2: 3D ポイント クラウド

この論文では、ModelNet40 データセットの分類タスクと ShapeNet Part データセットのセグメンテーション タスクにおいて、ランダム化量子化が既存の自己教師あり学習よりも優れていることも検証しています。特に下流のトレーニング セット データの量が少ない場合、この論文の方法は既存のポイント クラウド自己教師ありアルゴリズムよりも大幅に優れています。

モード3: 音声

私たちの方法は、音声データセットにおいて既存の自己教師学習方法よりも優れたパフォーマンスを達成しました。この論文では、6 つの下流データセットでこの方法の優位性を検証しています。最も難しいデータセットである VoxCeleb1 (カテゴリ数が最も多く、他のデータセットの数をはるかに上回る) では、この方法により大幅なパフォーマンスの向上 (5.6 ポイント) が達成されています。

モード4: DABS

DABS は、自然画像、テキスト、音声、センサー データ、医療画像、グラフィックスなど、複数のモーダル データをカバーする、モダリティ全般の自己教師あり学習ベンチマークです。私たちの方法は、DABS がカバーするさまざまな異なるモーダル データに対して、既存の任意のモーダル自己教師学習方法よりも優れたパフォーマンスを発揮します。

興味のある読者は原著論文を読んで詳細な研究内容を知ることができます。

<<:  マスク氏、XデータをAIの訓練に利用していると認める「マイクロソフトは使えないが、自分なら使える」

>>:  AutoAgentsは、あらゆるシナリオで独自のAIエージェントチームを作成するためにここにあります

ブログ    
ブログ    

推薦する

モデルもオンライン授業を受講できますか? !サービス指向の蒸留トレーニング プログラムを 1 つの記事で理解する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

5G、自動運転、人工知能はどの段階にあるのでしょうか?一枚の写真でわかる

世界で最も権威のあるIT市場調査・コンサルティング会社であるガートナーは8月29日、新技術の2019...

AI人材の世界的な需要が急増、一部の職種では年間40万ドル近くを稼ぐ

AI業界の急速な発展に伴い、テクノロジー業界におけるAI人材の需要も高まっています。 USA Tod...

スタンフォード大学の10のグラフはAI開発の新たなトレンドを分析している

スタンフォード大学のAI 100のAI Indexプロジェクトは、人工知能の活動と進歩を追跡し、人工...

初めてmAP70%を突破! GeMap: ローカル高精度マップ SOTA が再び更新されました

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

マイクロソフトがOpenAIの理事に就任、アルトマン氏が初めてQ*に回答:残念なリーク

OpenAI の最初のシーズンは本当に終わりました。 ChatGPTがちょうど1周年を迎えようとして...

フォーブス誌の2020年AIに関するトップ10予測: 人工知能はますます「疎外」されつつある

人工知能 (AI) は間違いなく 2010 年代のテクノロジーのテーマであり、新しい 10 年が始ま...

2020 年の CIO にとっての 5 つの戦略的優先事項

ヘルスケア、小売、テクノロジー業界の IT リーダーが 2020 年の戦略的優先事項を共有します。ヒ...

超速い! ByteDanceが配列推論エンジンLightSeqをオープンソース化

これは、Transformer や GPT などの複数のモデルの高速推論を完全にサポートする業界初の...

Alipayの検索エクスペリエンスを向上させるために、Antと北京大学は階層的コントラスト学習を使用してテキストフレームワークを生成

テキスト生成タスクは通常、教師強制法を使用してトレーニングされ、これにより、モデルはトレーニング中に...

AIデザイナー「ルバン」のコア技術が明らかに:1秒間に8,000枚のポスターをデザインする方法とは?

[[228895]] AI は囲碁のゲームを変え、今度はポスターのデザインを変えています。アリババ...

パーソナライズされた推奨の CTR 推定にディープラーニングを使用する理由は何ですか?

ディープラーニングはおそらく、過去 2 年間でコンピューター コミュニティで最もホットな言葉です。エ...

...

人工知能:ニューノーマルにおける成長促進要因

SHRMのレポートによると、中小企業経営者の43%がパンデミック中に事業を生き残るための新たな方法を...