ビッグデータ時代のデータセット蒸留:大規模データセットでの最初の成功

ビッグデータ時代のデータセット蒸留:大規模データセットでの最初の成功

11月30日、世界初の人工知能大学であるモハメド・ビン・ザイド人工知能大学(MBZUAI)は、arXivプレプリントプラットフォームで「大規模データ時代のデータセット蒸留」と題する論文を公開した。

データ蒸留のアプリケーションと現在の課題

データセット蒸留は、コンピューター ビジョンや自然言語処理のさまざまな分野で広く注目を集めています。

データセット蒸留の目的は、大規模なデータセットから小さいながらも代表的なサブセットを生成し、モデルを効率的にトレーニングしながら、元のテスト データの分布を評価して良好なパフォーマンスを実現することです。

データセットの蒸留という概念は、データとモデルのサイズが拡大し続けるビッグデータの時代にはさらに重要になります。データセットは多くの場合非常に大きく、保存、計算、処理に課題をもたらすためです。

一般的に、データセット蒸留は公平な競争の場を提供し、計算リソースとストレージリソースが限られている研究者でも、ビッグデータとビッグモデルの現在の体制で手頃な価格の ChatGPT や Stable Diffusion などの最先端のベースモデルトレーニングとアプリケーション開発に参加できるようになります。さらに、抽出されたデータセットを使用すると、元の個人を特定できるデータ ポイントを抽出バージョンから除外できるため、データ プライバシーに関する懸念を軽減できます。

最近、さまざまな研究・応用分野で大規模モデルやビッグデータを採用する傾向が顕著になっています。しかし、これまでのデータセット蒸留方法の多くは、主に CIFAR、Tiny-ImageNet、ダウンサンプリングされた ImageNet-1K などのデータセットを対象としており、そのフレームワークを完全な ImageNet-1K などのより大きなデータセットに拡張することは困難です。これは、これらの方法が現代の進歩や主流の方法論に沿ってまだ完全に進化していないことを示唆しています。

さまざまな大規模データセットを抽出し、これまでのすべての方法を上回るパフォーマンスを発揮します

これまでの多くの研究は、トレーニングの重みの軌跡、勾配、特徴/BatchNorm 分布などのマッチングなど、元のデータセットのさまざまな側面と一貫性を保つことを目的としています。

この研究では、研究者らは、さまざまな大規模データセットを抽出して、これまでのすべての方法を上回る最先端の精度を達成する方法を実証しました。

ここで、MBZUAI の研究者は、ImageNet-1K データセットを超えて焦点を広げ、従来の 224×224 の解像度で完全な ImageNet-21K という未知の領域に踏み込みます。これは、データセットの蒸留というタスクのために、このような膨大なデータセットを処理するという先駆的な取り組みとなります。そのアプローチは、シンプルでありながら効果的なカリキュラム学習フレームワークを活用します。私たちは各側面に細心の注意を払い、ImageNet-21K 全体を効率的にトレーニングし、包括的な知識を確実に獲得するための強力な戦略を開発します。

具体的には、これまでの研究に従って、この方法では最初に、元のデータセットからの知識をその密なパラメータにカプセル化するモデルをトレーニングします。しかし、研究者らは、ImageNet-21K における Ridnik らの結果を上回る、洗練されたトレーニング スキームを導入しました。

データの回復/合成フェーズでは、研究者はポリシー学習スキームを使用して、領域の難易度に基づいて部分的な画像クロップを順次更新します。つまり、簡単なものから難しいものへ、またはその逆へと移行します。このプロセスは、さまざまなトレーニング反復における RandomReiszedCrop データ拡張の下限と上限を調整することによって調整されます。

データ合成プロセスでは、シンプルでありながら効果的なカリキュラム データ拡張 (CDA) が導入され、大規模な ImageNet-1K および 21K で IPC (画像クラスあたり) 50 で 63.2%、IPC 20 で 36.1% の精度を達成しました。

注目すべきことに、研究者たちは、この単純な学習アプローチによって合成データの品質が大幅に向上したことを観察しました。この論文では、研究者らはカリキュラム学習フレームワークに関連して、データ統合のための 3 つの学習パラダイムを詳しく検討しています。 1 つ目は標準カリキュラム学習であり、2 つ目はその代替である逆カリキュラム学習です。最後に、基本的な、およびこれまで使用されてきた継続的な学習方法について検討します。

最後に、すべての拡張機能を統合することで、提案モデルは、ImageNet-1K/21K で現在の最先端モデルよりも 4% 以上高い Top-1 精度を達成し、フルデータでトレーニングされたモデルと比較して、絶対値で初めてそのギャップを 15% 未満に狭めることを示します。

さらに、この研究は、大規模な ImageNet-21K データセットを標準の 224×224 解像度で抽出することに初めて成功したことを示しています。

そのコードと、20 IPC および 2K リカバリ バジェットを備えた改良された ImageNet-21K データセットは、 GitHubで入手できます

<<:  機械学習: 教師なし学習: 9 つのクラスタリング アルゴリズム

>>:  DeepMindがAIツールGNoMEをリリース、220万個の新しい結晶材料を発見したと主張

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能があなたの生活を変える10の方法

人類は歴史の中で長い道のりを歩んできましたが、現在の技術の進歩は人類の進歩のペースを加速させ、すべて...

現代のサイバーセキュリティに人工知能が必要な理由

ダイヤルアップ インターネットの時代よりずっと以前、ウイルスが感染したフロッピー ディスクを介して拡...

...

AI がソフトウェアをテストし、バグを修正できるようになれば、プログラマーの仕事は楽になるのでしょうか?

10月18日のニュース、単純な手作業から複雑な法的判断や医療診断まで、ロボットと人工知能が驚くべき...

...

...

大規模ウェブサイトのアルゴリズムとアーキテクチャに関する簡単な説明

順序先月、上司が「大規模ウェブサイトのアルゴリズムとアーキテクチャに関する簡単な説明」という講義をし...

Tech Neo 9月号:アルゴリズムに基づくIT運用・保守

51CTO.com+プラットフォームは、オリジナルの技術コンテンツの選択と絶妙なレイアウトを通じて、...

顔認識技術の倫理原則は何ですか?

顔認識技術がさまざまな分野で持つ大きな可能性は、ほとんど想像できないほどです。ただし、最も洗練された...

ロボティック・プロセス・オートメーション(RPA)がCIOにとって優先課題である理由

自動化技術は企業ビジネスの発展を促進しており、ロボティック・プロセス・オートメーション (RPA) ...

ディープラーニングモデルは「大きいほど良い」というわけではなく、気候変動問題を引き起こす可能性がある

今月初め、OpenAIは、史上最大の人工知能モデルを構築したと発表した。これは「GPT-3」と名付け...

優れたオープンソース音声認識エンジン13選

自動音声認識 (ASR) は、人間とコンピュータの相互作用において重要な役割を果たし、転写、翻訳、デ...

ビッグビデオモデルは世界モデルですか? DeepMind/UC Berkeley Chinese: 次のフレームを予測することで世界を変えることができる

今年初めにOpenAIが発表した壮大な傑作「Sora」が、ビデオ関連分野のコンテンツエコロジーを変え...

我々は最初のAI戦争を目撃したかもしれない

[[409544]] 2021年5月初旬、イスラエルに住むパレスチナ人とイスラエル警察の間で激しい衝...