ビッグデータ時代のデータセット蒸留:大規模データセットでの最初の成功

ビッグデータ時代のデータセット蒸留:大規模データセットでの最初の成功

11月30日、世界初の人工知能大学であるモハメド・ビン・ザイド人工知能大学(MBZUAI)は、arXivプレプリントプラットフォームで「大規模データ時代のデータセット蒸留」と題する論文を公開した。

データ蒸留のアプリケーションと現在の課題

データセット蒸留は、コンピューター ビジョンや自然言語処理のさまざまな分野で広く注目を集めています。

データセット蒸留の目的は、大規模なデータセットから小さいながらも代表的なサブセットを生成し、モデルを効率的にトレーニングしながら、元のテスト データの分布を評価して良好なパフォーマンスを実現することです。

データセットの蒸留という概念は、データとモデルのサイズが拡大し続けるビッグデータの時代にはさらに重要になります。データセットは多くの場合非常に大きく、保存、計算、処理に課題をもたらすためです。

一般的に、データセット蒸留は公平な競争の場を提供し、計算リソースとストレージリソースが限られている研究者でも、ビッグデータとビッグモデルの現在の体制で手頃な価格の ChatGPT や Stable Diffusion などの最先端のベースモデルトレーニングとアプリケーション開発に参加できるようになります。さらに、抽出されたデータセットを使用すると、元の個人を特定できるデータ ポイントを抽出バージョンから除外できるため、データ プライバシーに関する懸念を軽減できます。

最近、さまざまな研究・応用分野で大規模モデルやビッグデータを採用する傾向が顕著になっています。しかし、これまでのデータセット蒸留方法の多くは、主に CIFAR、Tiny-ImageNet、ダウンサンプリングされた ImageNet-1K などのデータセットを対象としており、そのフレームワークを完全な ImageNet-1K などのより大きなデータセットに拡張することは困難です。これは、これらの方法が現代の進歩や主流の方法論に沿ってまだ完全に進化していないことを示唆しています。

さまざまな大規模データセットを抽出し、これまでのすべての方法を上回るパフォーマンスを発揮します

これまでの多くの研究は、トレーニングの重みの軌跡、勾配、特徴/BatchNorm 分布などのマッチングなど、元のデータセットのさまざまな側面と一貫性を保つことを目的としています。

この研究では、研究者らは、さまざまな大規模データセットを抽出して、これまでのすべての方法を上回る最先端の精度を達成する方法を実証しました。

ここで、MBZUAI の研究者は、ImageNet-1K データセットを超えて焦点を広げ、従来の 224×224 の解像度で完全な ImageNet-21K という未知の領域に踏み込みます。これは、データセットの蒸留というタスクのために、このような膨大なデータセットを処理するという先駆的な取り組みとなります。そのアプローチは、シンプルでありながら効果的なカリキュラム学習フレームワークを活用します。私たちは各側面に細心の注意を払い、ImageNet-21K 全体を効率的にトレーニングし、包括的な知識を確実に獲得するための強力な戦略を開発します。

具体的には、これまでの研究に従って、この方法では最初に、元のデータセットからの知識をその密なパラメータにカプセル化するモデルをトレーニングします。しかし、研究者らは、ImageNet-21K における Ridnik らの結果を上回る、洗練されたトレーニング スキームを導入しました。

データの回復/合成フェーズでは、研究者はポリシー学習スキームを使用して、領域の難易度に基づいて部分的な画像クロップを順次更新します。つまり、簡単なものから難しいものへ、またはその逆へと移行します。このプロセスは、さまざまなトレーニング反復における RandomReiszedCrop データ拡張の下限と上限を調整することによって調整されます。

データ合成プロセスでは、シンプルでありながら効果的なカリキュラム データ拡張 (CDA) が導入され、大規模な ImageNet-1K および 21K で IPC (画像クラスあたり) 50 で 63.2%、IPC 20 で 36.1% の精度を達成しました。

注目すべきことに、研究者たちは、この単純な学習アプローチによって合成データの品質が大幅に向上したことを観察しました。この論文では、研究者らはカリキュラム学習フレームワークに関連して、データ統合のための 3 つの学習パラダイムを詳しく検討しています。 1 つ目は標準カリキュラム学習であり、2 つ目はその代替である逆カリキュラム学習です。最後に、基本的な、およびこれまで使用されてきた継続的な学習方法について検討します。

最後に、すべての拡張機能を統合することで、提案モデルは、ImageNet-1K/21K で現在の最先端モデルよりも 4% 以上高い Top-1 精度を達成し、フルデータでトレーニングされたモデルと比較して、絶対値で初めてそのギャップを 15% 未満に狭めることを示します。

さらに、この研究は、大規模な ImageNet-21K データセットを標準の 224×224 解像度で抽出することに初めて成功したことを示しています。

そのコードと、20 IPC および 2K リカバリ バジェットを備えた改良された ImageNet-21K データセットは、 GitHubで入手できます

<<:  機械学習: 教師なし学習: 9 つのクラスタリング アルゴリズム

>>:  DeepMindがAIツールGNoMEをリリース、220万個の新しい結晶材料を発見したと主張

推薦する

セキュリティ業界における5G+AIの探究と実装

セキュリティ業界における5G+AIの活用により、高解像度ビデオはセキュリティ業界に重要な発展の機会を...

無料の AI ベスト論文検索ツール: ワンクリックで結果を表示し、数分で論文の表とデータを抽出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

AIはハリウッドに影響を与えているのでしょうか?議論の余地はあるものの、答えはすでにある

最新の3Dアニメーションをご覧になった方は、その壮大な世界に衝撃を受けるかもしれません。もしこれらの...

2021年中国の人工知能産業市場規模とサブ産業の市場予測分析

人工知能は、人間による情報の統合、データの分析、機械の助けを借りた洞察の獲得のプロセスを再構築し、人...

...

人工知能のいくつかの重要な技術をご存知ですか?

今日は人工知能の開発におけるいくつかの重要な技術を紹介します。音声認識からスマートホーム、人間と機械...

AI時代のITリーダーに必要な6つのソフトスキル

人工知能は組織内で大きな変化をもたらしますが、変化とともに、AI が仕事を奪ってしまうのではないかと...

...

AIが皮膚がんの診断で17カ国の皮膚科医58人に勝利

現代医学の発展は、病気の診断と治療のための新しいツール、テクノロジー、方法を開発してきた医師と科学者...

GCN グラフ畳み込みネットワークの紹介

この記事では、GCN と呼ばれるよく知られたグラフ ニューラル ネットワークについて詳しく説明します...

機械学習の落とし穴を避ける: データはアルゴリズムよりも重要

ユーザー行動分析とネットワーク脅威検出、新たな波が起こり続けています。セキュリティ データ分析は、状...

...

コンサルタントは AI に置き換えられるでしょうか?主流のコンサルティング会社:心配するよりも受け入れる

多くの企業は、事業運営において専門的なアドバイスを得るためにコンサルタントに依存しており、コンサルテ...

小鵬汽車と徳賽SV自動車有限公司がレベル3自動運転システムの開発で協力

最近、小鵬汽車とDesay SVは戦略的協力協定を締結し、レベル3自動運転システムの開発で協力すると...