データの圧縮や蒸留というタスクは、ここ数年大きな注目を集めています。データ圧縮方法は、大規模なデータセットを代表的なコンパクトなサブセットに圧縮することにより、元のデータセットの重要な情報を保持しながら、高速なモデルトレーニングと効率的なデータストレージを実現します。データ圧縮は大量のデータを処理するプロセスで重要な役割を果たすため、研究やアプリケーションにおけるデータ圧縮の重要性は過小評価できません。データ圧縮は、高度なアルゴリズムを採用することで大きな進歩を遂げました。しかし、既存のソリューションは主に、低解像度の小さなデータセットを圧縮するのに優れています。この制限は、2 レベルの最適化プロセス中に多数の展開反復を実行することで発生する膨大な計算オーバーヘッドによるものです。 MBZUAI と CMU チームによる最新の研究SRe2L は、この問題に対処することを目的としています。この研究は、現在、大規模高解像度データセットの蒸留を実現した唯一のフレームワークです。Imagenet-1Kの元の120万データサンプルを0.05Mに圧縮し(圧縮率1:20 )、蒸留に一般的に使用される224x224の解像度を使用します。ImageNet-1K標準検証セット(val set)で現在最高の60.8%のTop-1精度を達成し、TESLA(ICML'23)の27.9%の精度など、これまでのすべてのSOTA手法をはるかに上回りました。 この作業は、蒸留されたデータ、蒸留プロセス、トレーニング コードを含め、完全にオープン ソースになりました。 論文: https://arxiv.org/abs/2306.13092 コード: https://github.com/VILA-Lab/SRe2L データセットの蒸留/圧縮タスクの定義と難易度従来のモデル蒸留は、モデルのパフォーマンスを可能な限り高く保ちながら、よりコンパクトなモデルを取得することを目的としています。対照的に、データセット蒸留タスクは、よりコンパクトで表現力豊かな圧縮データセットを取得する方法に重点を置いています。データ サンプルは元のデータセットよりもはるかに小さくなります (モデルを最初からトレーニングする際の計算オーバーヘッドを節約します)。同時に、モデルは圧縮されたデータセットでトレーニングされ、元のデータ検証セットでテストされて、依然として良好な精度を実現します。 データセット蒸留タスクの主な難しさは、必要なサンプルを効率的かつ実現可能に生成するための生成アルゴリズムをどのように設計するかにあります。生成されたサンプルには、元のデータセットのコア情報が含まれている必要があります。現在、最も一般的に使用されている方法には、勾配マッチング、特徴マッチング、軌跡マッチングなどがありますが、これらの方法の共通の欠点は、大規模なデータセットに拡張できないことです。たとえば、計算と GPU メモリの制限により、標準の ImageNet-1K またはより大きなデータセットを抽出することはできません。必要な計算量と GPU メモリが大きすぎる主な理由は、これらの方法では生成プロセス中に大量の情報を一致させて保存する必要があるためです。現在、多くの GPU メモリは一致させる必要のあるすべてのデータ情報を収容することができないため、これらの方法のほとんどは小さなデータ セットにしか適用できません。 これらの問題に対処するために、新しい論文では、データ生成とモデルトレーニングの 2 つのステップを切り離すことで、3 段階のデータセット蒸留アルゴリズムを提案しています。新しいデータを抽出するプロセスは、元のデータセットで事前トレーニングされたモデルのみに依存するため、計算量とビデオメモリの要件が大幅に削減されます。 ソリューションの核となるアイデアこれまでのデータセット蒸留方法の多くは、サンプル生成とモデルトレーニングの 2 レベル最適化を中心に展開したり、モデルパラメータの軌跡マッチングに基づいて圧縮データを生成するものでした。これらの方法の最大の制限は、スケーラビリティがあまり高くないことです。大量のビデオ メモリと計算が必要であり、ImageNet-1K 全体またはより大きなデータセットに拡張することはできません。 これらの問題に対処するために、著者らはデータ生成とモデルトレーニングを分離し、元のデータの情報抽出プロセスとデータ生成プロセスを互いに独立させる方法を提案しています。これにより、メモリの追加が不要になるだけでなく、元のデータと生成されたデータを同時に処理した場合に、元のデータ内のノイズが生成されたデータにバイアスを与えることも防げます。 具体的には、本論文では、下図に示すように、Squeeze、Recovery、および Relabel (SRe2L) と呼ばれる新しいデータセット圧縮フレームワークを提案しています。このフレームワークは、トレーニング中にモデルと合成データの二重層最適化を 2 つの独立した操作に分離し、さまざまなサイズ、さまざまなモデル アーキテクチャ、および高解像度の画像のデータセットを処理して、効果的なデータセット圧縮を実現します。 私たちのアプローチは、さまざまなデータセット サイズで柔軟性を発揮し、1) 合成画像の任意の解像度、2) 高解像度でのトレーニング コストとメモリ消費量の低さ、3) 任意の評価ネットワーク構造に拡張できる機能など、いくつかの点で複数の利点を示します。この論文では、Tiny-ImageNet および ImageNet-1K データセットに対して多数の実験を実施し、非常に優れたパフォーマンスを実証しています。 3段階データセット蒸留フレームワークこの論文では、3 段階のデータセット蒸留フレームワークを提案します。
3 段階のプロセスを次の図に示します。 写真 パフォーマンスとコンピューティングのエネルギー効率50 IPC(クラスあたり50枚の画像)では、本論文で提案された方法は、Tiny-ImageNetとImageNet-1Kで現在最高のTop-1精度である42.5%と60.8%を達成しており、これはそれぞれ以前の最良の方法よりも14.5%と32.9%高い値です。 さらに、提案された方法は、MTT よりも約 52 倍 (ConvNet-4)、約 16 倍 (ResNet-18) 高速であり、データ合成中に必要なメモリも少なく、MTT 方法と比較してそれぞれ 11.6 倍 (ConvNet-4)、6.4 倍 (ResNet-18) 削減されます。具体的な比較は次の表に示されています。 写真 実験結果実験のセットアップ この研究は主に大規模なデータセットの蒸留に焦点を当てているため、ImageNet-Tiny と ImageNet-1K という比較的大きな 2 つのデータセットが実験用に選択されました。バックボーンネットワークについては、本論文ではResNet-{18, 50, 101}、ViT-Tiny、および独自に構築したBN-ViT-Tinyをターゲットモデル構造として使用します。テストフェーズでは、以前の研究と同様に、モデルを最初からトレーニングして圧縮データセットの品質を評価し、ImageNet-Tiny と ImageNet-1K の元の検証セットでのテスト精度を報告します。 ImageNet-1Kデータセット全体の結果 写真 同じ IPC 条件下では、この論文の実験結果は以前の方法 TESLA をはるかに上回っていることがわかります。同時に、この方法で抽出されたデータセットでは、モデル構造が大きいほどトレーニング精度が高くなり、一貫性とスケーラビリティが優れていることが反映されます。 下の図は、パフォーマンスの比較を視覚化したものです。以前の方法である TESLA 蒸留によって得られたデータセットでは、モデルが大きくなるほどパフォーマンスが低下し、大規模なデータセットの蒸留には不利な状況であることがわかります。対照的に、本論文で提案された方法は、モデルが大きいほど精度が高くなり、常識と実際のアプリケーションのニーズにより一致しています。 圧縮データの視覚化 上の図からわかるように、MTT によって生成されたデータ (1 行目と 3 行目) と比較すると、この論文によって生成されたデータ (2 行目と 4 行目) は、品質、明瞭性、意味情報の点で大幅に優れています。 蒸留プロセス画像生成のアニメーション さらに、50、200 IPC(4K リカバリ バジェット付き)を含む圧縮データセット ファイルは、次のリンクから入手できます: https://zeyuanyin.github.io/projects/SRe2L/ このアプローチを継続学習課題に拡張した結果 写真 上の図は、200 個のカテゴリ (Tiny-ImageNet) を 5 または 10 個の学習ステップに分割し、各ステップでそれぞれ 40 個と 20 個のカテゴリを収容する、5 ステップと 10 ステップの増分学習戦略を示しています。この論文の結果はベースラインのパフォーマンスよりも大幅に優れていることがわかります。 詳細については、元の論文とコードをお読みください。 |
<<: オープンソースのラマ2の背後には、若い中国人たちの力がある
>>: Raspberry Pi で Stable Diffusion を実行すると、260 MB の RAM に 10 億のパラメータ モデルが「保持」されます。
[[414746]]企業はコンテナ内で人工知能や機械学習のワークロードを実行する準備ができているでし...
最近、Magiという検索エンジンが注目を集めています。この検索エンジンは、私たちが持っている一般的な...
11月1日、アリババクラウドは「Tongyi Lingma」というAIプログラミングツールをリリース...
[[221321]]ブロックチェーン、NLP、AI 駆動型ツール、機械学習、サーバーレス コンピュー...
過去20年間、一部の懐疑論者は、人工知能(AI)の発展が企業構造を混乱させ、大量の失業と富の格差の拡...
マウスクリックプログラミングは、プログラミングの世界では常に新しいトレンドとなっています。簡単に言え...
人工知能 (AI) が人材情報プラットフォームを変革することで採用業界に革命をもたらしていることは否...
マスク氏は怒り、残酷なことを言った。 決してデラウェア州に法人を登録しないでください。 州裁判所はテ...
今日、デジタル変革はビジネス存続の基盤となっています。自動化された工場から人工知能 (AI) 品質管...
スタックオーバーフローStack Overflow は、2008 年に設立された、プログラマー向けの...
みなさんこんにちは、私はクン兄さんですここ数ヶ月、私はウェブサイトの開発とAI関連の知識の学習に忙し...
人工知能が本格的に普及しつつあります。AIの知識を学ばなければ、自分が新時代の後継者だと言えるでしょ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[346356]] 0. はじめにみなさんこんにちは。私は、複数選択パラメータのプログラマーポッ...