自己教師学習の効率限界を突破! Ma Yi と LeCun が共同で EMP-SSL をリリース: 特別なトリックは不要、30 エポックで SOTA を達成可能

自己教師学習の効率限界を突破! Ma Yi と LeCun が共同で EMP-SSL をリリース: 特別なトリックは不要、30 エポックで SOTA を達成可能

過去数年間、教師なし学習と自己教師あり学習 (SSL) は大きな進歩を遂げてきました。SSL を通じて学習された表現は、分類パフォーマンスにおいて教師あり学習に追いつき、場合によっては教師あり学習を上回ることさえあります。この傾向により、視覚タスクのための大規模なデータ駆動型教師なし学習も可能になります。

自己教師学習の実験的パフォーマンスは驚くべきものですが、ほとんどの自己教師学習方法は非常に「非効率的」であり、通常、完全に収束するには数百のトレーニングエポックが必要です。

最近、Ma Yi教授とチューリング賞受賞者のYann LeCun氏のチームは、新しい自己教師学習法であるExtreme-Multi-Patch Self-Supervised-Learning(EMP-SSL)を発表し、効率的な自己教師学習の鍵は各画像インスタンス内の画像パッチの数を増やすことであることを証明しました。

論文リンク: https://arxiv.org/pdf/2304.03977.pdf

コードリンク: https://github.com/tsb0601/EMP-SSL

この方法は、ブランチ間の重み共有、特徴の正規化、出力の量子化、勾配停止などの自己教師あり学習における一般的なヒューリスティック手法に依存せず、トレーニング時間を 2 桁短縮します。

実験結果によると、提案手法は、たった 1 回のトレーニング エポックで、CIFAR-10 データセットで 85.1%、CIFAR-100 データセットで 58.5%、Tiny ImageNet で 38.1%、ImageNet-100 で 58.5% の精度に収束できることが示されています。

トレーニング エポック数を 10 に増やすと、この方法は CIFAR-10 で 91.5%、CIFAR-100 で 70.1%、Tiny ImageNet で 51.5%、ImageNet-100 で 78.9% を達成できます。

さらに、研究結果では、他のベースライン手法と比較して、EMP-SSL はトレーニング データのドメイン外転送パフォーマンスがかなり優れていることも示されています。

馬怡教授は、1995 年に清華大学でオートメーションと応用数学の二重学士号を取得し、1997 年にカリフォルニア大学バークレー校で電気電子工学の修士号を取得し、2000 年に数学の修士号と電気電子工学の博士号を取得しました。

馬怡教授は2018年にカリフォルニア大学バークレー校の電気工学およびコンピュータサイエンス学部に着任しました。今年1月には香港大学のデータサイエンス研究所の学部長に就任し、最近では香港大学のコンピューティング学部の学部長に就任しました。

彼の主な研究分野は、3D コンピューター ビジョン、高次元データ用の低次元モデル、スケーラビリティ最適化、機械学習です。最近の研究テーマには、大規模な 3D ジオメトリの再構築とインタラクション、低次元モデルとディープ ネットワークの関係などがあります。

EMP-SSL

全体的なプロセス

他の SSL 方式と同様に、EMP-SSL も画像の拡張ビューから結合埋め込みを取得します。拡張ビューは固定サイズの画像パッチです。

このタイプのアプローチには 2 つの目標があります。

1. 同じ画像の 2 つの異なる強化画像の表現はより近くなるはずです。

2. 表現空間は、折りたたまれた自明な空間であってはなりません。つまり、データの重要な幾何学的構造またはランダム構造を保持する必要があります。

これまでの研究では、主にこれら 2 つの特性を実現するためのさまざまな戦略と異なるヒューリスティック手法が検討され、画像パッチの共起を学習することで、ますます優れたパフォーマンスが達成されてきました。

画像パッチの共起の学習をより効率的にするために、研究者らは EMP-SSL の自己教師学習における画像パッチの数を極限まで増やしました。

まず、入力画像はランダムに切り取られて n 個の固定サイズの画像ブロックに分割され (重複は許可されます)、次に標準的なデータ拡張技術を使用して画像ブロックが強化されます。

強化された画像ブロックごとに、埋め込みと投影がそれぞれ 2 つのネットワークを通じて取得されます。埋め込みネットワークは比較的深いネットワーク (ResNet-18 など) であり、投影ネットワークはより小さく、完全に接続された 2 つの層のみで構成されています。この 2 つが一緒になってエンコーダーを構成します。

トレーニング中、モデルは表現の崩壊を回避するために Total Coding Rate (TCR) 正規化手法を使用します。

研究者たちはまた、同じ画像からの異なる画像パッチの表現が変化しないこと、つまり表現空間内でそれらが可能な限り近くなることを望んでおり、そのため、強化された画像の表現と、同じ画像内のすべての強化された画像パッチの平均表現との間の距離が最小限に抑えられるはずであり、そのためのトレーニング目標は次のようになります。

ここで、Z は異なる強化画像ブロックの平均表現を表し、D は距離関数 (コサイン類似度) です。つまり、D の値が大きいほど、2 つの類似性が高くなります。

この目的関数は、最大レート削減の変形、または共分散ベースの SSL 方式の一般化バージョンとして考えることができます。n を 2 に設定するのは一般的な 2 ビュー自己教師学習法ですが、n を大きく設定して画像ブロック寄与の学習速度を上げることもできます。

機能満載のモデル

研究者らは、入力画像の表現をすべての画像ブロックの埋め込み平均として定義しましたが、埋め込み表現に等差数列や局所性が多く含まれていればパフォーマンスは向上し、投影はより安定するはずだと考える研究もありますが、この結論にはまだ厳密な証明が欠けています。

建築

研究者らは、自己教師あり学習でよく使用される単純なネットワーク アーキテクチャ形式を採用しようとしました。つまり、EMP-SSL では、予測ネットワーク、モメンタム エンコーダー、無関心演算子、停止勾配は必要ありません。

これらの方法はいくつかの自己教師学習法で有効であることが示されていますが、その有効性は次の研究で検討する必要があります。この論文では、提案された自己教師学習法の有効性に主に焦点を当てています。

実験結果

1エポックの自己教師学習

他の最先端の自己教師学習方法と比較すると、EMP-SSL がデータセットを 1 回しか見たことがない場合でも、完全収束に近い SOTA パフォーマンスに収束できることがわかります。

結果は、提案された方法が、現在の SSL 方法の収束を改善するだけでなく、オンライン学習、増分学習、ロボット学習などのコンピューター ビジョンの他の分野でも大きな可能性を秘めていることを示しています。

標準データセットへの高速収束

研究者らは、CIFAR-10、CIFAR-100、Tiny ImageNet、ImageNet-100 などの標準データセットで、提案された目的関数の収束速度の効率性を検証しました。

たった 1 エポックのトレーニングで、EMP-SSL は 20 個の画像パッチの設定で 80.6% の精度を達成し、200 個の画像パッチの設定で 82.6% の精度を達成したことがわかります。

10 エポック後、EMP-SSL は 90% 以上に収束し、CIFAR-10 データセットで最も先進的な自己教師学習方法となりました。30 エポック後、EMP-SSL の精度は現在のすべての方法を上回り、93% を超えました。

時間効率に関しては、共同埋め込み自己教師学習では、画像パッチの数が増えるとトレーニング時間が長くなる可能性があります。

研究者らは、実験に 2 つの A100 GPU を使用して、各手法が CIFAR で指定されたパフォーマンスに到達するまでにかかった時間を比較しました。

実験結果から、CIFAR-10 データセットでは、EMP-SSL は収束するために必要なトレーニング エポックが大幅に少なくなるだけでなく、実行時間も短くなることがわかります。

この利点は、より複雑な CIFAR-100 データセットではさらに顕著になります。以前の方法ではより多くのトレーニング エポックが必要で、収束に時間がかかりますが、EMP-SSL では、良好な結果を得るために必要なトレーニング エポックはわずかです。

表現の視覚化

研究者らは、t-SNE マップの結果を使用して、わずか数エポックのトレーニングにもかかわらず、EMP-SSL が意味のある表現を学習したことを実証しました。

CIFAR-10 トレーニング セットで学習された表現マップでは、EMP-SSL は 200 個の画像パッチを使用して 10 エポックにわたってトレーニングされ、他の SOTA 方法は 1000 エポックにわたってトレーニングされ、各色は異なるカテゴリを表します。

EMP-SSL によって学習されたさまざまなカテゴリの表現は、より適切に分離され、より構造化されていることがわかります。他の SOTA 手法と比較して、EMP-SSL によって学習された特徴は、より洗練された低次元構造を示しています。

最も驚くべきことは、これらすべての構造がわずか 10 エポックのトレーニングで学習されることです。

画像パッチ番号アブレーション実験

研究者らはまた、目的関数における画像パッチの数 n に関するアブレーション実験を実施し、収束プロセスにおけるこのパラメータの重要性を実証しました。

<<:  ヘルスケアの革命: アジア太平洋地域におけるスマートホーム技術の台頭

>>:  ガートナー: CIO がビッグモデルを選択するための 6 つの基準と 5 つの主な導入方法

推薦する

2022年に注目すべき5つのAI活用法

AI インフラストラクチャの継続的な革新と開発により、今日の仕事のやり方は変化しました。人工知能は...

マイクロソフトがAI開発に関する無料電子書籍をリリース、インテリジェントなチャットボットの構築方法を教える

最近、Microsoft は、Microsoft AI プラットフォームを使用してインテリジェントな...

指紋、顔、虹彩: 適切な生体認証技術を選択するには?

[[351445]]最近、クレジットカード会社からデータ漏洩に関する連絡がありましたか? あるいは...

AIが将来のスマートマスモビリティソリューションへの道を切り開く

2030年までに人口の60%が都市部に住むようになると推定されています。現在そして将来に必要な条件は...

...

...

3万語に及ぶ記事: サーバー開発と設計のためのアルゴリズム集

[[442986]]孫子はこう言った。「行軍と戦闘の最善の方法は戦略を使うこと、次に良いのは敵の同盟...

RPA大手UiPath独占インタビュー:やがて「1人1台ロボット」の時代が到来

【51CTO.comオリジナル記事】 【はじめに】 2019年後半、RPAは一気に普及したように思わ...

この敵対的アルゴリズムは顔認識アルゴリズムを失敗させ、WeChatやWeiboの写真圧縮にも抵抗できる。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

AI時代が到来。プロの写真家は淘汰されるのか?

テクノロジー業界では、AI の進化により、プロの写真家を含む多くの仕事が置き換えられるだろうという意...

人工知能が教育改革にどのように貢献しているかをご覧ください

人工知能によってもたらされる将来の教育の変革と発展は、新たな機会を生み出すだけでなく、より大きな課題...

Google が 3,300 万ドルを投じて 5 年間の脳プロジェクトを開始!マウスの脳の2~3%をマッピング、エベレスト山とほぼ同じデータ量

人間の脳は、数十億個の細胞のネットワークで構成された、存在する最も複雑なコンピューターです。これまで...

...

ビッグモデル実装の最後の一歩: ビッグモデル評価の 111 ページに及ぶ包括的なレビュー

現在、ビッグモデルは強力な機能と無限の可能性で新たな技術革命をリードしています。多くのテクノロジー大...