「宝くじ仮説」の著者による新しいPyTorchライブラリは人気があり、モデルのトレーニングが2〜4倍高速化されます。

さまざまなタスクに人工知能を導入する企業が増えるにつれ、AI モデルのトレーニングはコストがかかり、難しく、時間がかかることがすぐにわかりました。

MosaicML という企業は、こうした新たな課題に対処するための新しい方法を見つけることを目指しています。最近、MosaicML は、モデルのトレーニングを高速化し、コストを削減し、よりパフォーマンスの高いモデルを取得することを目指して、効率的なニューラルネットワークトレーニング用の PyTorch ライブラリ「Composer」をリリースしました。

Composer は PyTorch で記述されたオープンソースライブラリであり、より優れたアルゴリズムを統合して、ディープラーニングモデルのトレーニングを高速化し、コストの削減と精度の向上を実現することを目的としています。現在、このプロジェクトは GitHub プラットフォームで 800 を超えるスターを獲得しています。

プロジェクトアドレス: https://github.com/mosaicml/composer

Composer には、ユーザーが独自のトレーニングループに統合できる機能インターフェイス (torch.nn. functional に類似) があり、効率的なトレーニングアルゴリズムをトレーニングループにシームレスに統合できる Trainer も含まれています。

プロジェクトでは 20 を超える加速方法が導入されており、数行のコードでユーザーのトレーニングに適用したり、組み込みの Trainer で使用したりできます。

一般的に、Composer にはいくつかのハイライトがあります。

コンピュータービジョンと言語モデリングのネットワークのトレーニングを高速化する 20 以上の方法。 Composer が作業を行ってくれるので、研究論文を再現しようと時間を無駄にする必要はありません。
パフォーマンスを最大化し、効率的なトレーニングのためのベストプラクティスを統合するように作成された、使いやすいトレーナーです。
すべての加速方法は関数形式で利用できるため、ユーザーは既存のトレーニングループに統合できます。
できるだけ早く開始できるようにするための、堅牢で再現可能なベースライン。

では、Composer を使用することでどのようなトレーニング効果の向上が図れるのでしょうか?

複数のモデルファミリのトレーニングにかかる時間とコストが削減されます。

プロジェクト情報によると、Composer トレーニングを使用すると、次のことが可能になります。

ResNet-101 は、ImageNet で 1 時間 30 分で 78.1% の精度に到達します (AWS では 49 ドル)。これは、ベースラインよりも 3.5 倍高速で、71% 安価です。
ResNet-50 は、ImageNet で 1 時間 14 分 (AWS で 40 ドル) で 76.51% の精度を達成しました。これは、ベースラインよりも 2.9 倍高速で、65% 安価です。
OpenWebText で 4 時間 27 分で GPT-2 のパープレキシティが 24.11 に改善されました (AWS では 145 ドル)。これはベースラインよりも 1.7 倍高速で、43% 安価です。

Reddit コミュニティでは、プロジェクト作成者の Jonathan Frankle 氏が発言し、Composer は宝くじ仮説に関する彼の研究の直接的な継続であると述べました。

2019 年、Frankle 氏と Carbin 氏の「宝くじ仮説: スパースで訓練可能なニューラルネットワークの発見」が ICLR 2019 で最優秀論文賞を受賞しました。この論文では、Frankle らは、標準的な剪定手法によって、初期化後に効率的にトレーニングできるサブネットワークが自然に発見されることを発見しました。これらの結果に基づいて、2 人は「宝くじ仮説」を提唱しました。これは、高密度でランダムに初期化されたフィードフォワードネットワークにはサブネットワーク (「当選券」) が含まれており、これを個別にトレーニングすると、同様の反復回数で元のネットワークに匹敵するテスト精度を達成できるというものです。

現在、フランクル氏は Mosaic 社の主任科学者であり、Composer の開発の原動力となっています。

今回、フランクル氏は、ディープラーニングの背後にある「数学」には神聖なものは何もないと述べた。「数学」を根本的に変更してもまったく問題ありません（たとえば、重みを大幅に削除するなど）。本来得られるネットワークとは異なるネットワークが得られますが、元のネットワークが「正しい」ネットワークであるわけではありません。「計算」を変更することで、ネットワークが同様に良くなり（たとえば、同じ精度）、さらに高速化されるなら、それは成功です。

ディープラーニングの背後にある「数学」を分析したい場合は、宝くじ仮説が一例です。 Composer には、これを行うための多数のテクニックがあり、それに応じた高速化も実現されています。

同時に、プロジェクトの著者らは Composer と PyTorch Lightning も比較しました。「PyTorch Lightning は、異なる API を持つ異なるトレーニングライブラリです。実際、私たちは最初の Composer 実装を PTL 上に構築しました。」

PyTorch Lightningの作者であるウィリアム・ファルコン氏もその後の議論に登場したが、両者は合意に達しなかったようだ。

現在、Composer のトレーナーは、Resnet-50、Resnet-101、UNet、GPT-2 のアクセラレーションを含む多くのモデルに適用できます。

作者は、今後はViT、BERT、セグメンテーション、ターゲット検出など、より多くのモデルに拡張される予定だと述べています。

<<: 機械学習の再考: 人工知能はどのようにして「記憶を失う」ことを学ぶのか?

>>: 自動運転はどこへ行ってしまったのか？