「宝くじ仮説」の著者による新しいPyTorchライブラリは人気があり、モデルのトレーニングが2〜4倍高速化されます。

「宝くじ仮説」の著者による新しいPyTorchライブラリは人気があり、モデルのトレーニングが2〜4倍高速化されます。

さまざまなタスクに人工知能を導入する企業が増えるにつれ、AI モデルのトレーニングはコストがかかり、難しく、時間がかかることがすぐにわかりました。

MosaicML という企業は、こうした新たな課題に対処するための新しい方法を見つけることを目指しています。最近、MosaicML は、モデルのトレーニングを高速化し、コストを削減し、よりパフォーマンスの高いモデルを取得することを目指して、効率的なニューラル ネットワーク トレーニング用の PyTorch ライブラリ「Composer」をリリースしました。

Composer は PyTorch で記述されたオープンソース ライブラリであり、より優れたアルゴリズムを統合して、ディープラーニング モデルのトレーニングを高速化し、コストの削減と精度の向上を実現することを目的としています。現在、このプロジェクトは GitHub プラットフォームで 800 を超えるスターを獲得しています。

プロジェクトアドレス: https://github.com/mosaicml/composer

Composer には、ユーザーが独自のトレーニング ループに統合できる機能インターフェイス (torch.nn. functional に類似) があり、効率的なトレーニング アルゴリズムをトレーニング ループにシームレスに統合できる Trainer も含まれています。

プロジェクトでは 20 を超える加速方法が導入されており、数行のコードでユーザーのトレーニングに適用したり、組み込みの Trainer で使用したりできます。

一般的に、Composer にはいくつかのハイライトがあります。

  • コンピューター ビジョンと言語モデリングのネットワークのトレーニングを高速化する 20 以上の方法。 Composer が作業を行ってくれるので、研究論文を再現しようと時間を無駄にする必要はありません。
  • パフォーマンスを最大化し、効率的なトレーニングのためのベスト プラクティスを統合するように作成された、使いやすいトレーナーです。
  • すべての加速方法は関数形式で利用できるため、ユーザーは既存のトレーニング ループに統合できます。
  • できるだけ早く開始できるようにするための、堅牢で再現可能なベースライン。

では、Composer を使用することでどのようなトレーニング効果の向上が図れるのでしょうか?


複数のモデル ファミリのトレーニングにかかる​​時間とコストが削減されます。

プロジェクト情報によると、Composer トレーニングを使用すると、次のことが可能になります。

  • ResNet-101 は、ImageNet で 1 時間 30 分で 78.1% の精度に到達します (AWS では 49 ドル)。これは、ベースラインよりも 3.5 倍高速で、71% 安価です。
  • ResNet-50 は、ImageNet で 1 時間 14 分 (AWS で 40 ドル) で 76.51% の精度を達成しました。これは、ベースラインよりも 2.9 倍高速で、65% 安価です。
  • OpenWebText で 4 時間 27 分で GPT-2 のパープレキシティが 24.11 に改善されました (AWS では 145 ドル)。これはベースラインよりも 1.7 倍高速で、43% 安価です。

Reddit コミュニティでは、プロジェクト作成者の Jonathan Frankle 氏が発言し、Composer は宝くじ仮説に関する彼の研究の直接的な継続であると述べました。



2019 年、Frankle 氏と Carbin 氏の「宝くじ仮説: スパースで訓練可能なニューラル ネットワークの発見」が ICLR 2019 で最優秀論文賞を受賞しました。この論文では、Frankle らは、標準的な剪定手法によって、初期化後に効率的にトレーニングできるサブネットワークが自然に発見されることを発見しました。これらの結果に基づいて、2 人は「宝くじ仮説」を提唱しました。これは、高密度でランダムに初期化されたフィードフォワード ネットワークにはサブネットワーク (「当選券」) が含まれており、これを個別にトレーニングすると、同様の反復回数で元のネットワークに匹敵するテスト精度を達成できるというものです。

現在、フランクル氏は Mosaic 社の主任科学者であり、Composer の開発の原動力となっています。

今回、フランクル氏は、ディープラーニングの背後にある「数学」には神聖なものは何もないと述べた。 「数学」を根本的に変更してもまったく問題ありません(たとえば、重みを大幅に削除するなど)。本来得られるネットワークとは異なるネットワークが得られますが、元のネットワークが「正しい」ネットワークであるわけではありません。 「計算」を変更することで、ネットワークが同様に良くなり(たとえば、同じ精度)、さらに高速化されるなら、それは成功です。

ディープラーニングの背後にある「数学」を分析したい場合は、宝くじ仮説が一例です。 Composer には、これを行うための多数のテクニックがあり、それに応じた高速化も実現されています。

同時に、プロジェクトの著者らは Composer と PyTorch Lightning も比較しました。「PyTorch Lightning は、異なる API を持つ異なるトレーニング ライブラリです。実際、私たちは最初の Composer 実装を PTL 上に構築しました。」


PyTorch Lightningの作者であるウィリアム・ファルコン氏もその後の議論に登場したが、両者は合意に達しなかったようだ。

現在、Composer のトレーナーは、Resnet-50、Resnet-101、UNet、GPT-2 のアクセラレーションを含む多くのモデルに適用できます。



作者は、今後はViT、BERT、セグメンテーション、ターゲット検出など、より多くのモデルに拡張される予定だと述べています。

<<:  機械学習の再考: 人工知能はどのようにして「記憶を失う」ことを学ぶのか?

>>:  自動運転はどこへ行ってしまったのか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

テスラはどのようにしてPyTorchを使って自動運転を実現し、世界に挑戦したのでしょうか?

[[313367]]テスラのエンジニアたちは、データの拡大に伴ってエンジニアの数を増やすことなく、...

没入型環境向けロボットの開発における3つの課題

[51CTO.com 速訳] 最近、FacebookはMessengerプラットフォーム上のチャット...

GPT-3 ハイパーパラメータは単一の GPU で解決できます。まず小さなモデルをトレーニングし、ワンクリックで移行します

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

ディープラーニングの3つの主なステップ!

[[418456]]この記事は、Lee Hongyi によるチーム スタディ ブック「LeeML-...

7nmプロセス限界を突破した世界初の3DウェーハレベルパッケージングプロセッサIPUがリリース

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

学術専門家を募集中 | 過去 10 年間に人工知能の 21 のサブ分野で引用数の多い学者

人工知能は、特に過去 10 年間で急速に発展しました。人工知能の分野は、自然言語処理、コンピューター...

スーパーコンピューターで設計された、カエルの細胞から作られた初の生きたロボット

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

SEO技術における人工知能の応用

[[188760]] SEO はますます「難しく」なっていると誰もが感じているはずです。すでに、SE...

...

...

データが足りない場合はどうなりますか?コンピュータビジョンデータ拡張手法の概要

データが足りない場合はどうすればいいですか?学者たちは、ディープラーニングモデルにおけるデータ不足の...

人工知能プロジェクトのための 10 のヒント - ガイド

昨日の人工知能プロジェクトに関する 10 の提案 - 理論に続き、今日は人工知能プロジェクトの 10...

Google が使用する 4 つのデータ指標モデル

この目的のために、市場で一般的なデータ モデルを見つけて整理し、分析することができます。主流のデータ...

...