6つの主要なディープラーニングフレームワークの詳細な説明

1. テアノ

Theano は、カナダのケベック州モントリオール大学の LISA グループ (現在は MILA) によって、BSD ライセンスの下でリリースされたオープンソースプロジェクトとして開発されました。ギリシャの数学者にちなんで名付けられました。

Theano は、特に多次元配列 (numpy.ndarray) 上で数式を定義、最適化、評価するために使用できる Python ライブラリです。大量のデータを伴う問題を解決する場合、Theano を使用したプログラミングは C でのプログラミングよりも高速に実行できます。 GPU アクセラレーションを使用すると、Theano は CPU 計算に基づく C 言語よりも数桁高速化できます。

Theano は CAS (Computer Algebra System) と最適化コンパイラを組み合わせ、さまざまな数学演算用のカスタマイズされた C 言語コードを生成することもできます。繰り返し計算を伴う複雑な数式を扱うタスクでは計算速度が重要なので、CAS と最適化コンパイラの組み合わせは非常に便利です。それぞれの異なる数式を一度ずつ評価する必要がある状況では、Theano はコンパイル/解析計算の量を最小限に抑えながら、自動微分などの記号機能を提供します。

長い間、Theano はディープラーニングの開発と研究における業界標準となってきました。学術界から生まれた Theano は、もともと学術研究用に設計されたため、ディープラーニング分野の多くの学者が今でも Theano を使用しています。

しかし、TensorFlow が Google のサポートを受けて大きく成長したため、Theano は徐々に衰退し、使用する人も少なくなっています。画期的な出来事は、Theano の創設者の 1 人である Ian GoodFellow が Theano を放棄し、Google に移って TensorFlow を開発したことでした。

2017 年 9 月 28 日、Theano 1.0 の正式リリース前夜、LISA 研究所の所長であり、ディープラーニングの 3 大巨頭の 1 人である Yoshua Bengio 氏が、Theano の開発を中止すると発表しました。「Theano は死んだ」。

Theano は歴史から消え去りますが、最初の Python ディープラーニングフレームワークとしてその使命を十分に果たしました。初期のディープラーニング研究者に多大な支援を提供し、また、計算グラフをフレームワークの中核として使用し、GPU アクセラレーションコンピューティングを使用するという、その後のディープラーニングフレームワークの開発の基本的な設計方向を確立しました。

ディープラーニングの初心者の場合、入門演習には Theano を使用できますが、プロの開発者の場合は TensorFlow を使用することをお勧めします。

2. テンソルフロー

TensorFlow は、2011 年に Google が開発したディープラーニングインフラストラクチャである DistBelief に基づいて、Google Brain チームによって構築されました。 Google は、すべてのアプリケーションで機械学習に TensorFlow を使用しています。たとえば、Google カメラと Google 音声検索は、間接的に TensorFlow モデルを使用しています。

TensorFlow は、共通の開発者が多数いるだけでなく、設計コンセプトが似ており、どちらも計算グラフに基づく自動微分システムを実装しているため、Theano の後継として広く見なされています。 TensorFlow は数値計算にデータフローグラフを使用します。データフローグラフでは、ノードは数学演算を表し、エッジはこれらのノード間で渡される多次元配列を表します。

TensorFlow プログラミングインターフェースは、Python と C++ をサポートしています。TensorFlow 1.0 バージョンでは、Java、Go、R、Haskell API のアルファバージョンのサポートが開始されます。さらに、TensorFlow は Google Cloud や AWS でも実行できます。 TensorFlow は、Windows 7、Windows 10、Windows Server 2016 をサポートしています。

TensorFlow は C++ Eigen ライブラリを使用するため、ARM アーキテクチャ上でコンパイルおよび最適化できます。つまり、ユーザーは、別のモデルデコーダーを実行したり、Python インタープリターをロードしたりすることなく、トレーニング済みのモデルをさまざまなサーバーやモバイルデバイスに展開できます。

最も人気のあるディープラーニングフレームワークとして、TensorFlow は大きな成功を収めていますが、読者は学習プロセス中に次の問題にも注意する必要があります。

TensorFlow インターフェースは常に急速に反復されており、バージョン間に非互換性があるため、オープンソースコードが新しいバージョンの TensorFlow で実行できないなどの問題が開発およびデバッグ中に発生する可能性があります。

TensorFlow の基本的な動作メカニズムを学習したい読者は、心の準備が必要です。GitHub コードリポジトリ内の TensorFlow のコードの総量は 100 万行を超えており、システム設計は比較的複雑です。これは長い学習プロセスになります。

コードレベルでは、TensorFlow は同じ関数に対して複数の実装を提供します。これらの実装は品質が異なり、使用方法にも微妙な違いがあります。選択する際には注意してください。さらに、TensorFlow は、グラフ、セッション、名前空間、プレースホルダーなど、一般のユーザーには理解が難しい抽象的な概念を多数作成します。

Google の強力なプロモーション機能により、TensorFlow は現在最も人気のあるディープラーニングフレームワークになりました。完璧ではありませんが、最も人気があります。企業によって使用するフレームワークが異なるため、知識の蓄えとしていくつかの一般的なフレームワークを学習する必要があります。TensorFlow は間違いなく良い選択です。

MXネット

MXNet は、Amazon のチーフサイエンティスト Li Mu が率いるチームによって開発されたディープラーニングフレームワークです。Theano や TensorFlow に似たデータフローグラフを備え、マルチ GPU アーキテクチャに適した構成を提供し、Lasagne や Blocks に似た高レベルのモデルビルディングブロックを備えています。必要なハードウェア (携帯電話を含む) で実行できます。 MXNet は、Python のサポートに加えて、R、Julia、C++、Scala、Matlab、Go、Java 用のインターフェースも提供します。

MXNet は、強力な分散機能とメモリ/グラフィックスメモリの最適化機能により、開発者の間で人気があります。同じモデルの場合、MXNet はメモリとビデオメモリをあまり占有しません。分散環境では、MXNet は他のフレームワークよりも大幅に優れたスケーラビリティを示します。

MXNet の欠点は、プロモーションが不十分であることと、インターフェースのドキュメントが不完全であることです。 MXNet のバージョンは急速に進化していますが、公式 API ドキュメントは長い間更新されていないため、新しいユーザーが新しいバージョンの MXNet を習得するのは困難です。一方、古いユーザーは、MXNet インターフェイスの使用方法を本当に理解するためにソースコードを参照する必要があります。 MXNet のドキュメントはややわかりにくく、初心者にはあまり適していませんが、分散パフォーマンスは強力で、多くの言語をサポートしており、クラウドプラットフォームでの使用に適しています。

4. ケラス

Keras は、TensorFlow、Theano、CNTK をバックエンドとして Python で記述された高レベルニューラルネットワーク API です。 Keras は迅速な実験をサポートするために誕生し、開発者のアイデアを迅速に実現することができます。 Keras は現在最も使いやすいディープラーニングフレームワークです。一貫性のある簡潔な API を提供し、一般的なアプリケーションでのユーザーの作業負荷を大幅に軽減します。

ディープラーニングフレームワークと比較すると、Keras はサードパーティフレームワーク上に構築されたディープラーニングインターフェースに似ています。 Keras の欠点は明らかです。過剰なカプセル化により柔軟性が失われます。 Keras は Theano の高レベル API として始まり、後に TensorFlow と CNTK をバックエンドとして追加しました。

バックエンドの違いを隠すために、Keras は一貫したユーザーインターフェースを提供し、レイヤーごとにカプセル化を行います。これにより、ユーザーが新しい操作を追加したり、基礎となるデータ情報を取得したりすることが非常に困難になります。同時に、過度なカプセル化により Keras プログラムの実行速度が非常に遅くなり、カプセル化の中に多くのバグが隠れてしまいます。ほとんどのシナリオでは、Keras はこの記事で紹介したすべてのフレームワークの中で最も低速です。

Keras を学ぶのは簡単ですが、柔軟性が十分ではないため、すぐにボトルネックに遭遇します。また、Keras を使用する場合、ユーザーは主にインターフェースを呼び出すことがほとんどであり、ディープラーニングの内容を真に学習することは困難です。

Keras はカプセル化が過剰であるため、初心者の学習者には不向き (ディープラーニングの本当の意味を理解できない) なので、お勧めできません。

5. パイトーチ

PyTorch は、強力な GPU アクセラレーション基盤上にテンソルと動的ニューラルネットワークを実装する Python ファーストのディープラーニングフレームワークです。

PyTorch は、完全な使用方法のドキュメントとステップバイステップのユーザーガイドを提供します。著者は、ユーザー間のコミュニケーションと問題解決を促進するために、PyTorch フォーラムを個人的に管理しています。

Facebook 人工知能研究所 FAIR は、PyTorch の推進に強力なサポートを提供してきました。現在、トップ 3 のディープラーニング研究機関の 1 つである FAIR のサポートは、PyTorch が継続的に開発および更新され、個人で開発されたフレームワークのように短命にならないようにするのに十分です。必要に応じて、NumPy、SciPy、Cython などの Python パッケージを使用して PyTorch を拡張することもできます。

TensorFlow と比較すると、PyTorch の主な利点の 1 つはグラフが動的であることです。一方、TensorFlow フレームワークは静的グラフであり、拡張には適していません。同時に、PyTorch は非常に簡潔で使いやすいです。この本では、主な実装フレームワークとして PyTorch を選択しています。

TensorFlow の設計が「複雑にする」ことであり、Keras の設計が「複雑にして隠す」ことであるとすれば、PyTorch の設計はまさに「シンプルに保つ」ことを実現しています。

6. カフェ

Caffe は、Yangqing Jia によって C++ で書かれたディープラーニングフレームワークです。オープンソース (BSD ライセンス) であり、コマンドラインツールのほか、Matlab および Python インターフェイスも提供します。

Caffe は、ディープラーニングの研究者が常に使用するフレームワークです。多くの研究者が開発と最適化を行っており、多くの経験を蓄積しています。そのため、Caffe は人気のディープラーニングフレームワークの 1 つでもあります。それにもかかわらず、Caffe には、複数のマシンをサポートしていない、クロスプラットフォーム、スケーラビリティが低いなどの問題もあります。 Caffe を使用する初心者は、次の 2 つの問題にも注意する必要があります。

Caffe のインストールプロセスには多数の依存ライブラリが必要なので、インストールバージョンの問題が多く発生します。初心者はこれに特に注意する必要があります。

ユーザーが新しいレイヤーを実装する場合、C++ を使用してその順方向伝播と逆方向伝播のコードを実装する必要があります。新しいレイヤーを GPU で実行する場合は、CUDA を使用してこのレイヤーの順方向伝播と逆方向伝播を同時に実装する必要があります。

Caffe2 は Facebook の人工知能研究所と応用機械学習チームから生まれたもので、Yangqing Jia 氏は今でも主要な貢献者の一人です。 Caffe2 では、実行速度、クロスプラットフォーム、スケーラビリティなど、多くのエンジニアリングの最適化が行われています。Caffe をより細かく再構築したものと見ることができますが、設計の面では、Caffe2 は実際には TensorFlow に似ています。 Caffe2 コードがオープンソースになりました。

産業界や学術界では今でも Caffe を使用している人が多く、Caffe2 の登場により選択肢がさらに広がりました。

著者について: Tu Ming はシニアデータアーキテクトであり、人工知能技術の専門家です。現在は Tencent に勤務しており、以前は Alibaba に勤務していました。ビッグデータ、自然言語処理、画像認識、Python、Javaなどの関連技術について深く研究し、豊富な実践経験を積んでいます。コンピュータービジョンアルゴリズムの専門家である Jin Zhiyong 氏は、コンピュータービジョンの分野に 12 年間携わっています。彼は現在、Baidu で働いており、Alibaba や Samsung などの有名なハイテク企業でも働いたことがあります。事業分野は、拡張現実、顔認識、画像美化、インテリジェント交通、工業品質検査などの分野をカバーしており、アルゴリズムの研究と実装において豊富な経験を持っています。

この記事は「ディープラーニングとオブジェクト検出: ツール、原理、アルゴリズム」から抜粋したもので、出版社の許可を得ています。 (ISBN: 9787111690344)

<<: GoogleとWaymoが提案する4D-Netは、RGB画像と点群を組み合わせて遠くのターゲットを検出します

>>: AIは単なるコードかもしれないが、それは私たちのコードだ