最先端のディープラーニングデバイスのベンチマーク：Nvidia Jetson Nanoが勝利

エッジコンピューティングは、急成長しているモノのインターネットの成長に不可欠です。最近、機械学習とデータサイエンスのコンサルティング会社である Tryolabs は、機械学習向けに設計された 3 つのエッジコンピューティングデバイス (NVIDIA Jetson Nano、Google Coral 開発ボード (Edge TPU 内蔵)、Intel Neural Compute Stick) と、それらのさまざまな機械学習モデルとの組み合わせをテストして比較したベンチマーク評価レポートを発表しました。結果は、推論時間と精度の両方において、Nvidia の Jetson Nano が明らかに勝者であることを示しています。さらに、参考までにRaspberry Pi 3BとNVIDIA 2080ti GPUでの結果も示されました。

エッジコンピューティングはなぜ必要なのでしょうか?

人類はかつてないほど多くのデータを生成し、収集しています。私たちのポケットの中のデバイスは、写真、GPS 座標、音声、そして意図的か否かにかかわらず私たちが公開するあらゆる種類の個人情報など、膨大な量のデータを生成します。

さらに、私たちは自分自身に関連するデータを生成するだけでなく、交通や旅行の制御システム、ビデオ監視ユニット、衛星、スマートカー、その他無数のスマートデバイスなど、他の多くの場所から未知のデータも収集します。

データ増加の傾向はすでに形成されており、今後も指数関数的に拡大し続けるでしょう。データポイントに関して、国際データコンサルティング会社 (IDC) は、世界のデータ総量が 2019 年の 33 ZB から 2025 年には 175 ZB に増加し、年間成長率は 61% になると予測しています。

当社はこれまで常に、最初はデータセンターで、次にクラウドでデータを処理してきましたが、これらのソリューションは大量のデータを扱う要求の厳しいタスクには適していませんでした。ネットワークのパフォーマンスと速度は新たな限界を押し広げ続けており、新しいソリューションの必要性が生まれています。今こそエッジコンピューティングとエッジデバイスの時代の始まりです。

このレポートは、5 つの新しいエッジデバイスのベンチマーク評価です。さまざまなフレームワークとモデルを使用して、どの組み合わせが最も効果的かをテストしました。エッジでの機械学習のパフォーマンス結果に焦点を当てます。

エッジコンピューティングとは何ですか?

エッジコンピューティングでは、データ処理タスクを、データソースにできるだけ近いネットワークエッジのデバイスに配置します。このタイプのコンピューティングは、非常に高速なリアルタイムのデータ処理を実現できるため、機械学習機能を備えた多くの複雑な IoT ソリューションに必須の機能です。これを基に、エッジコンピューティングはネットワークの負荷を軽減し、エネルギー消費を削減し、セキュリティを強化し、データのプライバシーを向上させることができます。

この新しいパラダイムを使用すると、エッジでの機械学習に最適化された特殊なハードウェアとソフトウェアライブラリを組み合わせることで、大規模に展開できる最先端のアプリケーションと製品を実現できます。

このようなアプリケーションを構築する際の最大の課題は、オーディオ、ビデオ、および画像処理タスクから生じます。ディープラーニング技術はこれらの困難を克服するのに非常に効果的であることがわかりました。

エッジでのディープラーニングの実現

自動運転車を例に挙げてみましょう。自動運転車は周囲の世界を解釈し、数ミリ秒以内に行動を起こせるよう、入ってくるデータを迅速かつ継続的に分析する必要があります。この時間的制約は、データストリームの処理をクラウドに依存できず、処理をローカルで行う必要があることを意味します。

しかし、ローカル処理には欠点もあります。ハードウェアはクラウド内のスーパーコンピューターほど強力ではなく、精度と速度を妥協することはできません。

この問題の解決策は、より強力で効率的なハードウェアを使用するか、そのような複雑なハードウェアを使用しないことです。ディープニューラルネットワーク。最良の結果を得るには、この 2 つのバランスを見つける必要があります。

したがって、答えるべき本当の質問は次のとおりです。

ディープラーニングアルゴリズムの精度と速度を最大化するには、どのエッジハードウェアとどのタイプのネットワークを組み合わせる必要がありますか?

両者の最適な組み合わせを見つける旅の中で、私たちは現在最高のエッジデバイスをさまざまなものと比較します。ディープニューラルネットワークモデルの組み合わせ。

新しいエッジデバイスベンチマーク

最も革新的なユースケースを探求します。ここでは、一度に 1 つずつ画像分類タスクを実行して、1 秒あたりに処理されるフレームのおおよその数を取得することにより、リアルタイム推論スループットを測定します。

ImagenetV2データセットの特定のサブセット上のすべてのクラスにおけるトップ1推論精度を具体的に評価し、その結果をいくつかの畳み込みニューラルネットワーク比較のためのモデル。また、さまざまなフレームワークと最適化されたバージョンを試してみました。

ハードウェアアクセラレータ

過去数年間、既存のエッジハードウェアを改善するために多くの作業が行われてきましたが、私たちはいくつかの新しいタイプのデバイスを実験することにしました。

エヌビディアジェットソンナノ
Google Coral 開発委員会
インテルニューラルコンピュートスティック
Raspberry Pi（参考上限）
Nvidia 2080ti GPU (参考下限)

実験には Raspberry Pi と Nvidia 2080ti が含まれ、テスト対象のハードウェアを、エッジデバイスである Raspberry Pi とクラウドで一般的に使用されている Nvidia 2080ti GPU などのよく知られたシステムと比較します。

この下限は単純です。私たち Tryolabs では、独自のディープラーニングモデルを設計し、トレーニングしています。したがって、利用できる計算能力は膨大です。それでもちろんそれを使いました。推論時間の下限を決定するために、NVIDIA 2080ti GPU でテストを実行しました。ただし、あくまでも参考用として使用していたため、最適化せずにベースモデルでテストを実行しました。

上限については、ディフェンディングチャンピオンである最も人気のあるシングルボードコンピューター、Raspberry Pi 3B を選択しました。

ニューラルネットワークモデル

今回のベンチマークには、主に 2 種類のネットワークが含まれています。古くてよく知られている Resnet-50 と、今年 Google がリリースした最新の EfficientNet です。

すべてのベンチマークでは、公開されている事前トレーニング済みモデルを使用し、さまざまなフレームワークを使用して実行しました。 NVIDIA Jetson では TensorRT の最適化を試し、Raspberry Pi では TensorFlow と PyTorch のバリアントを使用しました。Coral デバイスでは、S、M、L EfficientNet モデルの Edge TPU エンジンバージョンを実装しました。Intel Neural Compute Stick では、OpenVINO ツールキットでコンパイルされた Resnet-50 を使用しました。

データセット

すべてのモデルは ImageNet データセットでトレーニングされるため、ImageNet V2 MatchedFrequency を使用します。 1000 個のカテゴリーに分かれた 10000 枚の画像が含まれています。

各画像に対して推論を 1 回実行し、推論時間を保存して平均化します。すべてのテストのトップ 1 の精度と、特定のモデルのトップ 5 の精度を計算しました。

トップ 1 精度: これは一般的な精度です。つまり、モデルの回答 (最も高い確率を持つもの) は、予想される回答と正確に等しくなければなりません。

トップ 5 の精度: これは、モデルからの最も高い確率を持つ上位 5 つの回答のいずれかが、予想される回答と一致することを意味します。

結果を比較する際は、高速なデバイスとモデルの組み合わせではデータセット全体をカバーするテストを実行したのに対し、低速な組み合わせではデータセットの一部のみを使用したことに留意してください。

結果と分析

下の図は、実験から得られたメトリックを示しています。機種やデバイスによって推論時間に大きな差があるため、平均推論時間は対数形式で表示されます。

推論時間で1位： Jetson Nano

推論時間に関しては、ResNet-50、TensorRT、PyTorch の組み合わせを使用する Jetson Nano が勝っています。この組み合わせにより、1 つの画像が 2.67 ミリ秒、つまり 1 秒あたり 375 フレームで処理されます。

この結果は、NVIDIA が発表した推論速度の 10 倍も速いため、驚くべきものです。結果に違いが生じた理由は、おそらく Nvidia が PyTorch ではなく TensorFlow を使用したためでしょう。

推理タイム2位：コーラル開発ボード

2 位は、EfficientNet-S とペアになる Coral 開発ボードです。 1 枚の画像を処理するには 5.42 秒、つまり 1 秒あたり 185 フレームかかります。

この結果は、1フレームを完了するのに5.5ミリ秒、1秒あたり182フレームというGoogleが発表した速度とほぼ同じです。

この組み合わせは速度は速いですが、精度は低いです。 Google が精度を報告するために使用する検証セットを正確には知りませんが、Google は私たちとは異なる画像前処理変換を使用していると思われます。量子化された 8 ビットモデルは画像の前処理に非常に敏感なので、結果に大きな影響を与える可能性があります。

精度1位： Jetson Nano

精度の点では、Jetson Nano と TF-TRT および EfficentNet-B3 の組み合わせが最高の結果となり、85% の精度を達成しました。ただし、一部のモデルは他のモデルよりも大きなデータセットを使用してトレーニングされたため、これらの結果は相対的なものです。

モデルに小さいデータセットを入力すると精度が高くなり、完全なデータセットを使用すると精度が低くなることがわかります。この結果の理由は、小さいデータセットの順序をランダム化しなかったため、その中の画像のバランスが適切に取れていなかったためです。

ハードウェアアクセラレータの可用性

開発者は、これらのデバイスの使いやすさに関していくつかの重要な違いに気づきました。

事前にコンパイルされたモデルとフレームワークを選択して展開する場合。 Jetson は最も柔軟性があります。 Intel Neural Compute Stick は、優れたライブラリ、多数のモデル、優れたプロジェクトを提供するため、2 位にランクされています。さらに、このコンピュートスティックの第 2 世代は、第 1 世代に比べて大幅に改善されています。唯一の欠点は、大規模なソフトウェアライブラリ OpenVINO が Ubuntu 16.04 でのみサポートされており、それより新しい Linux OS バージョンではサポートされていないことです。

Jetson や Intel Compute Stick と比較すると、Coral デバイスにはいくつかの制限があります。非公式モデルを実行する場合は、TensorFlowLite に変換してから、Edge TPU 用に量子化してコンパイルする必要があります。モデルによっては、この変換ができない場合があります。それでも、Google が将来のバージョンでこのデバイスを改善することを期待しています。