最先端のディープラーニングデバイスのベンチマーク:Nvidia Jetson Nanoが勝利

最先端のディープラーニングデバイスのベンチマーク:Nvidia Jetson Nanoが勝利

エッジ コンピューティングは、急成長しているモノのインターネットの成長に不可欠です。最近、機械学習とデータサイエンスのコンサルティング会社である Tryolabs は、機械学習向けに設計された 3 つのエッジ コンピューティング デバイス (NVIDIA Jetson Nano、Google Coral 開発ボード (Edge TPU 内蔵)、Intel Neural Compute Stick) と、それらのさまざまな機械学習モデルとの組み合わせをテストして比較したベンチマーク評価レポートを発表しました。結果は、推論時間と精度の両方において、Nvidia の Jetson Nano が明らかに勝者であることを示しています。さらに、参考までにRaspberry Pi 3BとNVIDIA 2080ti GPUでの結果も示されました。

エッジコンピューティングはなぜ必要なのでしょうか?

人類はかつてないほど多くのデータを生成し、収集しています。私たちのポケットの中のデバイスは、写真、GPS 座標、音声、そして意図的か否かにかかわらず私たちが公開するあらゆる種類の個人情報など、膨大な量のデータを生成します。

さらに、私たちは自分自身に関連するデータを生成するだけでなく、交通や旅行の制御システム、ビデオ監視ユニット、衛星、スマートカー、その他無数のスマートデバイスなど、他の多くの場所から未知のデータも収集します。

データ増加の傾向はすでに形成されており、今後も指数関数的に拡大し続けるでしょう。データポイントに関して、国際データコンサルティング会社 (IDC) は、世界のデータ総量が 2019 年の 33 ZB から 2025 年には 175 ZB に増加し、年間成長率は 61% になると予測しています。

当社はこれまで常に、最初はデータセンターで、次にクラウドでデータを処理してきましたが、これらのソリューションは大量のデータを扱う要求の厳しいタスクには適していませんでした。ネットワークのパフォーマンスと速度は新たな限界を押し広げ続けており、新しいソリューションの必要性が生まれています。今こそエッジコンピューティングとエッジデバイスの時代の始まりです。

このレポートは、5 つの新しいエッジ デバイスのベンチマーク評価です。さまざまなフレームワークとモデルを使用して、どの組み合わせが最も効果的かをテストしました。エッジでの機械学習のパフォーマンス結果に焦点を当てます。

エッジコンピューティングとは何ですか?

エッジ コンピューティングでは、データ処理タスクを、データ ソースにできるだけ近いネットワーク エッジのデバイスに配置します。このタイプのコンピューティングは、非常に高速なリアルタイムのデータ処理を実現できるため、機械学習機能を備えた多くの複雑な IoT ソリューションに必須の機能です。これを基に、エッジ コンピューティングはネットワークの負荷を軽減し、エネルギー消費を削減し、セキュリティを強化し、データのプライバシーを向上させることができます。

この新しいパラダイムを使用すると、エッジでの機械学習に最適化された特殊なハードウェアとソフトウェア ライブラリを組み合わせることで、大規模に展開できる最先端のアプリケーションと製品を実現できます。

このようなアプリケーションを構築する際の最大の課題は、オーディオ、ビデオ、および画像処理タスクから生じます。ディープラーニング技術はこれらの困難を克服するのに非常に効果的であることがわかりました。

エッジでのディープラーニングの実現

自動運転車を例に挙げてみましょう。自動運転車は周囲の世界を解釈し、数ミリ秒以内に行動を起こせるよう、入ってくるデータを迅速かつ継続的に分析する必要があります。この時間的制約は、データ ストリームの処理をクラウドに依存できず、処理をローカルで行う必要があることを意味します。

しかし、ローカル処理には欠点もあります。ハードウェアはクラウド内のスーパーコンピューターほど強力ではなく、精度と速度を妥協することはできません。

この問題の解決策は、より強力で効率的なハードウェアを使用するか、そのような複雑なハードウェアを使用しないことです。  ディープニューラルネットワーク  最良の結果を得るには、この 2 つのバランスを見つける必要があります。

したがって、答えるべき本当の質問は次のとおりです。

ディープラーニング アルゴリズムの精度と速度を最大化するには、どのエッジ ハードウェアとどのタイプのネットワークを組み合わせる必要がありますか?

両者の最適な組み合わせを見つける旅の中で、私たちは現在最高のエッジデバイスをさまざまなものと比較します。ディープニューラルネットワークモデルの組み合わせ。

新しいエッジデバイスベンチマーク

最も革新的なユースケースを探求します。ここでは、一度に 1 つずつ画像分類タスクを実行して、1 秒あたりに処理されるフレームのおおよその数を取得することにより、リアルタイム推論スループットを測定します。

ImagenetV2データセットの特定のサブセット上のすべてのクラスにおけるトップ1推論精度を具体的に評価し、その結果をいくつかの畳み込みニューラルネットワーク比較のためのモデル。また、さまざまなフレームワークと最適化されたバージョンを試してみました。

ハードウェアアクセラレータ

過去数年間、既存のエッジ ハードウェアを改善するために多くの作業が行われてきましたが、私たちはいくつかの新しいタイプのデバイスを実験することにしました。

  • エヌビディア ジェットソン ナノ

  • Google Coral 開発委員会

  • インテル ニューラル コンピュート スティック

  • Raspberry Pi(参考上限)

  • Nvidia 2080ti GPU (参考下限)

実験には Raspberry Pi と Nvidia 2080ti が含まれ、テスト対象のハードウェアを、エッジ デバイスである Raspberry Pi とクラウドで一般的に使用されている Nvidia 2080ti GPU などのよく知られたシステムと比較します。

この下限は単純です。私たち Tryolabs では、独自のディープラーニング モデルを設計し、トレーニングしています。したがって、利用できる計算能力は膨大です。それでもちろんそれを使いました。推論時間の下限を決定するために、NVIDIA 2080ti GPU でテストを実行しました。ただし、あくまでも参考用として使用していたため、最適化せずにベース モデルでテストを実行しました。

上限については、ディフェンディングチャンピオンである最も人気のあるシングルボードコンピューター、Raspberry Pi 3B を選択しました。

ニューラルネットワークモデル

今回のベンチマークには、主に 2 種類のネットワークが含まれています。古くてよく知られている Resnet-50 と、今年 Google がリリースした最新の EfficientNet です。

すべてのベンチマークでは、公開されている事前トレーニング済みモデルを使用し、さまざまなフレームワークを使用して実行しました。 NVIDIA Jetson では TensorRT の最適化を試し、Raspberry Pi では TensorFlow と PyTorch のバリアントを使用しました。Coral デバイスでは、S、M、L EfficientNet モデルの Edge TPU エンジン バージョンを実装しました。Intel Neural Compute Stick では、OpenVINO ツールキットでコンパイルされた Resnet-50 を使用しました。

データセット

すべてのモデルは ImageNet データセットでトレーニングされるため、ImageNet V2 MatchedFrequency を使用します。 1000 個のカテゴリーに分かれた 10000 枚の画像が含まれています。

各画像に対して推論を 1 回実行し、推論時間を保存して平均化します。すべてのテストのトップ 1 の精度と、特定のモデルのトップ 5 の精度を計算しました。

トップ 1 精度: これは一般的な精度です。つまり、モデルの回答 (最も高い確率を持つもの) は、予想される回答と正確に等しくなければなりません。

トップ 5 の精度: これは、モデルからの最も高い確率を持つ上位 5 つの回答のいずれかが、予想される回答と一致することを意味します。

結果を比較する際は、高速なデバイスとモデルの組み合わせではデータセット全体をカバーするテストを実行したのに対し、低速な組み合わせではデータセットの一部のみを使用したことに留意してください。

結果と分析

下の図は、実験から得られたメトリックを示しています。機種やデバイスによって推論時間に大きな差があるため、平均推論時間は対数形式で表示されます。

推論時間で1位: Jetson Nano

推論時間に関しては、ResNet-50、TensorRT、PyTorch の組み合わせを使用する Jetson Nano が勝っています。この組み合わせにより、1 つの画像が 2.67 ミリ秒、つまり 1 秒あたり 375 フレームで処理されます。

この結果は、NVIDIA が発表した推論速度の 10 倍も速いため、驚くべきものです。結果に違いが生じた理由は、おそらく Nvidia が PyTorch ではなく TensorFlow を使用したためでしょう。

推理タイム2位:コーラル開発ボード

2 位は、EfficientNet-S とペアになる Coral 開発ボードです。 1 枚の画像を処理するには 5.42 秒、つまり 1 秒あたり 185 フレームかかります。

この結果は、1フレームを完了するのに5.5ミリ秒、1秒あたり182フレームというGoogleが発表した速度とほぼ同じです。

この組み合わせは速度は速いですが、精度は低いです。 Google が精度を報告するために使用する検証セットを正確には知りませんが、Google は私たちとは異なる画像前処理変換を使用していると思われます。量子化された 8 ビット モデルは画像の前処理に非常に敏感なので、結果に大きな影響を与える可能性があります。

精度1位: Jetson Nano

精度の点では、Jetson Nano と TF-TRT および EfficentNet-B3 の組み合わせが最高の結果となり、85% の精度を達成しました。ただし、一部のモデルは他のモデルよりも大きなデータセットを使用してトレーニングされたため、これらの結果は相対的なものです。

モデルに小さいデータセットを入力すると精度が高くなり、完全なデータセットを使用すると精度が低くなることがわかります。この結果の理由は、小さいデータセットの順序をランダム化しなかったため、その中の画像のバランスが適切に取れていなかったためです。

ハードウェアアクセラレータの可用性

開発者は、これらのデバイスの使いやすさに関していくつかの重要な違いに気づきました。

事前にコンパイルされたモデルとフレームワークを選択して展開する場合。 Jetson は最も柔軟性があります。 Intel Neural Compute Stick は、優れたライブラリ、多数のモデル、優れたプロジェクトを提供するため、2 位にランクされています。さらに、このコンピュート スティックの第 2 世代は、第 1 世代に比べて大幅に改善されています。唯一の欠点は、大規模なソフトウェア ライブラリ OpenVINO が Ubuntu 16.04 でのみサポートされており、それより新しい Linux OS バージョンではサポートされていないことです。

Jetson や Intel Compute Stick と比較すると、Coral デバイスにはいくつかの制限があります。非公式モデルを実行する場合は、TensorFlowLite に変換してから、Edge TPU 用に量子化してコンパイルする必要があります。モデルによっては、この変換ができない場合があります。それでも、Google が将来のバージョンでこのデバイスを改善することを期待しています。

要約する

ここでの研究は、ディープラーニング アルゴリズム用に設計された現在の最高のエッジ コンピューティング デバイスの調査に基づいています。

Jetson Nano ボードと Coral ボードは推論時間の点で非常に優れたパフォーマンスを発揮することがわかりました。

精度の点では、Jetson Nano のパフォーマンスも良好でしたが、この結果は相対的なものです。

全体的なパフォーマンスから判断すると、Jetson Nano が文句なしの勝者です。

ただし、Jetson Nano と Coral の設計が異なるため、両方で同じモデルをテストすることはできなかったことに注意してください。私たちは、達成される特定のタスクに応じて、各デバイスがそれぞれの使用事例に最適であると考えています。

<<:  2019 年に人工知能アルゴリズムのポジションをめぐる競争がこれほど激しいのはなぜでしょうか?

>>:  ニューラル機械翻訳のための談話レベルの単一言語修正モデル

ブログ    
ブログ    

推薦する

2020 年に注目すべき 6 つの機械学習のユースケース

2020 年には人工知能 (AI) が飛躍的に進歩し、機械学習はこのテクノロジーの最も成功し、広く普...

...

人工知能には関連する専門家の参加も必要です!これはより良く、より速くなります

機械にはハードウェアだけでなくソフトウェアもあります。ハードウェアには材料や電力の問題が必要ですが、...

Googleは、ニュースコンテンツを作成するために生成AIツールを使用するためにいくつかの出版社と提携していると報じられている。

2月28日、Adweekは、Googleがいくつかの出版社と、ニュースコンテンツを作成するための新...

最新のAIはプログラマーを失業させるでしょうか?

現在、AI は追加のトレーニングを必要とせずに、任意の言語でコーディングできます。 [[334827...

TF Learn: Scikit-learn と TensorFlow をベースにしたディープラーニング ツール

[51CTO.comより引用] 海外のデータサイエンス市場に詳しい人なら誰でも、2017年に海外のデ...

...

機械学習と脳科学が次の10年間の教育発展をリードする

[51CTO.comよりオリジナル記事] 昨今人気の技術として、産業界における人工知能の応用が徐々に...

AIと遊ぶ4つの簡単な方法

適切なプロンプトを作成する技術を習得することが、ChatGPT のような AI ベースのプロンプト ...

DeLu Deep Vision: 3Dマシンビジョンに焦点を当て、セキュリティの「スマートアイ」を照らす

[[283588]] [51CTO.comより]先日、「勢いの刷新と知能の統合」をテーマにした世界人...

人工知能におけるコンピュータビジョンとは

人工知能(AI)には、「学習意欲を持つインテリジェントエージェント」の開発が伴います。さまざまなアク...

2 ステップで 25 フレームの高品質アニメーションを生成 (SVD の 8% として計算) | オンラインでプレイ可能

消費されるコンピューティング リソースは、従来の Stable Video Diffusion (S...

...

...

ARMの機能によりIBMの包括的なAI自動化ポートフォリオが強化される

Turbonomic の買収計画により、IBM はビジネスと IT 全体にわたって人工知能の自動化機...