AIチップアーキテクチャは最先端へ向かう

企業は、AI をエッジに押し上げるための最適な武器として、さまざまなチップアーキテクチャを採用しようと競い合っています。

機械学習アプリケーションがエンドデバイスや IoT ネットワークのエッジに登場し始めると、AI を実装するアクセラレータは、Intel や Nvidia の現在のデータセンター向けチップよりも、FPGA や SoC モジュールに似たものになる可能性があります。

[[253779]]

人工知能と機械学習では、大規模なデータセットから答えを計算するために強力なチップが必要です。ほとんどの AI チップ (トレーニング用と推論用の両方) は、データセンター向けに開発されています。しかし、この傾向はすぐに変わるでしょう。この処理の多くは、ネットワークのエッジ、またはセンサーやセンサーアレイの内部や近くで発生します。

トレーニングはほぼ間違いなくクラウドに残るでしょう。この大量のリソースに対して最も効率的な製品は、市場のこの部分を独占している Nvidia の GPU だからです。データセンターは大規模なデータセットのトレーニング部分を引き受けるかもしれませんが、推論は最終的にはエッジに引き渡される可能性があります。市場予測は一致しているようだ。

「推論ハードウェア市場は新しいが、急速に変化している」と、Tractica のリサーチディレクターでエッジ AI レポートの著者である Aditya Kaul 氏は言う。「データセンターにはいくつかのチャンスがあり、今後も存在し続けるだろう。クラウドベースのデータセンター AI チップ市場は成長を続けるだろう。しかし、推論はエッジにあり、そこではそれが魅力的になり始める。少なくとも 70 社の AI 専門企業が、チップに関連する何らかの AI テクノロジーに取り組んでいる。」

「エッジでは、スマートフォン、ロボット、ドローン、カメラ、防犯カメラなど、AI処理を必要とするあらゆるものが将来的に注目の話題になるだろう」とカウル氏は語った。

図 1: 市場セグメント別のディープラーニングチップセットの収益。 (出典: Tractica)

2025 年までに、クラウドベースの AI チップセットは 146 億ドルの収益をもたらし、エッジベースの AI チップセットはデータセンターの 3.5 倍の 516 億ドルの収益をもたらすと予想されます。エッジ AI チップセットは主に、携帯電話、スマートスピーカー、ドローン、AR/VR ヘッドセット、および AI 処理を必要とするその他すべてのデバイスで構成されています。

現在、データセンターベースの機械学習アプリケーションの市場はNvidiaとIntelが独占しているかもしれませんが、データセンターから離れたエッジコンピューティングAI市場を独占するのは誰でしょうか?それらのチップはどのような外観になりますか?

AIエッジチップに必要なこと

Semico Research の ASIC および SoC アナリストである Rich Wawrzyniak 氏によると、エッジコンピューティング、IoT、および消費者向けエンドデバイスでは、比較的低い電力、価格、および小さなチップサイズで高性能な推論処理が必要になります。特に、エッジデバイスによって処理されるデータのほとんどが大量のビデオデータとオーディオデータであるため、これは困難です。

「大量のデータだが、監視カメラがあれば、写真をクラウドに送って誰かが犯人を認識するかどうかを待つのではなく、リアルタイムで犯人を特定できなければならない」とワウジニアック氏は語った。

図 2 (出典: バークレイズリサーチ 2018 年 5 月レポート、ザイリンクス提供)

エッジデバイスに ML レベルのインテリジェンスを追加したいという要望の一部は、これらのデバイス上のデータを非公開にしておく必要性や、クラウドへのデータ送信コストを削減する必要性から生じています。しかし、需要のほとんどは、エッジコンピューティング施設にデバイスを配置したい、またはデバイスが単にデータを収集して定期的にクラウドに送信するのではなく、企業独自のデータや他の顧客や通行人とリアルタイムで直接やり取りできるようにしたいという顧客からのものです。

「顧客は、大量の処理をクラウドに移したくないと気付いており、エッジを真のターゲットと見なしています」と、NXP Semiconductors の AI 技術責任者である Markus Levy 氏は述べています。「エッジで AI を実行できるようになったため、モノのインターネットを本当に有能なものに変えることができます。当社は、消費者向け IoT、産業用 IoT、組み込みの分野で急速な成長を遂げており、これが当社の最大の成長分野です。」

IDCのアナリスト、シェーン・ラウ氏によると、IDCが今年調査したビジネステクノロジーの顧客は、機械学習を主に自動車、スマートホーム、ビデオ監視カメラ、スマートフォンなどのエッジデバイスに移行する決意をしているという。同社の顧客調査では、これら 4 つのデバイスが ML の候補としてランク付けされました。

エッジAIアーキテクチャ開発のトレンド

エッジコンピューティングのニーズの範囲には、何億もの産業用デバイスと消費者向けデバイスが含まれる可能性があるため、単一のアーキテクチャでこれらすべてのニーズを満たすことは不可能です。

NXPのレヴィ氏は、マイクロコントローラや比較的ローエンドのチップ上で推論モデルを実行することは可能だが、ほとんどの機械学習機能には、FPGAベース、ASIC、その他のSoC構成からのオプションのCPUアドオンの長いリスト、およびGPUとCPUの組み合わせが必要であり、場合によってはGoogleのTPUのような専用ASICによって強化されることもあると述べた。

機能強化のほとんどはアクセラレータの形で提供されます。これらの FPGA、SoC、ASIC、およびその他の専用チップは、リソースが制限された x86 ベースのデバイスが、レイヤーごとに分析基準を適用して大量の画像や音声データを処理できるように設計されており、アプリは各データの値を正しく計算して重み付けすることができます。

IntelとNvidiaはすでにエッジAI市場への攻勢を開始している。カウル氏は、NVIDIAのJetsonのような製品は説得力がないと語った。 Jetson は、7.5W の電力バジェットを備えた GPU オンモジュールプラットフォームです。これは、Nvidia のより一般的な製品の 70W と比べるとほんのわずかですが、一般的に 5W を超えないエッジアプリケーションには依然として高すぎます。

「ニューラルネットワークのアクセラレーションを検討している IP 企業は数多くあり、エッジデバイスでの推論にはアクセラレータが必須となり始めているほどの選択肢がある」とレヴィ氏は言う。

図 3: カテゴリ別の AI エッジデバイスの出荷数。 (出典: Tractica)

しかし、数億台にも及ぶ可能性のあるデバイスに ML アクセラレーションとサポートを追加するには、さらなるカスタマイズ性、コストの削減、リソースが限られたデバイス上の ML アプリケーションのニーズに合わせたより具体的な仕様が必要になります。つまり、成功するには市場全体でより優れたプロセッサが必要になるということです。

ニューラル推論では、モデルが数式マトリックスの 1 つのレイヤーからデータを取得するため、数兆回の乗算と累算の操作が必要になります。ただし、各レイヤーで必要なデータサイズは異なり、入力が 16 ビット整数ではなく 8 ビット整数として設定されていると、一部のデバイスでは実行速度が速くなる場合があります。

「データセンターで良いスループットを得るために、ほとんどのアーキテクチャは、同じウェイトセットで数十または数百のタスクを作成することに依存しています」体重が1つずつ積み込まれているのは、バッチでバッチをかけて修正することができます。サイズは常に1に等しい。パフォーマンスを測定する場合、データセンターの外側のバッチサイズは常に1に等しい。」

Flex Logix が開発したニューラルネットワークエンジンは、バッチ処理の問題を回避します。「重みを非常に速くロードするため、バッチ処理する必要がなく、バッチ 1 でもバッチ 28 でもパフォーマンスは同じです。これはエッジアプリケーションでは非常に重要です」と Tate 氏は述べています。

推論ハードウェアにおける2つの新たな取り組み

Xilinx は、FPGA とシステムレベルの設計における経験を活用して、できるだけ多くのエッジ/デバイス市場に対応する新しい製品ファミリとロードマップを発表しようとしています。

Xilinx は昨年の春にこのアイデアについて議論したが、10 月まで正式に発表しなかった。同社はこのとき、「CPU、GPU、FPGA のパワーを活用してあらゆるものを高速化する」適応型コンピューティングアクセラレーションプラットフォームについて説明した。

Xilinx のプレゼンテーションでは、幅広い製品ライン、ユースケースのリスト、従来のアプローチよりもチップ面積あたり 3 ～ 8 倍のパフォーマンスを実現し、高性能 DSP 機能を提供することを目的とした AI エンジンコアの詳細について説明しました。

一方、Flex Logix は、低い DRAM 帯域幅を使用する再構成可能なニューラルアクセラレータを開発しました。チップ面積と電力の目標仕様は来年上半期に完成し、下半期にテープアウトされる予定。推論エンジンは、単なるより大きくて見栄えの良いアクセラレータではなく、CPU として機能します。これは、データを移動する必要を減らし、データとマトリックス計算のロード方法を改善することでボトルネックを減らすことで、データ移動の時間とエネルギーコストを削減するように設計された、モジュール式のスケーラブルなアーキテクチャを提供します。

このチップは、DRAM を 1 つの大きなメモリプールとして管理するのではなく、個々のプロセッサブロックに専用化します。 DRAM はチップの複数の部分に同時にデータを供給することはできません。「DRAM を 1 つのプロセッサブロックに流れ込む大きなメモリプールとして扱うのは、ヴァンノイマンアーキテクチャの典型ですが、ニューラルネットワークのアーキテクチャとしては成功しません」とテイト氏は語ります。

<<: 工業情報化部の李英査察官：我が国の人工知能の発展は歴史的な好機を迎えている

>>: 機械学習の教訓: 5 つの企業が失敗を共有