AIチップアーキテクチャは最先端へ向かう

AIチップアーキテクチャは最先端へ向かう

企業は、AI をエッジに押し上げるための最適な武器として、さまざまなチップ アーキテクチャを採用しようと競い合っています。

機械学習アプリケーションがエンドデバイスや IoT ネットワークのエッジに登場し始めると、AI を実装するアクセラレータは、Intel や Nvidia の現在のデータセンター向けチップよりも、FPGA や SoC モジュールに似たものになる可能性があります。

[[253779]]

人工知能と機械学習では、大規模なデータセットから答えを計算するために強力なチップが必要です。ほとんどの AI チップ (トレーニング用と推論用の両方) は、データ センター向けに開発されています。しかし、この傾向はすぐに変わるでしょう。この処理の多くは、ネットワークのエッジ、またはセンサーやセンサー アレイの内部や近くで発生します。

トレーニングはほぼ間違いなくクラウドに残るでしょう。この大量のリソースに対して最も効率的な製品は、市場のこの部分を独占している Nvidia の GPU だからです。データ センターは大規模なデータセットのトレーニング部分を引き受けるかもしれませんが、推論は最終的にはエッジに引き渡される可能性があります。市場予測は一致しているようだ。

「推論ハードウェア市場は新しいが、急速に変化している」と、Tractica のリサーチ ディレクターでエッジ AI レポートの著者である Aditya Kaul 氏は言う。「データ センターにはいくつかのチャンスがあり、今後も存在し続けるだろう。クラウドベースのデータ センター AI チップ市場は成長を続けるだろう。しかし、推論はエッジにあり、そこではそれが魅力的になり始める。少なくとも 70 社の AI 専門企業が、チップに関連する何らかの AI テクノロジーに取り組んでいる。」

「エッジでは、スマートフォン、ロボット、ドローン、カメラ、防犯カメラなど、AI処理を必要とするあらゆるものが将来的に注目の話題になるだろう」とカウル氏は語った。

図 1: 市場セグメント別のディープラーニング チップセットの収益。 (出典: Tractica)

2025 年までに、クラウドベースの AI チップセットは 146 億ドルの収益をもたらし、エッジベースの AI チップセットはデータセンターの 3.5 倍の 516 億ドルの収益をもたらすと予想されます。エッジ AI チップセットは主に、携帯電話、スマートスピーカー、ドローン、AR/VR ヘッドセット、および AI 処理を必要とするその他すべてのデバイスで構成されています。

現在、データセンターベースの機械学習アプリケーションの市場はNvidiaとIntelが独占しているかもしれませんが、データセンターから離れたエッジコンピューティングAI市場を独占するのは誰でしょうか?それらのチップはどのような外観になりますか?

AIエッジチップに必要なこと

Semico Research の ASIC および SoC アナリストである Rich Wawrzyniak 氏によると、エッジ コンピューティング、IoT、および消費者向けエンド デバイスでは、比較的低い電力、価格、および小さなチップ サイズで高性能な推論処理が必要になります。特に、エッジ デバイスによって処理されるデータのほとんどが大量のビデオ データとオーディオ データであるため、これは困難です。

「大量のデータだが、監視カメラがあれば、写真をクラウドに送って誰かが犯人を認識するかどうかを待つのではなく、リアルタイムで犯人を特定できなければならない」とワウジニアック氏は語った。

図 2 (出典: バークレイズ リサーチ 2018 年 5 月レポート、ザイリンクス提供)

エッジ デバイスに ML レベルのインテリジェンスを追加したいという要望の一部は、これらのデバイス上のデータを非公開にしておく必要性や、クラウドへのデータ送信コストを削減する必要性から生じています。しかし、需要のほとんどは、エッジ コンピューティング施設にデバイスを配置したい、またはデバイスが単にデータを収集して定期的にクラウドに送信するのではなく、企業独自のデータや他の顧客や通行人とリアルタイムで直接やり取りできるようにしたいという顧客からのものです。

「顧客は、大量の処理をクラウドに移したくないと気付いており、エッジを真のターゲットと見なしています」と、NXP Semiconductors の AI 技術責任者である Markus Levy 氏は述べています。「エッジで AI を実行できるようになったため、モノのインターネットを本当に有能なものに変えることができます。当社は、消費者向け IoT、産業用 IoT、組み込みの分野で急速な成長を遂げており、これが当社の最大の成長分野です。」

IDCのアナリスト、シェーン・ラウ氏によると、IDCが今年調査したビジネステクノロジーの顧客は、機械学習を主に自動車、スマートホーム、ビデオ監視カメラ、スマートフォンなどのエッジデバイスに移行する決意をしているという。同社の顧客調査では、これら 4 つのデバイスが ML の候補としてランク付けされました。

エッジAIアーキテクチャ開発のトレンド

エッジ コンピューティングのニーズの範囲には、何億もの産業用デバイスと消費者向けデバイスが含まれる可能性があるため、単一のアーキテクチャでこれらすべてのニーズを満たすことは不可能です。

NXPのレヴィ氏は、マイクロコントローラや比較的ローエンドのチップ上で推論モデルを実行することは可能だが、ほとんどの機械学習機能には、FPGAベース、ASIC、その他のSoC構成からのオプションのCPUアドオンの長いリスト、およびGPUとCPUの組み合わせが必要であり、場合によってはGoogleのTPUのような専用ASICによって強化されることもあると述べた。

機能強化のほとんどはアクセラレータの形で提供されます。これらの FPGA、SoC、ASIC、およびその他の専用チップは、リソースが制限された x86 ベースのデバイスが、レイヤーごとに分析基準を適用して大量の画像や音声データを処理できるように設計されており、アプリは各データの値を正しく計算して重み付けすることができます。

IntelとNvidiaはすでにエッジAI市場への攻勢を開始している。カウル氏は、NVIDIAのJetsonのような製品は説得力がないと語った。 Jetson は、7.5W の電力バジェットを備えた GPU オン モジュール プラットフォームです。これは、Nvidia のより一般的な製品の 70W と比べるとほんのわずかですが、一般的に 5W を超えないエッジ アプリケーションには依然として高すぎます。

「ニューラル ネットワークのアクセラレーションを検討している IP 企業は数多くあり、エッジ デバイスでの推論にはアクセラレータが必須となり始めているほどの選択肢がある」とレヴィ氏は言う。

図 3: カテゴリ別の AI エッジ デバイスの出荷数。 (出典: Tractica)

しかし、数億台にも及ぶ可能性のあるデバイスに ML アクセラレーションとサポートを追加するには、さらなるカスタマイズ性、コストの削減、リソースが限られたデバイス上の ML アプリケーションのニーズに合わせたより具体的な仕様が必要になります。つまり、成功するには市場全体でより優れたプロセッサが必要になるということです。

ニューラル推論では、モデルが数式マトリックスの 1 つのレイヤーからデータを取得するため、数兆回の乗算と累算の操作が必要になります。ただし、各レイヤーで必要なデータ サイズは異なり、入力が 16 ビット整数ではなく 8 ビット整数として設定されていると、一部のデバイスでは実行速度が速くなる場合があります。

「データセンターで良いスループットを得るために、ほとんどのアーキテクチャは、同じウェイトセットで数十または数百のタスクを作成することに依存しています」体重が1つずつ積み込まれているのは、バッチでバッチをかけて修正することができます。サイズは常に1に等しい。パフォーマンスを測定する場合、データセンターの外側のバッチサイズは常に1に等しい。」

Flex Logix が開発したニューラル ネットワーク エンジンは、バッチ処理の問題を回避します。 「重みを非常に速くロードするため、バッチ処理する必要がなく、バッチ 1 でもバッチ 28 でもパフォーマンスは同じです。これはエッジ アプリケーションでは非常に重要です」と Tate 氏は述べています。

推論ハードウェアにおける2つの新たな取り組み

Xilinx は、FPGA とシステム レベルの設計における経験を活用して、できるだけ多くのエッジ/デバイス市場に対応する新しい製品ファミリとロードマップを発表しようとしています。

Xilinx は昨年の春にこのアイデアについて議論したが、10 月まで正式に発表しなかった。同社はこのとき、「CPU、GPU、FPGA のパワーを活用してあらゆるものを高速化する」適応型コンピューティング アクセラレーション プラットフォームについて説明した。

Xilinx のプレゼンテーションでは、幅広い製品ライン、ユースケースのリスト、従来のアプローチよりもチップ面積あたり 3 ~ 8 倍のパフォーマンスを実現し、高性能 DSP 機能を提供することを目的とした AI エンジン コアの詳細について説明しました。

一方、Flex Logix は、低い DRAM 帯域幅を使用する再構成可能なニューラル アクセラレータを開発しました。チップ面積と電力の目標仕様は来年上半期に完成し、下半期にテープアウトされる予定。推論エンジンは、単なるより大きくて見栄えの良いアクセラレータではなく、CPU として機能します。これは、データを移動する必要を減らし、データとマトリックス計算のロード方法を改善することでボトルネックを減らすことで、データ移動の時間とエネルギー コストを削減するように設計された、モジュール式のスケーラブルなアーキテクチャを提供します。

このチップは、DRAM を 1 つの大きなメモリ プールとして管理するのではなく、個々のプロセッサ ブロックに専用化します。 DRAM はチップの複数の部分に同時にデータを供給することはできません。 「DRAM を 1 つのプロセッサ ブロックに流れ込む大きなメモリ プールとして扱うのは、ヴァン ノイマン アーキテクチャの典型ですが、ニューラル ネットワークのアーキテクチャとしては成功しません」とテイト氏は語ります。

<<:  工業情報化部の李英査察官:我が国の人工知能の発展は歴史的な好機を迎えている

>>:  機械学習の教訓: 5 つの企業が失敗を共有

ブログ    
ブログ    

推薦する

ダイクストラのアルゴリズムの詳細な説明

この記事では、まず単一ソース最短経路問題から始め、次にベルマン・フォード アルゴリズムについて説明し...

中国がSORAをいかにして複製したかを、中国のチームが長文の記事で解説! 996 OpenAI研究者:SoraはビデオGPT-2の瞬間です

現在、この写真は AI コミュニティで広く流布されています。さまざまな文化ビデオ モデルの誕生時期、...

...

ロボットは銀行業務を破壊するのか?

[[223220]]世界経済フォーラムの最近のレポートでは、2020年までに先進国で500万の雇用...

快手は快易のビッグモデルの助けを借りてコメントエリアでのインテリジェントな返信を実現する「AI小快」をテスト中

快手は10月26日、「AI小快」アカウントの内部テストを正式に開始し、ショートビデオコメントエリアで...

...

...

新しいプログラミングパラダイム: Spring Boot と OpenAI の出会い

2023年にはAI技術が話題となり、プログラミングを中心に多くの分野に影響を及ぼします。 Sprin...

ベイジアンディープラーニング: ディープラーニングと確率的グラフィカルモデルを統合するフレームワーク

人工知能 (AI) の進歩により、多層のディープ ネットワークを構築し、大量のデータを学習に活用する...

マイクロソフト、医療病理学の症例を分析する LLaVA-Med AI モデルを発表

6月14日、マイクロソフトの研究者らは、主に生物医学研究に使用され、CTやX線画像に基づいて患者の病...

現代の分散ストレージシステムをサポートするアルゴリズム

アプリケーションによって処理されるデータの量が増え続けるにつれて、ストレージの拡張はますます困難にな...

...

AIでAIを守る、次世代のAIベースのサイバー脅威ソリューション

多くの関係者は、AI が「悪」の力にもなり得るという事実を受け入れ始めています。関連する海外メディア...

...