AIチップアーキテクチャは最先端へ向かう

AIチップアーキテクチャは最先端へ向かう

企業は、AI をエッジに押し上げるための最適な武器として、さまざまなチップ アーキテクチャを採用しようと競い合っています。

機械学習アプリケーションがエンドデバイスや IoT ネットワークのエッジに登場し始めると、AI を実装するアクセラレータは、Intel や Nvidia の現在のデータセンター向けチップよりも、FPGA や SoC モジュールに似たものになる可能性があります。

[[253779]]

人工知能と機械学習では、大規模なデータセットから答えを計算するために強力なチップが必要です。ほとんどの AI チップ (トレーニング用と推論用の両方) は、データ センター向けに開発されています。しかし、この傾向はすぐに変わるでしょう。この処理の多くは、ネットワークのエッジ、またはセンサーやセンサー アレイの内部や近くで発生します。

トレーニングはほぼ間違いなくクラウドに残るでしょう。この大量のリソースに対して最も効率的な製品は、市場のこの部分を独占している Nvidia の GPU だからです。データ センターは大規模なデータセットのトレーニング部分を引き受けるかもしれませんが、推論は最終的にはエッジに引き渡される可能性があります。市場予測は一致しているようだ。

「推論ハードウェア市場は新しいが、急速に変化している」と、Tractica のリサーチ ディレクターでエッジ AI レポートの著者である Aditya Kaul 氏は言う。「データ センターにはいくつかのチャンスがあり、今後も存在し続けるだろう。クラウドベースのデータ センター AI チップ市場は成長を続けるだろう。しかし、推論はエッジにあり、そこではそれが魅力的になり始める。少なくとも 70 社の AI 専門企業が、チップに関連する何らかの AI テクノロジーに取り組んでいる。」

「エッジでは、スマートフォン、ロボット、ドローン、カメラ、防犯カメラなど、AI処理を必要とするあらゆるものが将来的に注目の話題になるだろう」とカウル氏は語った。

図 1: 市場セグメント別のディープラーニング チップセットの収益。 (出典: Tractica)

2025 年までに、クラウドベースの AI チップセットは 146 億ドルの収益をもたらし、エッジベースの AI チップセットはデータセンターの 3.5 倍の 516 億ドルの収益をもたらすと予想されます。エッジ AI チップセットは主に、携帯電話、スマートスピーカー、ドローン、AR/VR ヘッドセット、および AI 処理を必要とするその他すべてのデバイスで構成されています。

現在、データセンターベースの機械学習アプリケーションの市場はNvidiaとIntelが独占しているかもしれませんが、データセンターから離れたエッジコンピューティングAI市場を独占するのは誰でしょうか?それらのチップはどのような外観になりますか?

AIエッジチップに必要なこと

Semico Research の ASIC および SoC アナリストである Rich Wawrzyniak 氏によると、エッジ コンピューティング、IoT、および消費者向けエンド デバイスでは、比較的低い電力、価格、および小さなチップ サイズで高性能な推論処理が必要になります。特に、エッジ デバイスによって処理されるデータのほとんどが大量のビデオ データとオーディオ データであるため、これは困難です。

「大量のデータだが、監視カメラがあれば、写真をクラウドに送って誰かが犯人を認識するかどうかを待つのではなく、リアルタイムで犯人を特定できなければならない」とワウジニアック氏は語った。

図 2 (出典: バークレイズ リサーチ 2018 年 5 月レポート、ザイリンクス提供)

エッジ デバイスに ML レベルのインテリジェンスを追加したいという要望の一部は、これらのデバイス上のデータを非公開にしておく必要性や、クラウドへのデータ送信コストを削減する必要性から生じています。しかし、需要のほとんどは、エッジ コンピューティング施設にデバイスを配置したい、またはデバイスが単にデータを収集して定期的にクラウドに送信するのではなく、企業独自のデータや他の顧客や通行人とリアルタイムで直接やり取りできるようにしたいという顧客からのものです。

「顧客は、大量の処理をクラウドに移したくないと気付いており、エッジを真のターゲットと見なしています」と、NXP Semiconductors の AI 技術責任者である Markus Levy 氏は述べています。「エッジで AI を実行できるようになったため、モノのインターネットを本当に有能なものに変えることができます。当社は、消費者向け IoT、産業用 IoT、組み込みの分野で急速な成長を遂げており、これが当社の最大の成長分野です。」

IDCのアナリスト、シェーン・ラウ氏によると、IDCが今年調査したビジネステクノロジーの顧客は、機械学習を主に自動車、スマートホーム、ビデオ監視カメラ、スマートフォンなどのエッジデバイスに移行する決意をしているという。同社の顧客調査では、これら 4 つのデバイスが ML の候補としてランク付けされました。

エッジAIアーキテクチャ開発のトレンド

エッジ コンピューティングのニーズの範囲には、何億もの産業用デバイスと消費者向けデバイスが含まれる可能性があるため、単一のアーキテクチャでこれらすべてのニーズを満たすことは不可能です。

NXPのレヴィ氏は、マイクロコントローラや比較的ローエンドのチップ上で推論モデルを実行することは可能だが、ほとんどの機械学習機能には、FPGAベース、ASIC、その他のSoC構成からのオプションのCPUアドオンの長いリスト、およびGPUとCPUの組み合わせが必要であり、場合によってはGoogleのTPUのような専用ASICによって強化されることもあると述べた。

機能強化のほとんどはアクセラレータの形で提供されます。これらの FPGA、SoC、ASIC、およびその他の専用チップは、リソースが制限された x86 ベースのデバイスが、レイヤーごとに分析基準を適用して大量の画像や音声データを処理できるように設計されており、アプリは各データの値を正しく計算して重み付けすることができます。

IntelとNvidiaはすでにエッジAI市場への攻勢を開始している。カウル氏は、NVIDIAのJetsonのような製品は説得力がないと語った。 Jetson は、7.5W の電力バジェットを備えた GPU オン モジュール プラットフォームです。これは、Nvidia のより一般的な製品の 70W と比べるとほんのわずかですが、一般的に 5W を超えないエッジ アプリケーションには依然として高すぎます。

「ニューラル ネットワークのアクセラレーションを検討している IP 企業は数多くあり、エッジ デバイスでの推論にはアクセラレータが必須となり始めているほどの選択肢がある」とレヴィ氏は言う。

図 3: カテゴリ別の AI エッジ デバイスの出荷数。 (出典: Tractica)

しかし、数億台にも及ぶ可能性のあるデバイスに ML アクセラレーションとサポートを追加するには、さらなるカスタマイズ性、コストの削減、リソースが限られたデバイス上の ML アプリケーションのニーズに合わせたより具体的な仕様が必要になります。つまり、成功するには市場全体でより優れたプロセッサが必要になるということです。

ニューラル推論では、モデルが数式マトリックスの 1 つのレイヤーからデータを取得するため、数兆回の乗算と累算の操作が必要になります。ただし、各レイヤーで必要なデータ サイズは異なり、入力が 16 ビット整数ではなく 8 ビット整数として設定されていると、一部のデバイスでは実行速度が速くなる場合があります。

「データセンターで良いスループットを得るために、ほとんどのアーキテクチャは、同じウェイトセットで数十または数百のタスクを作成することに依存しています」体重が1つずつ積み込まれているのは、バッチでバッチをかけて修正することができます。サイズは常に1に等しい。パフォーマンスを測定する場合、データセンターの外側のバッチサイズは常に1に等しい。」

Flex Logix が開発したニューラル ネットワーク エンジンは、バッチ処理の問題を回避します。 「重みを非常に速くロードするため、バッチ処理する必要がなく、バッチ 1 でもバッチ 28 でもパフォーマンスは同じです。これはエッジ アプリケーションでは非常に重要です」と Tate 氏は述べています。

推論ハードウェアにおける2つの新たな取り組み

Xilinx は、FPGA とシステム レベルの設計における経験を活用して、できるだけ多くのエッジ/デバイス市場に対応する新しい製品ファミリとロードマップを発表しようとしています。

Xilinx は昨年の春にこのアイデアについて議論したが、10 月まで正式に発表しなかった。同社はこのとき、「CPU、GPU、FPGA のパワーを活用してあらゆるものを高速化する」適応型コンピューティング アクセラレーション プラットフォームについて説明した。

Xilinx のプレゼンテーションでは、幅広い製品ライン、ユースケースのリスト、従来のアプローチよりもチップ面積あたり 3 ~ 8 倍のパフォーマンスを実現し、高性能 DSP 機能を提供することを目的とした AI エンジン コアの詳細について説明しました。

一方、Flex Logix は、低い DRAM 帯域幅を使用する再構成可能なニューラル アクセラレータを開発しました。チップ面積と電力の目標仕様は来年上半期に完成し、下半期にテープアウトされる予定。推論エンジンは、単なるより大きくて見栄えの良いアクセラレータではなく、CPU として機能します。これは、データを移動する必要を減らし、データとマトリックス計算のロード方法を改善することでボトルネックを減らすことで、データ移動の時間とエネルギー コストを削減するように設計された、モジュール式のスケーラブルなアーキテクチャを提供します。

このチップは、DRAM を 1 つの大きなメモリ プールとして管理するのではなく、個々のプロセッサ ブロックに専用化します。 DRAM はチップの複数の部分に同時にデータを供給することはできません。 「DRAM を 1 つのプロセッサ ブロックに流れ込む大きなメモリ プールとして扱うのは、ヴァン ノイマン アーキテクチャの典型ですが、ニューラル ネットワークのアーキテクチャとしては成功しません」とテイト氏は語ります。

<<:  工業情報化部の李英査察官:我が国の人工知能の発展は歴史的な好機を迎えている

>>:  機械学習の教訓: 5 つの企業が失敗を共有

ブログ    
ブログ    

推薦する

ChatGPT は検索エンジンに取って代わることができますか?

ChatGPT は、いくつかの簡単な問題のタスクを完璧に完了できます。しかし、AI に記事全体を書...

資本から絶大な支持を受ける人工知能が、なぜ金融分野で壁にぶつかっているのか。

マーフィー著昨年のAlphaGo、今年のLibratusと、さまざまな業界で「人工知能」のトレンドが...

AIが米国の8年生の理科テストに高得点で合格。常識や推論の問題を解くことができ、同じ舞台でAIと競争する準備が整った。

8年生の理科のテストに60点で合格すれば、8万ドル(57万人民元相当)の賞金を獲得できます。 [[...

顔認識は普及しつつあるのに、なぜ禁止されているのでしょうか?

顔認識は誰もが知っている技術です。iPhoneのFace IDからAlipayの顔認証決済まで、かつ...

未来を待つ必要はありません。分析と AI の災害はすでに起こっています。

データと機械学習アルゴリズムから得られる洞察は非常に貴重ですが、ミスは評判、収益、さらには命を奪う可...

教育におけるAIの想像力と限界

広東省の有名な重点中学校である広亜中学校は最近、電子ブレスレット3,500個を購入するために485万...

...

人工知能の応用: 病気を予測し治療を改善する 3 つの新しい方法

医療における AI の興味深い応用例の 1 つは、治療が患者に及ぼす潜在的な影響を予測することです。...

Google、異常ケース検出のターンアラウンド時間を28%短縮できるAIシステムを開発

最近、Google チームのもう一つの主要な研究成果が Nature 誌に掲載されました。研究成果は...

...

...

清華大学の光電子コンピューティングにおける新たなブレークスルー:チップの性能が1万倍向上、研究がネイチャー誌でトップに

各種の大規模モデルやディープニューラルネットワークの登場により、人工知能の発展に対応し、高い計算能力...

彼は17歳でiOSの脱獄の父となり、25歳で自動運転車を開発した。

[[271960]]彼は5歳の時に初めてコンピュータプログラムを書きました。14歳の時、自作のマッ...