AIチップアーキテクチャは最先端へ向かう

AIチップアーキテクチャは最先端へ向かう

企業は、AI をエッジに押し上げるための最適な武器として、さまざまなチップ アーキテクチャを採用しようと競い合っています。

機械学習アプリケーションがエンドデバイスや IoT ネットワークのエッジに登場し始めると、AI を実装するアクセラレータは、Intel や Nvidia の現在のデータセンター向けチップよりも、FPGA や SoC モジュールに似たものになる可能性があります。

[[253779]]

人工知能と機械学習では、大規模なデータセットから答えを計算するために強力なチップが必要です。ほとんどの AI チップ (トレーニング用と推論用の両方) は、データ センター向けに開発されています。しかし、この傾向はすぐに変わるでしょう。この処理の多くは、ネットワークのエッジ、またはセンサーやセンサー アレイの内部や近くで発生します。

トレーニングはほぼ間違いなくクラウドに残るでしょう。この大量のリソースに対して最も効率的な製品は、市場のこの部分を独占している Nvidia の GPU だからです。データ センターは大規模なデータセットのトレーニング部分を引き受けるかもしれませんが、推論は最終的にはエッジに引き渡される可能性があります。市場予測は一致しているようだ。

「推論ハードウェア市場は新しいが、急速に変化している」と、Tractica のリサーチ ディレクターでエッジ AI レポートの著者である Aditya Kaul 氏は言う。「データ センターにはいくつかのチャンスがあり、今後も存在し続けるだろう。クラウドベースのデータ センター AI チップ市場は成長を続けるだろう。しかし、推論はエッジにあり、そこではそれが魅力的になり始める。少なくとも 70 社の AI 専門企業が、チップに関連する何らかの AI テクノロジーに取り組んでいる。」

「エッジでは、スマートフォン、ロボット、ドローン、カメラ、防犯カメラなど、AI処理を必要とするあらゆるものが将来的に注目の話題になるだろう」とカウル氏は語った。

図 1: 市場セグメント別のディープラーニング チップセットの収益。 (出典: Tractica)

2025 年までに、クラウドベースの AI チップセットは 146 億ドルの収益をもたらし、エッジベースの AI チップセットはデータセンターの 3.5 倍の 516 億ドルの収益をもたらすと予想されます。エッジ AI チップセットは主に、携帯電話、スマートスピーカー、ドローン、AR/VR ヘッドセット、および AI 処理を必要とするその他すべてのデバイスで構成されています。

現在、データセンターベースの機械学習アプリケーションの市場はNvidiaとIntelが独占しているかもしれませんが、データセンターから離れたエッジコンピューティングAI市場を独占するのは誰でしょうか?それらのチップはどのような外観になりますか?

AIエッジチップに必要なこと

Semico Research の ASIC および SoC アナリストである Rich Wawrzyniak 氏によると、エッジ コンピューティング、IoT、および消費者向けエンド デバイスでは、比較的低い電力、価格、および小さなチップ サイズで高性能な推論処理が必要になります。特に、エッジ デバイスによって処理されるデータのほとんどが大量のビデオ データとオーディオ データであるため、これは困難です。

「大量のデータだが、監視カメラがあれば、写真をクラウドに送って誰かが犯人を認識するかどうかを待つのではなく、リアルタイムで犯人を特定できなければならない」とワウジニアック氏は語った。

図 2 (出典: バークレイズ リサーチ 2018 年 5 月レポート、ザイリンクス提供)

エッジ デバイスに ML レベルのインテリジェンスを追加したいという要望の一部は、これらのデバイス上のデータを非公開にしておく必要性や、クラウドへのデータ送信コストを削減する必要性から生じています。しかし、需要のほとんどは、エッジ コンピューティング施設にデバイスを配置したい、またはデバイスが単にデータを収集して定期的にクラウドに送信するのではなく、企業独自のデータや他の顧客や通行人とリアルタイムで直接やり取りできるようにしたいという顧客からのものです。

「顧客は、大量の処理をクラウドに移したくないと気付いており、エッジを真のターゲットと見なしています」と、NXP Semiconductors の AI 技術責任者である Markus Levy 氏は述べています。「エッジで AI を実行できるようになったため、モノのインターネットを本当に有能なものに変えることができます。当社は、消費者向け IoT、産業用 IoT、組み込みの分野で急速な成長を遂げており、これが当社の最大の成長分野です。」

IDCのアナリスト、シェーン・ラウ氏によると、IDCが今年調査したビジネステクノロジーの顧客は、機械学習を主に自動車、スマートホーム、ビデオ監視カメラ、スマートフォンなどのエッジデバイスに移行する決意をしているという。同社の顧客調査では、これら 4 つのデバイスが ML の候補としてランク付けされました。

エッジAIアーキテクチャ開発のトレンド

エッジ コンピューティングのニーズの範囲には、何億もの産業用デバイスと消費者向けデバイスが含まれる可能性があるため、単一のアーキテクチャでこれらすべてのニーズを満たすことは不可能です。

NXPのレヴィ氏は、マイクロコントローラや比較的ローエンドのチップ上で推論モデルを実行することは可能だが、ほとんどの機械学習機能には、FPGAベース、ASIC、その他のSoC構成からのオプションのCPUアドオンの長いリスト、およびGPUとCPUの組み合わせが必要であり、場合によってはGoogleのTPUのような専用ASICによって強化されることもあると述べた。

機能強化のほとんどはアクセラレータの形で提供されます。これらの FPGA、SoC、ASIC、およびその他の専用チップは、リソースが制限された x86 ベースのデバイスが、レイヤーごとに分析基準を適用して大量の画像や音声データを処理できるように設計されており、アプリは各データの値を正しく計算して重み付けすることができます。

IntelとNvidiaはすでにエッジAI市場への攻勢を開始している。カウル氏は、NVIDIAのJetsonのような製品は説得力がないと語った。 Jetson は、7.5W の電力バジェットを備えた GPU オン モジュール プラットフォームです。これは、Nvidia のより一般的な製品の 70W と比べるとほんのわずかですが、一般的に 5W を超えないエッジ アプリケーションには依然として高すぎます。

「ニューラル ネットワークのアクセラレーションを検討している IP 企業は数多くあり、エッジ デバイスでの推論にはアクセラレータが必須となり始めているほどの選択肢がある」とレヴィ氏は言う。

図 3: カテゴリ別の AI エッジ デバイスの出荷数。 (出典: Tractica)

しかし、数億台にも及ぶ可能性のあるデバイスに ML アクセラレーションとサポートを追加するには、さらなるカスタマイズ性、コストの削減、リソースが限られたデバイス上の ML アプリケーションのニーズに合わせたより具体的な仕様が必要になります。つまり、成功するには市場全体でより優れたプロセッサが必要になるということです。

ニューラル推論では、モデルが数式マトリックスの 1 つのレイヤーからデータを取得するため、数兆回の乗算と累算の操作が必要になります。ただし、各レイヤーで必要なデータ サイズは異なり、入力が 16 ビット整数ではなく 8 ビット整数として設定されていると、一部のデバイスでは実行速度が速くなる場合があります。

「データセンターで良いスループットを得るために、ほとんどのアーキテクチャは、同じウェイトセットで数十または数百のタスクを作成することに依存しています」体重が1つずつ積み込まれているのは、バッチでバッチをかけて修正することができます。サイズは常に1に等しい。パフォーマンスを測定する場合、データセンターの外側のバッチサイズは常に1に等しい。」

Flex Logix が開発したニューラル ネットワーク エンジンは、バッチ処理の問題を回避します。 「重みを非常に速くロードするため、バッチ処理する必要がなく、バッチ 1 でもバッチ 28 でもパフォーマンスは同じです。これはエッジ アプリケーションでは非常に重要です」と Tate 氏は述べています。

推論ハードウェアにおける2つの新たな取り組み

Xilinx は、FPGA とシステム レベルの設計における経験を活用して、できるだけ多くのエッジ/デバイス市場に対応する新しい製品ファミリとロードマップを発表しようとしています。

Xilinx は昨年の春にこのアイデアについて議論したが、10 月まで正式に発表しなかった。同社はこのとき、「CPU、GPU、FPGA のパワーを活用してあらゆるものを高速化する」適応型コンピューティング アクセラレーション プラットフォームについて説明した。

Xilinx のプレゼンテーションでは、幅広い製品ライン、ユースケースのリスト、従来のアプローチよりもチップ面積あたり 3 ~ 8 倍のパフォーマンスを実現し、高性能 DSP 機能を提供することを目的とした AI エンジン コアの詳細について説明しました。

一方、Flex Logix は、低い DRAM 帯域幅を使用する再構成可能なニューラル アクセラレータを開発しました。チップ面積と電力の目標仕様は来年上半期に完成し、下半期にテープアウトされる予定。推論エンジンは、単なるより大きくて見栄えの良いアクセラレータではなく、CPU として機能します。これは、データを移動する必要を減らし、データとマトリックス計算のロード方法を改善することでボトルネックを減らすことで、データ移動の時間とエネルギー コストを削減するように設計された、モジュール式のスケーラブルなアーキテクチャを提供します。

このチップは、DRAM を 1 つの大きなメモリ プールとして管理するのではなく、個々のプロセッサ ブロックに専用化します。 DRAM はチップの複数の部分に同時にデータを供給することはできません。 「DRAM を 1 つのプロセッサ ブロックに流れ込む大きなメモリ プールとして扱うのは、ヴァン ノイマン アーキテクチャの典型ですが、ニューラル ネットワークのアーキテクチャとしては成功しません」とテイト氏は語ります。

<<:  工業情報化部の李英査察官:我が国の人工知能の発展は歴史的な好機を迎えている

>>:  機械学習の教訓: 5 つの企業が失敗を共有

ブログ    
ブログ    

推薦する

SSDの寿命は短いですか?寿命を延ばすバランスアルゴリズム

ハードウェアによって掘られた穴は、本当にソフトウェアによって埋められるのでしょうか?実際、多くのハー...

AIビッグモデルは今後も拡大し続けるのか?

人工知能は現在、ビジネスと金融のあらゆる側面に急速に導入されています。いくつかの刺激的な成功により、...

2020 年の予測: 今年はサイバー犯罪サービスが普及する年になるか?

業界メディアeWEEKの2020年の予測:人工知能と機械学習の「中毒」についての予測も見られ、これが...

スマートホームからのプライバシー漏洩が心配ですか?エッジAIがあなたを助けてくれることを恐れないでください

アレクサ、私の話を盗み聞きしてるの? [[330887]]私はいつもAmazon Echoにこの質問...

水注入、ピット占拠、ナンセンス:機械学習の学術界における「疑似科学」

[[236693]]ビッグデータダイジェスト制作翻訳者:張秋月、郝貴儿、倪倩、飛、ヴァージル、銭天...

...

Pythonの神のようなアルゴリズム

今日は、非常に有名な Python の簡潔で効率的かつ便利なコードを見てみましょう。そのスタイルを見...

世界中のもう一人の自分と話すのはどんな感じでしょうか?世界初のAI人間観察者が誕生

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Facebook のインタラクティブ ニューラル ネットワーク可視化システム ActiVis がニューラル ネットワークの「ブラック ボックス」を公開

これまで、多くのメディアがニューラルネットワークの「ブラックボックス」問題について熱く議論してきまし...

モノのインターネット向けのデータストリーミング、AI、機械学習プラットフォームを構築する方法

[[342159]]今日の IoT のユースケースでは、デバイスが生成した大量のデータを分析したり、...

アリババには、1秒間に8人の弁護士を打ち負かした新しい技術者がいる

[[231585]] Alimeiの紹介:エッセイの添削、同時通訳、ポスター作成…人工知能技術は私た...

素晴らしいディープラーニング コース 8 つ (評価付き)

エンジニアリング分野では、機械学習の応用は想像されているほど一般的ではありませんが、ディープラーニン...

不妊治療の新たな夜明け:AI

世界初の試験管ベビーは1978年に英国で誕生した。それ以来、人工生殖技術は継続的に改良されてきました...

河南省鄭州市:自動運転オンライン配車サービス車両が一般公開

[[408894]]河南省鄭州市では7月1日、鄭東新区で自動運転バスと自動運転乗用車が運用開始され、...

機械学習における分類タスクの共通評価指標とPythonコード実装

データ ポイントを特定の数の定義済みクラスに分類するように ML モデルをトレーニングすることがタス...