AI専用SoCチップのIP要件の分析

AI専用SoCチップのIP要件の分析

[[386797]]

この記事はWeChatの公開アカウント「Smart Computing Chip World」から転載したもので、著者はsynopsysです。この記事を転載する場合は、Smart Computing Core World 公式アカウントまでご連絡ください。

現在、AI コンピューティング開発をサポートする半導体には、独立アクセラレータとインメモリ/ニアメモリ コンピューティング テクノロジの 2 種類があります。スタンドアロン アクセラレータは何らかの方法でアプリケーション プロセッサに接続されており、デバイスにニューラル ネットワーク ハードウェア アクセラレーションを追加するアプリケーション プロセッサもあります。独立したアクセラレータは、チップ間の相互接続を通じてハードウェアを複数のチップに拡張し、最高のパフォーマンスを実現するという大きな革新を実現できます。インメモリおよびニアメモリ コンピューティング テクノロジは、主にエネルギー消費を削減するというニーズを満たします。

スタンドアロン半導体で先駆的に開発されたプロセッサとアーキテクチャを活用してニューラル ネットワーク プロセッサを強化することで、デバイス上の AI アクセラレーションが強化されています。半導体のリーダー企業、業界の大手企業、そして何百ものスタートアップ企業が、クラウド サーバー クラスターから各キッチンのホーム アシスタントまで、あらゆる業界の多数の新しい SoC やチップセットに AI 機能を導入するために懸命に取り組んでいます。

ディープラーニング ニューラル ネットワークはさまざまなアプリケーションで使用されており、使用する人々に強力な新しいツールを提供します。たとえば、高度なセキュリティ脅威分析、セキュリティ侵害の予測と防止、潜在的な購入者のショッピング ジャーニーを予測して広告主が販売プロセスを特定して合理化できるようにするために使用できます。これらは、最新の GPU および AI アクセラレータ半導体テクノロジを組み込んだサーバー ファームで実行されるデータ センター アプリケーションの 2 つの例です。

しかし、AI 設計はデータセンター内に収まりません。多くの新しい機能は、物体や顔を検出するビジョン システム、人間と機械のインターフェースを改善するための自然言語理解、コンテキスト認識など、センサー入力の組み合わせに基づいて何が起こっているかを理解します。これらのディープラーニング機能は、自動車、モバイル、デジタルホーム、データセンター、モノのインターネット (IoT) など、あらゆる業界の SoC に追加されています。

最高のパフォーマンスを実現するために、クラウド AI アクセラレーションをターゲットとする SoC 設計者は、パフォーマンスを最大化して大きな問題を解決することに取り組んでいます。 AI トレーニングと最も複雑な AI アルゴリズムを最高の精度で実行するには、高いプロセッサ パフォーマンス (TOPS) が必要です。これにより、トレーニング時間が短縮され、推論に必要なエネルギーが削減されるため、最終的にはコストが削減されます。クラウド コンピューティング市場向けのこれらの半導体ハードウェアのイノベーションにより、これまで何年もかかると考えられていた開発が可能になり、特定やワクチン開発の形で今日最も懸念される健康問題のいくつかに対する治療法を見つけるなど、ブレークスルーまでの時間が短縮されています。

ただし、すべての問題がクラウドで解決できるわけではないため、多くの AI アクセラレータ アーキテクチャはエッジ コンピューティングとオンデバイス AI をサポートするように変更されています。エッジ サーバーとプラグイン アクセラレータ カードでは、コストと電力消費がさらに重要になります。データ収集ポイントのアプリケーションや「エッジ デバイス アクセラレータ」に近づくにつれて、エネルギー消費単位あたりのパフォーマンスの最適化が最も重要な設計要件になります。

エッジ デバイス アクセラレータのリソース、処理、メモリは限られているため、トレーニング済みのアルゴリズムを圧縮し、必要な精度を維持しながら電力とパフォーマンスの要件を満たすように調整する必要があります。最大の AI 市場セグメントはオンデバイス AI であり、自動車の ADAS、デジタル TV の超高解像度、オーディオおよび音声認識、スマート スピーカーの言語理解などのアプリケーションに影響を与えます。このようなアプリケーションには、顔検出、顔認識、物体認識を実行するカメラが含まれます。

たとえば、一部の業界では、カメラに搭載されたオンデバイス AI が産業用アプリケーションの欠陥分析を実行できます。オンデバイス AI カテゴリには、携帯電話や AR/VR ヘッドセットなどのコンシューマー アプリケーションも含まれ、ナビゲーション、超高解像度、音声理解、物体/顔検出など、前述の AI 機能の多くをコンパクトなサイズで実現できます。モバイル デバイスは、クラウド コンピューティングで使用されるものと同様の最新のプロセス ノードにより、テクノロジーの先頭に立ち続けています。エッジおよびデバイス コンピューティングはパフォーマンスを最適化し続けます。市場に応じて、従来のプロセス ノードを使用することもできます。

2020年現在、AI市場はまだ初期段階にあり、今後数年間で急速に成長すると予想されています。 100W を超えるクラウド AI SoC のベンダーには、市場リーダーである NVIDIA や Intel が含まれます。これらのメーカーは先行者利益を通じて支配的な地位を獲得しました。多くのスタートアップ企業は、これらのソリューションよりも何倍も効率的になることを望んでいます。さらに、Google、TPU、Alibaba、Amazon、Baiduなどのシステム企業も独自のチップを設計し、最適化を通じて自社のビジネスモデルをサポートしています。これらの企業はすべて、顧客にクラウドレンタルサービスを提供しており、クラウド上でトレーニングや推論を実行できます。

エッジ コンピューティング (>5W) SoC は通常、既存のクラウド ソリューションまたは修正されたクラウド アーキテクチャを活用しますが、多くのスタートアップ企業は、パフォーマンスにおいて現在のソリューションをはるかに上回りながら、より低消費電力でより最適化されたソリューションでニッチ市場を見つけています。

図 2 では、5W 未満の市場には、デバイス側アクセラレータとスタンドアロン アクセラレータの両方が含まれており、AIoT アクセラレータとも呼ばれ、急速に成長しています。デバイス側ソリューションでは、出荷台数ではモバイル市場が優勢ですが、テスラ ASIC などの自動車市場も急速に成長しています。 AIoT アクセラレータは、5W 未満の市場ではまだわずかな割合しか占めていませんが、Perceive、Kneron、Gyrfalcon、Brainchip、GrAI Matter Labs などの企業が突破口を開こうとしています。

AI 市場セグメントごとに目標と課題が異なります。クラウド AI SoC の設計者は、80 億以上のパラメータを含む最も複雑な新しいアルゴリズムに対応しながら、コストのかかるトレーニング時間を短縮することに重点を置いています。エッジ コンピューティング AI 設計では、電力消費と遅延の削減に重点を置いています。 5G とデバイス上の AI は低遅延を実現するように設計されていますが、5G の場合、これらの AI はモデルの圧縮には使用されないため、非常にコストがかかり、時間のかかる設計プロセスになる可能性があります。オンデバイス AI の場合、推論機能とパフォーマンスを最大化するためにモデルを圧縮する必要があります。

最後に、AIoT スタンドアロン アクセラレータの設計者は、より革新的な技術を使用し、TOPS/W のリーダーになる傾向があります。彼らは、密度の向上、レイテンシの削減、ストレージ係数の変動への対応に関してより多くのリスクを負っており、また、プルーニングおよび圧縮アルゴリズムの専門家であり、顧客向けのアルゴリズムの実装により、独自の差別化機能を提供しています。

これらの固有の課題に加えて、AI 市場は次のようないくつかの主要な課題に直面しています。

行列乗算やドット積などの必要な数学演算をより効率的に実行するために、特殊な処理能力を追加します。

重みや活性化など、ディープラーニングに必要な固有の係数を処理するための効率的なメモリアクセス

チップ間、チップとクラウド、センサーデータ、アクセラレータとホスト間の接続のための信頼性が高く実績のあるリアルタイムインターフェース

データを保護し、ハッカーの攻撃やデータ破損を防ぐ

AI モデルは大量のメモリを使用するため、チップのコストが増加します。ニューラル ネットワークのトレーニングには数 GB から 10 GB のデータが必要になる場合があり、容量要件を満たすには最新の DDR テクノロジを使用する必要があります。たとえば、画像ニューラルネットワークである VGG-16 では、トレーニング時に約 9 GB のメモリが必要です。より正確なモデル VGG-512 のトレーニングには 89 GB のデータが必要です。 AI モデルの精度を向上させるために、データ サイエンティストはより大きなデータ セットを使用します。繰り返しになりますが、これにより、モデルのトレーニングに必要な時間が長くなったり、ソリューションのメモリ要件が増加したりする可能性があります。

大量の並列行列乗算演算が必要であり、モデルのサイズと必要な係数の数が多いため、高帯域幅アクセス機能を備えた外部メモリが必要です。これらの需要を満たすために、高帯域幅メモリ (HBM2) や将来の派生製品 (HBM2e) などの新しい半導体インターフェース IP が急速に採用されています。高度な FinFET テクノロジにより、より大規模なオンチップ SRAM アレイと、カスタマイズされたメモリ対プロセッサおよびメモリ対メモリ インターフェイスを備えた独自の構成が可能になります。これらは、人間の脳をより正確に再現し、メモリの制約を取り除くために開発されています。

AI モデルは圧縮できます。このテクノロジーは、携帯電話、自動車、IoT アプリケーションのエッジにある SoC の制約されたメモリ アーキテクチャ上でモデルが実行されることを保証するために必要です。圧縮は、結果の精度を低下させることなく、プルーニングと量子化の技術を使用して実行されます。これにより、従来の SoC アーキテクチャ (LPDDR 付き、または場合によっては外部メモリなし) でニューラル ネットワークをサポートできるようになりますが、消費電力やその他の側面でトレードオフが発生します。これらのモデルが圧縮されるにつれて、不規則なメモリ アクセスと不規則な計算強度が増加し、システムの実行時間と待ち時間が長くなります。その結果、システム設計者は革新的な異種メモリ アーキテクチャを開発しています。

AI SoC設計ソリューション

SoC に AI 機能を追加すると、今日の SoC アーキテクチャの AI の弱点が浮き彫りになります。非 AI アプリケーション向けに構築された SoC にビジョン、音声認識、その他のディープラーニングおよび機械学習アルゴリズムを実装する場合、リソースが不足します。 IP の選択と統合により、AI SoC のベースライン効率が明確に定義され、それが AI SoC の「DNA」、つまり本質を構成します。たとえば、カスタム プロセッサまたはプロセッサ アレイを導入すると、AI アプリケーションに必要な大規模な行列乗算を高速化できます。

クラウド AI アクセラレータ

帯域幅と信頼性の課題に対処するために、クラウド AI アクセラレータ SoC 設計者は、チップ間通信用の高速 SerDes ダイツーダイまたは PCIe とともに、HBM2e と HBM3 を統合しています。 AI モデルの暗号化と認証をサポートする高速セキュリティ プロトコル アクセラレータなどのセキュリティの役割がますます明らかになっています。組み込みメモリ ソリューションのマルチポート メモリ (TCAM) と SRAM コンパイラを組み合わせることで、リークを削減できます。

エッジコンピューティング AI アクセラレータ

多くのエッジ コンピューティング アプリケーションの主な目標は、低レイテンシに関連する新しいサービスの提供です。低レイテンシをサポートするために、多くの新しいシステムでは、PCIe 5.0、LPDDR5、DDR5、HBM2e、USB 3.2、CXL、NVMe over PCIe、および次世代標準に基づくその他のテクノロジーを含む最新の業界インターフェイス標準の一部を採用しています。各テクノロジーは、前世代と比較して帯域幅を増やすことでレイテンシを削減します。

レイテンシを短縮する動きよりもさらに顕著なのは、これらすべてのエッジ コンピューティング システムに AI アクセラレーションを追加する動きです。 AI アクセラレーションは、x86 拡張 AVX-512 Vector Neural Network 命令 (AVX512 VNNI) などの新しい命令を通じて一部のサーバー チップによって提供されるか、Qualcomm DSP コアなどのモバイル アプリケーション プロセッサによって提供されます。多くの場合、この追加の命令セットは、目的のタスクに必要な低レイテンシと低電力を実現するには不十分であるため、ほとんどの新しいシステムにはカスタム AI アクセラレータも追加されます。これらのチップに必要な接続は、通常、アクセラレータに接続できる最高帯域幅のホストへの接続です。たとえば、これらの帯域幅要件はレイテンシに直接影響するため、PCIe 5.0 は急速に広く採用されるようになり、最も一般的には複数の AI アクセラレータを使用した何らかのスイッチ構成で採用されています。

CXL は、レイテンシを削減し、キャッシュの一貫性を提供するために特別に開発された、急速に普及しつつあるもう 1 つのインターフェースです。 AI アルゴリズムには異機種コンピューティング要件と大量のメモリ需要があるため、キャッシュの一貫性を確保することが重要です。

ローカル ゲートウェイおよび統合サーバー システム以外では、通常、単一の AI アクセラレータでは十分なパフォーマンスが得られないため、これらのアクセラレータは、非常に高帯域幅のチップ間 SerDes PHY を使用して拡張する必要があります。新しくリリースされた PHY は、56G および 112G 接続をサポートします。 AI スケーリングをサポートするためのチップ間の要件は、すでに複数のプロジェクトで実装されています。標準ベースの実装では、イーサネットはスケーラブルなオプションになる可能性があり、この概念に基づくいくつかのソリューションがすでに利用可能です。ただし、今日の多くの実装では、独自のコントローラーを通じて最高帯域幅の SerDes が利用されています。異なるアーキテクチャにより、サーバー システムの将来の SoC アーキテクチャが変更され、現在実装されている 4 つの異なる SoC ではなく、ネットワーク、サーバー、AI、ストレージ コンポーネントがより統合された 1 つの SoC に統合される可能性があります。

オンデバイスAI

デバイス上の AI 処理に関する最大の懸念事項の 1 つは、ソフトウェアの機能です。アルゴリズムは急速に変化します。設計者は、Tensorflow や Caffe などの従来のツールを使用して初期モデルをトレーニングし、それをデバイスのプロセッサにマッピングする必要があります。多くのプロジェクトでは、高い精度を維持しながら特定のプロセッサ向けに最適化するグラフ マッピング ツールや、圧縮およびプルーニング ツールを使用することで、何ヶ月もの時間と労力を節約できます。これらのツールがなければ、ソフトウェアやシステムをハードウェアと同じ速さで設計することはできません。

最適化されたメモリ構成により、デバイス上の AI システムを最適化できます。デバイス自体のアーキテクチャ設計を開始する前に、設計者は複数の IP 権限と構成をシミュレートできるツールを必要とします。実際のアルゴリズムを実行しながらプロセッサを利用してオンチップおよびオフチップのメモリをエミュレートすることで、設計者は設計を開始する前に最も効率的なアーキテクチャを実現できます。設計者の中にはシステムを最適化する方法を知らない人もいるため、同じプロセスノードに対して複数世代の製品を開発する必要があり、何ヶ月もの時間を無駄にしてしまうことがよくあります。

最後に、デバイス上の AI システムの視覚にはセンサーの接続性が重要です。 MIPI CSI-2 は、CMOS イメージ センサーの最も一般的な実装です。新しい V3 仕様は、機械認識機能を向上させ、より高い精度をサポートし、より高品質の画像を提供するように設計されています。特に、インテリジェントな機能により、全体像を提供するのではなく、必要なときにのみ新しいデータが提供されるため、効率性の向上に役立ちます。 I3C は複数のセンサーを統合し、複数のシステム入力ソースをサポートする低コストの方法を提供します。

AI 機能が新しい市場に参入するにつれて、統合のために選択された IP は AI SoC にとって重要なコンポーネントを提供します。しかし、IP を超えて、設計者は AI の専門知識、サービス、ツールを活用して、設計の納期厳守、エンド カスタマーへの高品質なサービスと価値の確保、そして新しい革新的なアプリケーションのニーズへの対応を実現することに明確な利点を見出しています。

<<:  Java プログラミング スキル - データ構造とアルゴリズム「循環リンク リストとジョセフ問題」

>>:  ガートナー:2025年にはベンチャーキャピタル投資の75%がAIを活用する

ブログ    
ブログ    

推薦する

マイクロソフトはIBMとアマゾンに続き、警察への顔認識技術の販売を拒否

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

シェフとAIが協力してあなたの味覚を刺激します

[[394881]]ソニーのAIチームによると、FlavorGraphは人工知能技術を使って2つの材...

人工知能が不動産業界にもたらす変化

不動産業界は、住民、建築業者、住宅ローンブローカー、エージェント、請負業者を支援するために人工知能を...

...

Reddit で強く推奨: 20 時間の体系的なディープラーニングと強化学習コース | 無料

[[383847]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

メイン検索と店内検索の共同最適化の予備調査と試み

背景と概要Taobao プラットフォームには、検索、推奨、広告など、多くのサブシナリオがあります。各...

...

ビッグデータは私たちを新たな AI の冬に引きずり込むのか?

過去数年間の息を呑むようなニュースクリップの数は思い出すのが難しいが、人工知能の歴史は挫折と挫折に満...

70億のオープンソース数学モデルがGPT-4に勝利、中国チーム

7B オープンソースモデル、その数学的能力は数千億規模の GPT-4 を超えます。その性能はオープン...

Facebook、動画から学習する新たなAIプロジェクトを開始

3月30日、海外メディアの報道によると、Facebookの開発者らは、公開動画から学習できる「Lea...

ディープラーニング(CNN RNN Attention)を使用して大規模なテキスト分類問題を解決する - 概要と実践

[[188373]]著者は最近、深層学習を応用してタオバオ商品のカテゴリー予測問題を解決するプロジェ...

Pudu Technology、新製品「Hulu」をリリース、4月19日より先行販売開始

人工知能やマルチセンサー情報融合などの技術の進化により、サービスロボットは急速に発展し、さまざまな分...

1800億パラメータ、世界最高峰のオープンソース大型モデルFalconが正式発表! Crush LLaMA 2、GPT-4に近いパフォーマンス

一夜にして、世界で最も強力なオープンソースの大型モデル Falcon 180B がインターネット全体...

エッジ AI で建物のシステム障害を回避

ビルの管理者や運営者は、暖房や冷房、照明システム、エレベーターの故障など、ビルのシステムや設備の予期...