コミュニティは常に Facebook のハードウェア研究に細心の注意を払ってきました。本日の Open Compute Project Global Summit で、Facebook の技術戦略責任者である Vijay Rao 氏が、AI のトレーニングと推論のためのハードウェア システムである Zion と Kings Canyon、およびビデオ トランスコーディング用の Mount Shasta という新しい AI ハードウェアをオープンソース化しました。このブログ投稿ではこれについて詳しく説明しています。 Facebook のインフラストラクチャは現在、アプリとサービスのエコシステム全体を通じて毎月 27 億人以上の人々にサービスを提供しています。同社のエンジニアは、このインフラストラクチャを拡張するための高度で効率的なシステムを設計、作成していますが、ワークロードが増加するにつれて、これらのシステムは汎用プロセッサだけでは要求を満たすことができなくなります。トランジスタの成長率は大幅に鈍化しており、パフォーマンス、電力、効率を向上させるために、専用のアクセラレータと総合的なシステムレベルのソリューションの開発が必要になっています。 インフラストラクチャの効率的なソリューションを作成するには、ワークロードに最適化されたハードウェアを共同設計する必要があります。この目的のために、Facebook はパートナーと協力して、AI 推論、AI トレーニング、ビデオ トランスコーディングのソリューションを開発してきました。これらは最も急速に成長しているサービスです。 Facebook は本日、AI トレーニング用の次世代ハードウェア プラットフォームである Zion、AI 推論用の新しいカスタム チップ設計である Kings Canyon、およびビデオ トランスコーディング用の Mount Shasta を発表しました。 AIハードウェア AI ワークロードは Facebook のアーキテクチャ全体で使用され、サービスの関連性を高め、サービスを使用するユーザー エクスペリエンスを向上させます。 Facebook は、AI モデルを大規模に導入することで、1 日あたり 200 兆の推論と 60 億を超える言語翻訳を提供できます。 Facebook は 35 億枚を超える公開画像を使用して AI モデルを構築またはトレーニングし、コンテンツの識別とタグ付けの機能を向上させています。 AI は、人々の日常的なやり取りを支援し、ユニークでパーソナライズされたサービスを提供するために、さまざまなサービスで使用されています。 Facebook の AI プロセスのほとんどは、AI プラットフォームである FBLeaner を通じて管理されています。このプラットフォームには、機能ライブラリ、トレーニング ワークフロー管理、推論エンジンなど、問題のさまざまな部分を集中的に処理するツールが含まれています。これを Open Compute Project (OCP) 向けに設計およびリリースされたハードウェアと組み合わせることで、Facebook はモデルを大規模かつ効率的に展開できるようになります。 Facebook は安定した基盤からスタートし、ベンダーに依存しない統合ハードウェア設計の作成に注力し、生産性を向上させるために分散型設計の原則を順守し続けました。その結果、トレーニングと推論の両方のワークロードに対応する Facebook の次世代ハードウェアが誕生しました。 AIトレーニングシステムZion Zion は、CNN、LSTM、SparseNN などのさまざまなニューラル ネットワークを効率的に処理するように設計された、Facebook の次世代の大規模ストレージ統合トレーニング プラットフォームです。 Zion プラットフォームは、高いストレージ容量と帯域幅、柔軟で高速な接続、そして厳しいワークロードに対応する強力なコンピューティング機能を提供します。 Zion は、ベンダーに依存しない Facebook の新しい OCP Acceleration Module (OAM) を使用します。 OAM フォーム ファクターにより、AMD、Haban、GraphCore、Nvidia などの Facebook のパートナーは、OCP 共通仕様に基づいて独自のソリューションを開発できるようになります。 Zion アーキテクチャにより、Facebook は単一ラック上の TOR ネットワーク スイッチを使用して、各プラットフォーム上の複数のサーバーに自由に拡張できるようになります。 Facebook の AI トレーニング ワークロードの規模と複雑さが増すにつれて、Zion プラットフォームもそれに応じて拡張されます。 Zion システムは 3 つの部分に分かれています。
AIトレーニングソリューション基本モジュール Zion接続モジュール図 Zion は、システムのメモリ、コンピューティング、ネットワーク集約型コンポーネントを分離し、各部分を独立して拡張できるようにします。システムは、SparseNN の埋め込みテーブルなどのワークロード メモリを集中的に使用するコンポーネントのニーズを満たすために、8 つの NUMA CPU ソケット用の大規模な DDR メモリ プールを提供します。 CNN や SparseNN の高密度部分など、ストレージ帯域幅を集中的に使用し、計算処理を集中的に行うワークロードの場合、OCP アクセラレーション モジュールが各 CPU ソケットに接続されます。 システムには、すべての CPU を接続するコヒーレント ファブリックと、すべてのアクセラレータを接続するファブリックの 2 つの高速ファブリックがあります。アクセラレータはメモリ帯域幅は広いがメモリ容量は小さいため、アクセス頻度の高いデータはアクセラレータ上に、アクセス頻度の低いデータは CPU の DDR メモリ上に配置するようにモデルを分割することで、使用可能なメモリ容量全体を効率的に利用します。すべての CPU とアクセラレータ間の計算と通信は、高速接続と低速接続を通じてバランスが取れて効率的に実行されます。 Kings Canyon で推論を実行する モデルをトレーニングしたら、AI プロセス用のデータを処理し、ユーザーのリクエストに応答するために、モデルを本番環境にデプロイする必要があります。これは推論、つまりモデルが新しいデータに対して予測を実行するプロセスです。推論ワークロードは劇的に増加しており、これはトレーニング ワークロードの大幅な増加を反映していますが、現時点では標準の CPU サーバーでは対応できていません。 Facebook は、Esperanto、Intel、Marvell、Qualcomm などの複数のパートナーと協力して、インフラストラクチャ上で展開および拡張できる推論 ASIC チップを開発しています。これらのチップは、ワークロードに INT8 半精度演算を提供して理想的なパフォーマンスを実現するとともに、より高い精度を実現する FP16 単精度演算もサポートします。 推論サーバー ソリューション全体は、OCP にリリースされた既存のビルディング ブロックを活用する 4 つの異なる部分に分かれています。既存のコンポーネントを活用することで、共通性を通じて開発をスピードアップし、開発リスクを軽減できます。設計の 4 つの主要コンポーネントは次のとおりです。
図: AI推論ソリューションモジュール 図: AI推論ソリューション接続モジュール図 システム レベルでは、各サーバーは M.2 Kings Canyon アクセラレータと Glacier Point v2 キャリア カードを組み合わせ、後者は主に Twin Lakes サーバーに接続されます。通常、以前のコンポーネントの両方のセットを新しい Yosemite v2 ラックにインストールし、マルチホスト NIC を介して TOR スイッチに接続できます。更新された Yosemite スレッドは、既存の Yosemite v2 スレッドの反復的なアップグレードであり、Twin Lakes ホストの追加の PCIe レーンを NIC に接続して、ネットワーク帯域幅を高めます。各 Kings Canyon モジュールには、ASIC、関連メモリ、およびその他のサポート コンポーネントが含まれており、CPU ホストは PCIe チャネルを介してアクセラレータ モジュールと通信します。 Glacier Point v2 には、サーバーがすべてのモジュールに同時にアクセスできるようにする統合 PCIe スイッチが含まれています。 ディープラーニング モデルには高いストレージ要件があります。たとえば、SparseNN モデルには非常に大きな埋め込み表現テーブルがあり、数 GB のストレージを占有し、今後も増加し続ける可能性があります。このような大規模なモデルは、CPU やアクセラレータなど、単一のデバイスのメモリに収まらない可能性があるため、複数のデバイス メモリにわたってモデルを分割する必要があります。データが別のデバイスのメモリにある場合、分割すると多くの通信コストが発生します。したがって、優れたグラフ分割アルゴリズムは局所性の概念を捉え、通信コストを削減しようとします。 適切なモデル分割により、非常に大規模なディープラーニング モデルを実行できます。たとえば、SparseNN モデルの場合、単一ノードのメモリ容量が特定のモデルをサポートするのに不十分な場合は、2 つのノード間でモデルを共有し、モデルがアクセスできるメモリの量を増やすことを検討できます。 2 つのノードはマルチホスト NIC を介して接続でき、高速な情報処理をサポートします。これにより、全体的な通信コストは増加しますが、複数の埋め込みテーブル間でアクセスの差異があるという事実を活用し、それに応じてテーブルを並べ替えることで、通信の遅延を削減できます。 ニューラル ネットワーク ハードウェア アクセラレータ コンパイラ ASIC では、グラフをこれらのアクセラレータで実行される命令に変換するための特定のコンパイラが必要なため、汎用コードを実行できません。 Glow コンパイラの目標は、ベンダー固有のハードウェアを上位レベルのソフトウェア スタックから抽象化し、インフラストラクチャをベンダーに依存しないものにすることです。 PyTorch 1.0 などのフレームワークからの計算グラフを受け入れ、これらの機械学習アクセラレータ向けに高度に最適化されたコードを生成します。 グローコンパイラ マウントシャスタによるビデオトランスコーディング Facebook Live 放送の平均回数は 2016 年以降毎年倍増しています。 Facebook Watchは、2018年8月に世界的にリリースされて以来、月間視聴回数が4億回を超え、毎日7,500万人が利用しています。これらすべてのビデオを複数のネットワーク向けに最適化するために、Facebook は複数の出力品質と解像度 (またはビットレート) を生成します。このプロセスはビデオ トランスコーディングと呼ばれます。このトランスコーディング プロセスを完了するために必要な計算は非常に集中的であり、汎用 CPU では Facebook の増大するビデオのニーズに対応できません。 Facebook は需要に先んじて対応するために、Broadcom および VeriSilicon と協力し、トランスコーディング ワークロードに最適化されたカスタム ASIC を設計しました。 ビデオトランスコーディングプロセスはいくつかの異なるステップに分かれており、以下で詳しく説明します。現在、これらの手順はすべてソフトウェアで実行されているため、Facebook は効率性を高めるためにベンダーと協力し、トランスコーディング ワークフローの各段階に特化したシリコンを搭載したカスタム ASIC を作成しました。カスタム ハードウェアを使用してこれらのワークロードを実行すると、プロセスのエネルギー効率が向上し、リアルタイム 4K 60fps ストリーミングなどの新しい機能が有効になります。個々のビデオ コーデックは標準化されており、頻繁に変更されることはないため、カスタム シリコンの固有の柔軟性の欠如は、この場合、大きな欠点にはなりません。 ビデオ トランスコーディングの最初の段階はデコードと呼ばれ、アップロードされたファイルが解凍され、一連の画像で表される生のビデオ データが取得されます。これらの非圧縮画像は、解像度を変更するように操作され(スケーリングと呼ばれます)、最適化された設定を使用して再度エンコードすることでビデオ ストリームに再圧縮されます。出力ビデオは元のビデオと比較され、アップロードされた元のビデオと比較した品質の変化を表す品質メトリックが計算されます。これは通常、使用されるエンコード設定によって高品質の出力が生成されるように、すべてのビデオに対して実行されます。ビデオのエンコードとデコードに使用される標準はビデオ コーディング方式と呼ばれ、現在使用されている主流のコーディング プロトコルは H.264、VP9、AV1 です。 ASIC では、各ソフトウェア アルゴリズムがチップ内の専用コンポーネントに置き換えられることを除いて、手順は同じです。 Facebook は、平均してこのビデオ アクセラレータが現在のサーバーよりも何倍も効率的になると予想しています。業界は、10W の消費電力内で少なくとも 2 倍の 4K 解像度と 60fps の並列入力ストリームを処理できるエンコードを目標とするだろうと予想しています。 ASIC は、複数の解像度 (60fps で 480p から 4K まで) と複数のエンコード形式 (H.264 から AV1 まで) もサポートする必要があります。 ビデオ トランスコーディング ASIC には通常、次の主要なロジック ブロックがあります。
ビデオトランスコーディングソリューション基本モジュール 推論と同様に、Facebook は既存の OCP ビルディング ブロックを活用して、これらのトランスコーディング ASIC をデータ センターに導入します。 ASIC は、ヒートシンクが統合された M.2 モジュールに搭載されます。この共通の電気フォーム ファクタは、さまざまなハードウェア プラットフォーム間で再利用できます。これらは、複数の M.2 モジュールを収容できる Glacier Point v2 (GPv2) キャリア カードに搭載されています。この GPv2 キャリア カードは Twin Lakes サーバーと同じ物理フォーム ファクターを備えているため、Yosemite v2 ラックに収まり、Twin Lakes サーバーとペアリングできます。 トランスコーディング ASIC は消費電力が少なく小型であるため、Facebook は 1 つのサーバーにできるだけ多くのチップを接続することでコストを節約したいと考えています。 GPv2 の高密度によりこれを実現すると同時に、データセンターの動作温度に耐える十分な冷却能力も提供します。 ソフトウェア統合作業が完了すると、Facebook はさまざまなデータセンターの場所にある異機種ハードウェア群全体でビデオ トランスコーディングのワークロードのバランスをとることになります。機械学習やビデオ分野のさまざまなベンダーとのコラボレーションを拡大するために、ソフトウェアがオープンに開発され、共通のインターフェースとフレームワークが推進および採用されるように取り組んでいます。 |
ACM ゴードン・ベル賞は 1987 年に設立され、計算機協会によって授与されます。スーパーコンピュ...
新しいルールが登場します。 今回公布された「オンライン音声・動画情報サービス管理規則」では、ディープ...
「再帰的に自己進化する AI が人間を支配する」という問題に対する解決策はあるのでしょうか? !多く...
[[413321]] [51CTO.com クイック翻訳]一連の新しいツールは、機械学習やその他の...
生成型人工知能 (GenAI) は、マーケティングや販売などのさまざまなビジネス分野で人気が高まって...
OpenAIは史上初の買収を正式に発表した。先ほど、OpenAIが「Minecraft」のオープンソ...
AIの分野では、オープンソースとクローズドソースの選択については、常に意見が分かれてきました。しかし...
最近、皆さんは次のような H5 に悩まされていると思います。広告ポスター500枚の予算は2,000元...
1. 背景近年、Transformer、Large-kernel CNN、MLP に基づく 3 つの...
この段階では、人工知能の応用シナリオが増加し、市場規模が拡大しており、機械学習の価値がますます顕著に...
翻訳者 | 李睿レビュー | Chonglou検索拡張生成 (RAG) は、大規模言語モデル (LL...
大規模モデルは AI コミュニティのトレンドとなり、主要なパフォーマンス チャートを席巻するだけでな...
ChatGPT や GPT-4 などの大規模言語モデル (LLM) の出現により、迅速なエンジニアリ...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...