今朝早く、Cerebras Systems は世界初となる人間の脳規模の AI ソリューションのリリースを発表しました。CS-2 AI コンピューターは、120 兆を超えるパラメータのトレーニングをサポートできます。 比較すると、人間の脳には約 100 兆個のシナプスがあります。 さらに、Cerebras は 192 台の CS-2 AI コンピューターのほぼ線形スケーリングを実現し、最大 1 億 6,300 万個のコアを備えたコンピューティング クラスターを作成しました。 セレブラスは2016年に設立され、現在14か国に350人以上のエンジニアを抱えている。以前、セレブラスは世界最大のコンピューティングチップであるWSEとWSE-2を発売し、業界に衝撃を与えた。 WSE-2は7nmプロセスを採用し、面積46,225平方ミリメートルの単一ウエハレベルチップです。2.6兆個のトランジスタと85万個のAI最適化コアを搭載しています。コア数とオンチップメモリ容量はどちらも、これまでで最も強力なGPUをはるかに上回っています。 WSE-2 は、Cerebras CS-2 AI コンピューターに統合されています。近年、業界における超大規模 AI モデルの数は 1 兆個のパラメータを超えており、小規模なクラスターでは単一モデルの高速トレーニングをサポートできなくなっています。 Cerebras の最新の成果により、単一の CS-2 マシンがサポートできるニューラル ネットワーク パラメータの規模が、既存の最大モデルの 100 倍にまで拡大し、パラメータ数は 120 兆に達しました。 国際チップアーキテクチャサミット「Hot Chips」で、Cerebras の共同設立者兼チーフハードウェアアーキテクトの Sean Lie 氏が、この画期的な進歩を実現した 4 つのイノベーションを含む新しいテクノロジーの組み合わせについて詳しく説明しました。 (1)Cerebras Weight Streaming:オンチップのようなトレーニングと推論のパフォーマンスを提供しながら、モデルパラメータをオフチップで保存する機能を初めて可能にした新しいソフトウェア実行アーキテクチャ。この新しい実行モデルは、コンピューティングとパラメータ ストレージを分離し、クラスターのサイズと速度の拡張をより独立して柔軟にし、大規模なクラスターでよく発生するレイテンシとメモリ帯域幅の問題を排除し、ワークロード分散モデルを大幅に簡素化して、ユーザーがソフトウェアを変更することなく 1 台の CS-2 から 192 台の CS-2 に拡張できるようにします。 (2)Cerebras MemoryX:オンチップ性能に匹敵する性能を維持しながら、WSE-2に最大2.4PBのオフチップ高性能ストレージを提供するメモリ拡張テクノロジー。 MemoryX を使用すると、CS-2 は最大 120 兆個のパラメータを持つモデルをサポートできます。 (3) Cerebras SwarmX: オンチップファブリックをオフチップに拡張する高性能なAI最適化通信ファブリックで、Cerebrasは1億6,300万個のAI最適化コアを備えた最大192個のCS-2プロセッサを接続して連携し、単一のニューラルネットワークをトレーニングすることができます。 (4)選択可能なスパース性:モデル内の重みスパースの度合いをユーザーが選択できるようにし、FLOPと解析時間を直接削減する動的なスパース性選択技術。重みスパース性は GPU 上で非常に非効率であるため、機械学習の研究では課題となってきました。このテクノロジーにより、CS-2 は、非構造化スパース性や動的重みスパース性など、利用可能なさまざまなスパース性タイプを使用して作業を高速化し、より短時間で回答を生成できるようになります。 セレブラスのCEO兼共同創設者アンドリュー・フェルドマン氏は、これを業界にとっての前進と呼んだ。アルゴンヌ国立研究所のリック・スティーブンス副所長もこの発明を肯定し、これが脳スケールのモデルを探索できる初めての機会となり、研究と洞察のための幅広い新しい道を切り開くことになるだろうと信じている。 1.ウェイトストリーミング: ストレージとコンピューティングを分離し、モデルパラメータのオフチップストレージを実現大規模なクラスターを使用して AI の問題を解決する際の最大の課題の 1 つは、特定のニューラル ネットワーク向けにクラスターをセットアップ、構成、最適化するために必要な複雑さと時間です。ソフトウェア実行アーキテクチャ Cerebras Weight Streaming により、クラスター システムのプログラミングの難易度が軽減されます。 Weight Streaming は WSE の超大規模サイズに基づいて構築されており、計算とパラメータの保存は完全に分離されています。最大構成2.4PBのストレージデバイスMemoryXと組み合わせることで、CS-2単体で120兆個のパラメータを持つモデルの実行をサポートできます。 テストで使用された 120 兆のパラメータを持つニューラル ネットワークは、Cerebras が社内で開発したものであり、公開されたニューラル ネットワークではありません。 ウェイト ストリーミングでは、モデルの重みは中央のオフチップ ストレージの場所に保存され、ニューラル ネットワークの各レイヤーでの計算のためにウェーハにストリーミングされます。ニューラル ネットワーク トレーニングのデルタ パス中、重みを更新するために勾配がウェーハから中央ストレージ領域 MemoryX に流れます。 オンチップ メモリの量が少なく、大規模なモデルを複数のチップに分割する必要がある GPU とは異なり、WSE-2 は、従来のチャンク化や分割によるレイヤーの分割を必要とせずに、非常に大きなレイヤーを収容して実行できるほどの大きさです。 パーティショニングなしでオンチップ メモリにすべてのモデル レイヤーを収めることができるこの機能により、同じニューラル ネットワーク ワークロード マッピングが提供され、クラスター内の他のすべての CS-2 とは独立して各レイヤーで同じ計算を実行できるようになります。 利点は、ソフトウェアを変更することなく、単一の CS-2 での実行から任意のサイズのクラスターにモデルを簡単に拡張できることです。つまり、CS-2 システムの大規模なクラスターで AI モデルを実行するには、単一の CS-2 でモデルを実行する場合と同じようにプログラミングが必要です。 Cambrian AI の創設者兼チーフアナリストである Karl Freund 氏は、次のようにコメントしています。「Weight Streaming の実行モデルは非常にシンプルで洗練されており、CS-2 クラスターの膨大な計算リソース全体に作業をはるかに簡単に分散できます。Weight Streaming により、Cerebras は、巨大なクラスターを構築して効率的に使用する際に現在直面している複雑さをすべて取り除き、業界を変革の道へと前進させます。」 2. MemoryX : 1兆パラメータモデルの実装100兆個のパラメータを持つ人間の脳規模の AI モデルを保存するには、約 2PB のメモリが必要です。 前述のように、モデル パラメータはオフチップで保存でき、CS-2 に効率的にストリーミングして、オンチップに近いパフォーマンスを実現できます。ニューラル ネットワーク パラメータの重みを保存するための主要な機能は、Cerebras MemoryX です。 MemoryX は、大規模なニューラル ネットワーク操作をサポートするように設計された DRAM とフラッシュの組み合わせであり、重みの更新を正確にスケジュールして実行するためのインテリジェンスも備えています。 そのアーキテクチャはスケーラブルで、4TB から 2.4PB までの構成と 2000 億から 120 兆までのパラメータ サイズをサポートします。 3. SwarmX : ほぼ線形のスケーラビリティ、 192 CS-2相互接続をサポート単一の CS-2 マシンで特定のレイヤーのすべてのパラメータを保存できますが、Cerebras は、データの並列処理を可能にするために、高性能相互接続ファブリック テクノロジである SwarmX の使用も提案しています。 このテクノロジーは、Cerebras のオンチップ構造をオフチップに拡張することで、AI クラスターの境界を拡大します。 歴史的に、AI クラスターの規模が大きくなると、パフォーマンスと電力の大幅な低下が伴います。コンピューティングでは、パフォーマンスは線形以下で拡大しますが、電力とコストは線形以上で拡大します。クラスターに GPU が追加されるにつれて、各プロセッサが問題解決に貢献する度合いは低下します。 SwarmX 構造は通信とコンピューティングの両方に使用され、クラスターがほぼ線形のパフォーマンス拡張を実現できるようにします。つまり、16 システムに拡張すると、ニューラル ネットワークのトレーニング速度が約 16 倍に向上します。 MemoryX から独立した構造で拡張可能です。各 MemoryX ユニットは任意の数の CS-2 で使用できます。 この完全に分離されたモードでは、SwarmX ファブリックは 2 台から最大 192 台の CS-2 までのスケーリングをサポートし、各 CS-2 は 850,000 個の AI 最適化コアを提供するため、最大 1 億 6,300 万個の AI 最適化コアのクラスターをサポートします。 フェルドマン氏は、CS-2の利用率ははるかに高いと述べた。他の方法の使用率は 10% から 20% ですが、Cerebras は最大規模のネットワークで 70% から 80% の使用率を誇ります。 「CS2 1 台あたり現在数百の GPU が置き換えられていますが、クラスター アプローチにより数千の GPU を置き換えることも可能になりました。」 4.選択可能なスパース性: 動的スパース性により計算効率が向上スパース性は計算効率を向上させるために重要です。 AI コミュニティが大規模モデルのトレーニングにかかるコストの急激な増加に取り組んでいるため、スパース性やその他のアルゴリズム手法を使用して、最先端の精度でモデルをトレーニングするために必要な計算 FLOP の数を削減することがますます重要になっています。 既存のスパース性研究により、すでに速度が 10 倍向上しています。 トレーニングを高速化するために、Cerebras は、ソリューションを見つけるために必要な計算負荷を軽減し、応答時間を短縮する新しいスパース手法である Selectable Sparsity を提案しました。 Cerebras WSE は、スパース コンピューティング用に設計されたきめ細かいデータ フロー アーキテクチャに基づいています。850,000 個の AI 最適化コアは、0 を個別に無視し、非ゼロのデータのみを計算できます。これは他のアーキテクチャではできないことです。 ニューラル ネットワークでは、スパース性にはいくつかの種類があります。スパース性はアクティベーションとパラメータの両方に存在する可能性があり、構造化されている場合も構造化されていない場合もあります。 Cerebras アーキテクチャの独自のデータ フロー スケジューリングと巨大なメモリ帯域幅により、このタイプのきめ細かい処理が可能になり、動的スパース性や非構造化スパース性を含むあらゆる形式のスパース性を高速化できます。その結果、CS-2 はスパース性を選択して調整し、特定の程度の FLOP 削減を実現して、応答時間を短縮できます。 結論: 新しい技術の組み合わせにより、クラスターの拡張がより簡単になりますこれまで、大規模なクラスターはセットアップと構成の課題に悩まされており、大規模な GPU クラスターで実行するためのニューラル ネットワークの準備と最適化には、より多くの時間が必要です。 GPU クラスターで適切な利用率を達成するには、研究者はモデルを手動で分割し、メモリ サイズと帯域幅の制限を管理し、追加のハイパーパラメータとオプティマイザーのチューニング、その他の複雑で反復的な操作を実行する必要があることがよくあります。 Cerebras は、Weight Streaming、MemoryX、SwarmX などのテクノロジーを組み合わせることで、大規模なクラスターの構築プロセスを簡素化します。スケーリングの複雑さを完全に排除した、根本的に異なるアーキテクチャを開発しました。 WSE-2 は十分に大きいため、ニューラル ネットワークのレイヤーを複数の CS-2 に分割する必要はありません。現在最大のネットワーク レイヤーでも、単一の CS-2 にマッピングできます。 Cerebras クラスター内の各 CS-2 コンピューターは同じソフトウェア構成を持ち、別の CS-2 を追加してもジョブの実行にほとんど変化はありません。その結果、数十台の CS-2 でニューラル ネットワークを実行することは、単一のシステムで実行するのと同じになり、クラスターのセットアップは、単一のマシンのワークロードをコンパイルし、必要なクラスター サイズのすべてのマシンに同じマッピングを適用するだけで済みます。 全体として、Cerebras の新しい技術の組み合わせは、超大規模 AI モデルの実行を加速するように設計されています。ただし、現在の AI 開発の進歩を考えると、このクラスター システムを使用できる世界の機関の数は限られると予想されます。 |
>>: あなたの疑問に答える3つの側面:「怠け者」は人工知能に置き換えられるでしょうか?
海外メディアの報道によると、1月26日、GoogleはLumiereと呼ばれる人工知能ビデオジェネレ...
従来の自動車と比較して、自動運転車は、車両が乗客を安全に目的地まで輸送できるかどうかという実用的な目...
[[313923]]今日は2020年2月2日、「千年に一度の対称の日」として知られています。202...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
COVID-19 は世界中の人々の日常生活のあり方を変えましたが、実店舗ほどその影響を痛切に感じてい...
[[207297]] LTR のエントリーレベルのモデルは線形モデルです。この記事では線形モデルを例...
1956 年のダートマス会議で AI が提案されて以来、AI 研究はいくつかの浮き沈みを経験してきま...
10月17日から19日まで、2019年中国コンピュータカンファレンス(CNCC2019)が蘇州で開催...
機械学習技術の発展により、企業内のさまざまな構造化コンテンツや非構造化コンテンツから、より多くの情報...
背景分散コンセンサスアルゴリズム(Consensus Algorithm)は、分散コンピューティング...
週末にニュースを見て衝撃を受けました。Google は最近、同社が開発したロボット (AI) システ...
RPA ツールの使用はここ数年で急増しています。今年のパンデミックにより、組織は、特に RPA が最...
5月のI/Oカンファレンスでは、Med-PaLM 2が大幅にアップグレードされ、エキスパートレベルに...
8月4日、中国北方工業集団公司、北奔重型トラック集団有限公司、渤海、松山湖材料研究所は調印式を開催し...
インターネット企業の中で、Google は間違いなく勝者であり、方向性をリードする企業です。同社の技...