この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 どの AI チップが最高ですか?今では、直接的な比較と参照が可能です。 英国のシニアチップエンジニア、ジェームズ・W・ハンロン氏が、AIトレーニングチップのトップ10をリストアップしました。 また、AIトレーニングチップの最新の議論と概要でもある、さまざまな指標の横並びの比較も提供します。 その中で、Huawei Ascend 910は唯一中国のチップメーカーが選んだチップであり、その性能も今回の比較で示されています。 △ *は推測、†は単一チップデータを表します。 セレブラス ウェーハスケールエンジン このチップは今年8月に正式に発売され、「Cerebras Wafer Scale Engine」(略してWSE)と呼ばれています。 最大の特徴は、論理演算、通信、メモリを1つのシリコンチップに統合していること。ディープラーニング専用に設計されたチップです。 一気に 4 つの世界記録を樹立:
このような印象的なデータが得られる理由は、 84 個の高速相互接続チップを統合しているためです。FP32 上の単一チップのピーク性能は 40 テラフロップスで、チップ電力は 15 キロワットに達し、これは AI クラスターに匹敵します。 オンチップ キャッシュも 18GB に達し、これは GPU キャッシュの 3,000 倍です。1 秒あたり 9PB のメモリ帯域幅を提供でき、これは GPU よりも 10,000 倍高速です。 ウェーハスケールの統合は新しいアイデアではありませんが、歩留まり、電力供給、熱膨張に関連する問題により、商業化が困難になっています。これらの点において、Cerebras は対応するソリューションを提供しています。
Cerebras は、Sean Lie (チーフ ハードウェア アーキテクト)、Andrew Feldman (CEO) らによって 2016 年に設立されました。後者はマイクロサーバー会社 SeaMicro を設立し、同社を AMD に 3 億 3,400 万ドルで売却した。 同社はカリフォルニア州に194人の従業員を抱えており、そのうち173人はエンジニアで、これまでにベンチマークなどのベンチャーキャピタル企業から1億1200万ドルの資金を調達している。 さらに読む: 史上最大のAIチップが誕生:462平方センチメートル、40万コア、1兆2千億個のトランジスタ、4つの世界記録を樹立 Google TPU (v1、v2、v3) Google の TPU シリーズ チップは 2016 年に正式にリリースされました。第 1 世代のチップである TPU v1 は推論にのみ使用され、整数演算のみをサポートしていました。 PCIe-3 を介して命令を送信し、行列乗算を実行し、活性化関数を適用することで、ホスト CPU を高速化し、設計と検証にかかる時間を大幅に節約します。主なデータは次のとおりです。
IOデータ:
2017 年 5 月には、TPU v1 の浮動小数点演算機能が向上し、メモリ容量、帯域幅、HBM 統合メモリが強化された Google TPU v2 がリリースされ、推論だけでなくトレーニングにも役立つようになりました。単一チップのデータは次のとおりです。
シングルコアデータ:
IOデータ:
Google TPU v2 のリリースから 1 年後、Google はチップの新しいバージョンである TPU v3 をリリースしました。 TPU v3 についての詳細はほとんどありませんが、TPU v2 の増分改訂版に過ぎず、パフォーマンスが 2 倍になり、HBM2 メモリが追加されて容量と帯域幅が 2 倍になると思われます。単一チップのデータは次のとおりです。
IOデータ:
さらに読む: TPU 3.0 について知りたいですか?ジェフ・ディーンがこのビデオを見ることを勧めています グラフコアIPU 2016 年に設立された Graphcore は、資本や業界の大手企業から支持されているだけでなく、業界のリーダーからも認められています。 同社は2018年12月に、評価額17億ドルで2億ドルのシリーズD資金調達ラウンドを完了したことを発表した。投資家には、BMWやマイクロソフトなどの業界大手のほか、ソフィナやアトミコなどの有名ベンチャーキャピタル企業も含まれる。 AI界の巨人ヒントン氏とディープマインド創業者のハサビス氏は両者とも直接賞賛の意を表した。 Graphcore IPU は同社の主力製品であり、高帯域幅の「スイッチ」相互接続を介して相互に接続された、小さなメモリを備えた多数の単純なプロセッサを備えた高度な並列アーキテクチャを備えています。 そのアーキテクチャは、バルク同期並列処理 (BSP) モデルに基づいて動作し、プログラムの実行は一連の計算および交換段階として進行します。同期は、すべてのプロセスがスワップを開始する準備ができていることを確認するために使用されます。 BSP モデルは、同時実行のリスクを排除する強力なプログラミング抽象化であり、BSP の実行により、計算段階と交換段階でチップのエネルギーを最大限に活用できるため、電力消費をより適切に制御できます。 10 個の IPU 間リンクをリンクすることで、より大きな IPU チップ システムを構築できます。主なデータは次のとおりです。
IOデータ:
シングルコアデータ:
さらに読む: 設立から2年後、17億ドルの価値を持つAIチップ企業はBMWとマイクロソフトから投資を受けた。 ハバナラボ ガウディ 同じく2016年に設立されたHabana Labsは、イスラエルのAIチップ企業です。 同社は2018年11月に7,500万ドルのシリーズB資金調達を完了し、総資金調達額は約1億2,000万ドルとなった。 Gaudiチップは今年6月に発表され、NvidiaのV100と直接競合する。 全体的な設計も GPU に似ており、特に SIMD 並列処理と HBM2 メモリが強化されています。 このチップは 10 個の 100G イーサネット リンクを統合し、リモート ダイレクト メモリ アクセス (RDMA) をサポートします。 Nvidia の NVLink や OpenCAPI と比較すると、このデータ転送機能により、市販のネットワーク機器を使用して大規模なシステムを構築できるようになります。主なデータは次のとおりです。
TPC コアデータ:
IOデータ:
ファーウェイ アセンド 910 NVIDIA V100を直接ターゲットにしたHuawei Ascend 910は、今年8月に正式に商用化され、業界最強のAIトレーニングチップとして知られている。同社はディープラーニングのトレーニングシナリオに重点を置いており、主な顧客は AI データサイエンティストやエンジニアです。
コアデータは次のとおりです。
相互接続とIOデータ:
単一の DaVinci カーネル データ:
さらに読む: Huawei の最も強力な AI チップが市販されています。Nvidia V100 の 2 倍の性能です。オープンソースの AI フレームワーク、TensorFlow と PyTorch のベンチマーク インテル NNP-T これは、Xeon Phi に続く Intel の AI トレーニング チップへの 2 度目の進出です。4 年の歳月と 4 つのスタートアップ企業の買収が伴い、5 億ドル以上の費用がかかりました。今年 8 月にリリースされました。 ニューラル ネットワーク トレーニング プロセッサ NNP-T の「T」は Train の略で、このチップが AI 推論に使用されることを意味します。プロセッサのコード名は Spring Crest です。 NNP-Tは、Intelの競合企業TSMCによって16nm FF+プロセスを使用して製造される予定です。 NNP-T は 270 億個の 16nm トランジスタ、680 平方ミリメートルのシリコン ウェーハ面積、60mm x 60mm の 2.5D パッケージを備え、24 個のテンソル プロセッサのグリッドを内蔵しています。 コア周波数は最大1.1GHzに達し、60MBのオンチップメモリ、4つの8GB HBM2-2000メモリを搭載し、x16 PCIe 4インターフェースを使用し、TDPは150〜250Wです。 各テンソル処理ユニットには、数学コプロセッサの操作を指示するマイクロコントローラがあり、カスタム マイクロコントローラ命令で拡張できます。 NNP-T は、TensorFlow、PyTorch、PaddlePaddle という 3 つの主要な主流の機械学習フレームワークと、C++ ディープラーニング ソフトウェア ライブラリおよびコンパイラー nGraph をサポートしています。 計算能力の点では、このチップは1秒間に最大119兆回の演算(119TOPS)に達することができるが、IntelはこれがINT8ベースかINT4ベースかを明らかにしていない。 比較すると、Nvidia Tesla T4 の計算能力は、INT8 で 130TOPS、INT4 で 260TOPS です。 さらに読む: インテル初のAIチップがついにリリース。トレーニングと推論の両方に使用可能。4つの企業を買収するのに4年と5億ドルを要した Nvidia Voltaアーキテクチャチップ 2017 年 5 月に発表された NVIDIA Volta では、Pascal アーキテクチャから Tensor コア、HBM2、NVLink 2.0 が導入されました。 NVIDIA V100 チップはこのアーキテクチャに基づく最初の GPU チップであり、そのコア データは次のとおりです。
IOデータ:
Nvidia Turingアーキテクチャチップ Turing アーキテクチャは、2018 年 9 月にリリースされた Volta アーキテクチャのアップグレード版ですが、CUDA コアと Tensor コアの数が少なくなっています。 そのため、サイズが小さくなり、消費電力も少なくなります。機械学習タスクに加えて、リアルタイムのレイトレーシングを実行するように設計されています。コアデータは次のとおりです。
IOデータ:
参考文献: https://www.jameswhanlon.com/new-chips-for-machine-intelligence.html |
<<: レビュー: 8 月に Github で注目すべき 7 つのデータ サイエンス プロジェクト
>>: モデルはわずか1MBで、軽量な顔検出モデルはオープンソースであり、その効果は主流のアルゴリズムに劣らない。
オートエンコーダ(AE)は、半教師あり学習や教師なし学習で使用される人工ニューラルネットワーク(AN...
人工知能には大きな可能性があり、その可能性と危険性の両方を兼ね備えています。 AI を責任を持って使...
翻訳者 |ブガッティレビュー | Chonglou私はしばらくの間ChatGPTとBardを使用して...
制作:ビッグデータダイジェスト編集部長い間待ち望まれていた『ゲーム・オブ・スローンズ』の最終シーズン...
[[241846]]タイトル画像はVisual Chinaより過去2年間で、子供向けのロボット教育...
ACM ゴードン・ベル賞は 1987 年に設立され、計算機協会によって授与されます。スーパーコンピュ...
畳み込みニューラルネットワークネットワーク構造図図2 畳み込みニューラルネットワークの構造図畳み込み...
映画データベース (TMDB) は映画データ用の API を提供し、ユーザーはこのデータベースからデ...
最新のデータへの投資は人工知能の拡張を成功させる上で重要ですが、調査によると、企業の半数がコストの障...
[[228688]]あなたはキャンパスライフに満足していますか?多くの人が「はい」と答えると思いま...
今年に入ってから、医療提供方法や患者がより積極的に医療に参加できる方法を変革するために AI を使用...
「大丈夫ですよ。」 15年間工場で働いてきた「古い」労働者として、今日は人工知能についての私の見解を...