世界のコンピューティングパワーを飲み込む! Google GeminiはGPT-4の5倍の計算能力を持ち、TPUの切り札でOpenAIを圧倒していると言われている

世界のコンピューティングパワーを飲み込む! Google GeminiはGPT-4の5倍の計算能力を持ち、TPUの切り札でOpenAIを圧倒していると言われている

本日は、有名な SemiAnalysis アナリストの Dylan Patel 氏と Daniel Nishball 氏が、再び業界の内部情報を公開します。

このニュースは AI コミュニティ全体を再び衝撃にさらした。OpenAI の計算能力は Google のそれとは比べものにならない。

Google の次世代大型モデル Gemini は GPT-4 の 5 倍の計算能力を備えています。

Patel 氏と Nishball 氏によると、以前は GPT-4 のキラーであると報告されていた Google Gemini は、最大 ~1e26 FLOPS の計算能力を備えた新しい TPUv5 Pod でのトレーニングを開始しており、これは GPT-4 のトレーニングの計算能力の 5 倍です。

今日、TPUv5 により、Google はコンピューティング能力の王者となりました。 OpenAI、Meta、CoreWeave、Oracle、Amazon が所有する GPU の合計数よりも多くの TPUv5 を搭載しています。

TPUv5 はシングルチップのパフォーマンスでは Nvidia の H100 に匹敵することはできませんが、Google の最も強力な利点は、効率的で巨大なインフラストラクチャを備えていることです。

意外にも、この暴露はサム・アルトマンの注目を集めた。彼は「Google が、社内のマーケティング/採用チャートを semianalysis という人物に公開させたとは信じられない。笑える」と語った。

しかし、一部のネットユーザーは、これは単なる解説記事であり、実際のニュースではなく、単なる憶測だと述べた。

しかし、ディラン・パテルが関与した2つの記事は例外なく確認され、業界に騒動を巻き起こした。 Googleの内部文書の漏洩(「私たちには堀はない、OpenAIにもない」)であろうと、

Google DeepMind CEO デミス・ハサビス氏がインタビューでGoogleの堀の現実を認める

あるいはGPT-4のアーキテクチャやパラメータの内部情報が漏洩したのか——

この衝撃的な記事がどれほどの重要な内部情報をもたらすのか、詳しく見てみましょう。

眠れる巨人グーグルが目覚めた

Transformer の先駆的な研究「Attention is all you need」の著者の一人であり、LaMDA と PaLM の主要参加者でもある Noam Shazeer 氏は、かつて MEENA モデルに触発された記事を執筆しました。

この記事で彼は、ChatGPT の誕生が世界にもたらす変化を正確に予測しました。LLM はますます私たちの生活に統合され、世界のコンピューティング能力を消費するようになるだろうと予測しました。

この記事は時代を先取りしたものだったが、Google の意思決定者からは無視された。

論文アドレス: https://arxiv.org/pdf/2001.09977.pdf

現在、Google はコンピューティング パワー王国への鍵をすべて握っています。眠れる巨人が目覚め、その順方向反復速度は止められません。2023 年末までに、Google のコンピューティング パワーは GPT-4 事前トレーニング FLOPS の 5 倍に達するでしょう。

Google の現在のインフラストラクチャを考慮すると、この数は来年末までに 100 倍に急増する可能性があります。

Google は創造性を削減したり、既存のビジネス モデルを変更したりすることなく、この道を追求し続けるのでしょうか?現時点では誰も知りません。

GPU が豊富、GPU が貧弱

現在、Nvidia GPU を保有する企業は、最も強力なハード カレンシーを持っていると言えます。

OpenAI、Google、Anthropic、Inflection、X、Metaなどの大手企業やスタースタートアップ企業は、20万個以上のA100/H100チップを保有しています。平均すると、研究者1人当たり大量のコンピューティングリソースが提供されます。

おそらく 100 から 1,000 個の GPU を所有している個々の研究者は、手近にある小さなプロジェクトでいろいろと試すことができます。

CoreWeaveはNvidia H100を担保にGPUを追加購入した

2024 年末までに、GPU の総数は 10 万に達する可能性があります。

現在、シリコンバレーでは、トップクラスの機械学習研究者が最も誇らしい話題は、所有している GPU の数、または近々所有する予定の GPU の数を自慢することです。

過去 4 か月間で、この傾向はますます広まり、競争が公にされるまでになりました。より多くの GPU を所有する企業が、トップクラスの研究者をそこに集めることになります。

Meta は、世界で 2 番目に多い H100 GPU を保有しているという事実を採用戦略として活用しました。

一方、数え切れないほどの小規模なスタートアップ企業やオープンソースの研究者は、GPU 不足に苦しんでいます。

十分な仮想メモリを備えた GPU がないため、時間を無駄にし、重要でないことに多くの時間とエネルギーを費やすことしかできません。

リーダーボード形式のベンチマークのいくつかの小さなモデルをより大きなモデルに微調整することしかできず、これらのモデルの評価方法も断片化されており、正確性や有用性よりもスタイルを重視しています。

また、より大規模で高品質の事前トレーニング データセットと IFT データを使用した場合にのみ、小規模なオープン ソース モデルを実際のワークロードで改善できることも知りません。

「誰がどのくらいのH100をもらえるのか、いつもらえるのかが、今シリコンバレーで一番の噂だ」OpenAIの共同創設者アンドレイ・カルパシーはかつてこう言った。

はい、GPU を効率的に使用することは重要ですが、GPU が不足している人の多くはこれを無視しています。彼らは規模の効率を気にしておらず、時間を有効に活用していません。

来年までに、世界中に 350 万台の H100 が溢れ、これらの GPU に恵まれない人々は商業化から完全に隔離されるでしょう。学習と実験には、手元にあるゲームと GPU のみを使用できます。

GPU が不足している人の多くは、Meta の Llama シリーズのモデルが提供する高密度モデルを依然として使用しています。

ザッカーバーグ氏の寛大さがなかったら、ほとんどのオープンソース プロジェクトはもっと悪い状況になっていただろう。

効率性、特にクライアント側の効率性を本当に重視するのであれば、MoE のようなスパース モデル アーキテクチャを選択し、より大きなデータセットでトレーニングし、OpenAI、Anthropic、Google DeepMind などの最先端の LLM ラボのような推測的デコードを使用するでしょう。

この図は、各操作の融合の失敗、アテンション メカニズムに必要なメモリ帯域幅、およびパラメータ読み取りに相当するハードウェア オーバーヘッドによって非効率性が生じることを想定しています。実際、Nvidia の FasterTransformer ライブラリなどの最適化されたライブラリを使用した場合でも、全体のオーバーヘッドはさらに大きくなる可能性があります。

不利な立場にある企業は、限界効果に必要なモデルのパフォーマンスの向上やトークン間のレイテンシの緩和、コンピューティングとメモリの容量要件の増加、メモリ帯域幅の削減に重点を置く必要があります。

モデルの小さなバッチに莫大なコストを支払うことなく、共有インフラストラクチャ上で複数の微調整されたモデルを効率的に提供することに重点を置く必要があります。

しかし、実際はその逆です。メモリ容量の制限や量子化の度合いが高すぎることに重点を置きすぎて、モデルの品質の実際の低下を無視しています。

一般的に、現在の大型モデルのランキングは完全にめちゃくちゃです。

クローズドソース コミュニティでは、これを改善するために取り組んでいる人がまだたくさんいますが、このオープン ベンチマークは意味がありません。

何らかの理由で、人々は LLM リーダーボードに病的な執着を持っており、Platypus などの役に立たないモデルにたくさんのばかげた名前を付けてきました。

将来的には、オープンソースの作業が評価、推論デコード、MoE、オープンIFTデータ、10兆以上のトークンを使用した事前トレーニングデータのクリーニングに移行できることを願っています。そうでなければ、オープンソースコミュニティは商業大手と競争することはできません。

現在、大規模モデルの戦いにおける世界地図は明確です。米国と中国が引き続きリードする一方で、欧州は、ジュール・ヴェルヌのような政府支援のスーパーコンピューターがあるにもかかわらず、大規模な投資の不足と GPU 不足により遅れをとっています。中東のいくつかの国も、AIのための大規模なインフラを構築するための投資を増やしています。

もちろん、GPU が不足しているのは少数の小規模なスタートアップ企業だけではありません。

HuggingFace、Databricks (MosaicML)、Together などの最も有名な AI 企業でさえ、依然として「GPU が貧弱」な企業に属しています。

実際、各 GPU に対応する世界トップクラスの研究者、または各 GPU に対応する潜在的顧客だけに注目すると、彼らは世界で最も GPU が不足しているグループである可能性があります。

世界クラスの研究者がいるにもかかわらず、誰もが桁違いに能力の劣るシステムに取り組んでいました。

彼らは多額の資金を調達し、何千台ものH100を購入したが、市場の大部分を獲得するには十分ではなかった。

すべてのコンピューティングパワーは競合他社から購入されます

Nvidia は、さまざまな社内スーパーコンピューターに、他のどの企業よりも何倍も多くの GPU を搭載しています。

その中で、DGX Cloud は、事前トレーニング済みのモデル、データ処理フレームワーク、ベクター データベースとパーソナライゼーション、最適化された推論エンジン、API、NVIDIA の専門家によるサポートを提供し、企業がユースケースをカスタマイズし、モデルを調整するのに役立ちます。

現在、このサービスは、SaaS、保険、製造、製薬、生産性ソフトウェア、自動車などの垂直産業の多くの大企業も引き付けています。

非公開のパートナーを数えなくても、そのリストは、アムジェン、アドビ、CCC、ServiceNow、アクセンチュア、アストラゼネカ、ゲッティイメージズ、シャッターストック、モーニングスター、エボザイン、インシリコ・メディシン、クォンティフィ、インスタディープ、オックスフォード・ナノポア、ペプトン、リレーション・セラピューティクス、アルケマブ・セラピューティクス、ランウェイなどの大手企業を含む他の競合他社のリストよりもはるかに長く、それだけでも十分に衝撃的です。

クラウド コンピューティングへの支出と社内スーパーコンピューター構築の規模を考えると、企業が Nvidia から購入している金額は、HuggingFace、Together、Databricks の合計よりも多くなるようです。

業界で最も影響力のある企業の 1 つとして、HuggingFace はこれを活用して巨額の投資を獲得し、より多くのモデル、カスタマイズ、推論機能を構築する必要があります。しかし、最新の資金調達では、評価額が高すぎたため、必要な金額を調達できなかった。

Databricks はデータと企業関係に追いつくことができます。問題は、7,000 人以上の顧客にサービスを提供したい場合、支出を数倍に増やす必要があることです。

残念ながら、Databricks は株式を使用して GPU を購入することはできません。彼らは、今後の私募/IPOを通じて多額の資金を調達し、その現金を使ってハードウェアへの注力をさらに強化する必要があります。

経済的な観点から見ると、まず構築してから顧客を獲得する必要があり、Nvidia もサービスに多額の資金を費やしているため、少し奇妙です。ただし、これはコンテストに参加するための前提条件でもあります。

ここで重要な点は、Databricks、HuggingFace、Together が、ほぼすべてのコンピューティング リソースの供給元である主要な競合他社に比べて大幅に遅れているということです。

つまり、Meta から Microsoft、スタートアップまで、誰もが実際には Nvidia の銀行口座にお金を入れているだけなのです。

それで、誰かが私たちをNvidiaの奴隷状態から救ってくれるのでしょうか?

はい、潜在的な救世主が存在します。Google です。

Googleはコンピューティングパワーの頂点に立っており、OpenAIはその半分以下である。

GPU は社内でも使用されていますが、Google には他にも「切り札」があります。

その中で、業界が最も期待しているのは、Google の次世代大型モデル Gemini と、現在トレーニング中の次の反復バージョンの両方が、Google の比類のない効率的なインフラストラクチャによってサポートされていることです。

Googleは2006年初頭から人工知能専用のインフラを構築するというアイデアを提案し始め、その計画は2013年に最高潮に達しました。

AI を大規模に導入するには、データセンターの数を 2 倍にする必要があることに気付きました。

そこで、Google は 3 年後に生産開始される TPU チップの準備を始めました。

最も有名なプロジェクトである Nitro プログラムは 2013 年に開始され、汎用 CPU コンピューティングとストレージを最適化するチップの開発に重点を置いています。主な目標は、サーバーのチップ設計を再考し、Google の人工知能コンピューティングのワークロードにより適したものにすることです。

2016 年以来、Google は TPU、TPUv2、TPUv3、TPUv4i、TPUv4、TPUv5 の 6 つの異なる AI チップを構築してきました。

Google は主にこれらのチップを設計しており、Broadcom と中間およびバックエンドでさまざまな協力関係を築いています。その後、Broadcom は TSMC でチップを製造しています。

TPUv2 以降、これらのチップは Samsung と SK Hynix の HBM メモリも使用します。

ジェミニとグーグルのクラウド事業を紹介する前に、内部告発者はグーグルのコンピューティング能力の驚異的な拡大に関するデータ、つまり四半期ごとに新たに追加された高度なチップの総数をいくつか公開した。

OpenAI の場合、保有する GPU の総数は 2 年で 4 倍に増加することになります。

そして Google に関しては、Google が社内用に TPUv4 (PuVerAsh)、TPUv4 lite、そして一連の GPU を保有していることを誰もが見落としています。

また、TPUv5 lite はここではカウントされませんが、小規模な言語モデルについての推論には主力となる可能性があります。

次のグラフに示すように、TPUv5 (ViperAsh) のみが視覚化されています。

彼らの能力を十分に認識したとしても、Google の計算能力は誰もが驚愕するのに十分です。

実際、Google は、OpenAI、Meta、CoreWeave、Oracle、Amazon の GPU を合わせた数よりも多くの TPUv5 を保有しています。

そして、Google はこれらの機能の大部分をさまざまなスタートアップ企業に貸し出すことができます。

もちろん、各チップ面でのパフォーマンスにおいて、TPUv5とH100の間には大きな差があります。

それはさておき、OpenAI の計算能力は Google のほんの一部に過ぎません。同時に、TPUv5 の構築により、トレーニングと推論機能が大幅に向上します。

さらに、Google の新しいマルチモーダル大規模モデル Gemini は、驚異的なスピードで進化を続けています。

Gemini は複数の TPU ポッド クラスターにアクセスでき、具体的には 7+7 ポッドでトレーニングできると言われています。

内部告発者は、第 1 世代の Gemini は TPUv4 でトレーニングされるはずだったが、これらのポッドには最大数のチップ (4096 個) が統合されておらず、チップの信頼性とホットスワップ可能性を確保するために、より少数のチップが使用されていたと述べています。

14 個のポッドすべてを適切なマスク フィールド使用率 (MFU) で約 100 日間使用した場合、Gemini のトレーニングに必要なハードウェア FLOPS は 1e26 を超えます。

参考までに、内部告発者は前回の「GPT-4 アーキテクチャ」の記事で、GPT-4 モデルの FLOPS が 2e25 よりわずかに高いことを詳しく紹介しました。

また、Google モデルの FLOPS 使用率は、大規模なトレーニングでも TPUv4 で非常に良好であり、これは Gemini の最初の反復であり、GPT-4 よりもはるかに高くなっています。

これは、強化されたマルチモーダル性などの優れたモデル アーキテクチャに関して特に当てはまります。

本当に驚くべきことは、Gemini の次のイテレーションが、最大 ~1e26 FLOPS の TPUv5 ベースのポッドでトレーニングを開始したことです。これは、GPT-4 のトレーニングに使用されたものの 5 倍です。

TPUv5でトレーニングされた最初のGeminiはデータに問題があったと言われており、Googleがそれを公開するかどうかは不明です。

この ~1e26 モデルは、ジェミニとして一般に知られているモデルであると考えられます。

上のグラフを振り返ってみると、これは Google の最終形態ではありません。競争は始まっており、Google は大きな優位性を持っています。

彼らがこれに焦点を合わせて実装できれば、少なくとも事前トレーニングの計算のスケーリングと実験の速度の点では勝利するでしょう。

OpenAI の最も強力なクラスターよりも強力なクラスターを複数持つこともできます。 Google は一度失敗しましたが、また失敗するでしょうか?

現在、Google のインフラストラクチャは社内のニーズを満たすだけでなく、Anthopic などの最先端のモデル企業や世界最大規模の企業も、社内のモデルのトレーニングと推論のために TPUv5 にアクセスします。

Google は TPU をクラウド事業部門に移行し、ビジネス認識を再構築することで、一部の大企業の支持を獲得し、果敢に戦うことができました。

今後数か月以内に Google が勝利することになるだろう。宣伝されている企業の中には、TPU の費用を支払う企業もあるでしょう。

<<: 

>>:  世界初の大型モデルエージェントが発売!口を動かすだけでPCが働き者になる

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

カリフォルニア州の自動運転路上試験規則が変更され、軽輸送車両も許可範囲に含まれる可能性がある

現在、多くの自動運転車開発者は米国カリフォルニア州(以下、「カリフォルニア」という)で路上試験を行う...

パンデミックの間、AI はどのようにして工場の安全な運営を維持するのに役立つのでしょうか?

[[377897]]新型コロナウイルスの感染拡大が世界中で続く中、多くの企業が業務をリモートワーク...

研究によると、AIはより多くの雇用を生み出している

フォーブスによると、人工知能(AI)によって人間の仕事が失われ、広範囲にわたる人員削減が起こると広く...

...

人工知能は医療と健康分野に破壊的な革命をもたらすだろう

ヘルスケア分野への人工知能 (AI) の導入は、今日の国際医療における最も先進的な取り組みの 1 つ...

...

脱ぐ!ドローンは1000億元の農薬市場の発展を加速させている

現在、農業の需要と供給の矛盾がますます顕著になる中、植物保護分野におけるドローンの導入と応用は、農業...

...

人工知能はリモートセンシングデータの大きな可能性を解き放ち、国勢調査の手作業が置き換えられるかもしれない

畳み込みニューラルネットワーク(CNN)と衛星画像データを使用して地域の所得レベルを予測する手法がま...

AIが気候変動に効果的に対抗する方法

人工知能(AI)の活用は気候変動との闘いに貢献することができます。既存の AI システムには、天気を...

ディープラーニングとマシンビジョンの重要性を分析!ロボットを自由にさせる?

ディープラーニングは産業用ロボットの中核技術であり、ロボットが制約から解放され、環境の変化に応じて自...

...

AAAI 2024 フェロー発表、清華大学の朱軍教授が選出

AAAI(人工知能振興協会)は、人工知能分野で国際的に最も権威のある学術団体の一つです。フェローは協...

ユーザーの旅行需要予測

1. 背景と課題1. 背景Fliggy アプリ、Alipay、Taobao では、航空券、鉄道チケッ...

6つの主要なソートアルゴリズム

6 つの一般的なソート アルゴリズムの GIF アニメーションがあり、ソートの考え方をより簡単に理解...