業界: 過去数か月で、古い AI チップの価格が下がり、大規模モデルのトレーニングのコストが 60% 低下しました。

業界: 過去数か月で、古い AI チップの価格が下がり、大規模モデルのトレーニングのコストが 60% 低下しました。

1月24日のニュースでは、大規模言語モデル(LLM)の開発にはコストがかかることがよく知られています。これには、モデル自体の研究開発だけでなく、クラウドでこれらのモデルを実行するコストも含まれます。人工知能のスタートアップ企業 Anthropic を例に挙げてみましょう。クラウドでモデルを実行するコストは、モデルのトレーニングコストを除いて、先月の同社の収益のほぼ半分を占めました。

しかし、最近の技術の進歩により、大規模な言語モデルの開発と実行にかかるコストが削減される見込みです。これが大規模な言語モデル開発を高利益率のソフトウェアビジネスに変えるには十分かどうかは明らかではありませんが、最も差し迫ったコスト問題の多くを軽減するのに役立つはずです。

企業向け AI ツールを開発するスタートアップ企業 Writer を例に挙げましょう。同社の共同創業者兼最高技術責任者のワシーム・アルシク氏は、エヌビディアのA100 GPUなど一部の旧型AIチップの価格下落により、過去3~4カ月でモデルのトレーニングコストを約60%削減できたと述べた。さらに、Nvidia はソフトウェア パフォーマンスを最適化し、開発者がこれらのチップ上で大規模なモデルをより速くトレーニングおよび実行できるようにしました。

しかし同時に、クラウド コンピューティング サービス プロバイダーがさらに多くの H100 チップをリリースしたため、Writer は大規模な言語モデルのトレーニングにさらに多くの新しい Nvidia チップを使用するようになりました。アルシェイク氏は、これらの新しいチップは高価だが、モデルのトレーニングでは A100 よりも高速であると指摘した。

開発者はコストを削減するために、さまざまな新しいトレーニング手法や構成も活用しています。 GPT-4 のような大規模な言語モデルは、実際には 1 つの巨大なモデルではなく、それぞれが異なるトピックに特化した複数の「エキスパート」モデルで構成されています。このエキスパートの組み合わせ (MoE または ME) は、クエリがモデル全体ではなくモデルの特定の部分のみをトリガーするため、計算効率が高くなります。

量子化や大規模言語モデルの低次適応などの他の技術により、モデルのパフォーマンスへの影響を最小限に抑えながら、モデルのトレーニングと調整を低コストで行うことができます。

大規模な言語モデルの開発者は、ハードウェアをより効率的に使用する方法も見つけました。 Google の研究者は、GPT-3 のトレーニング中、OpenAI の GPU はデータが入力されるのを待って、約 80% の時間アイドル状態だったと推定しています。つまり、GPU リソースを十分に活用していないことになります。しかし、GPU ディストリビューター Together の主任科学者 Tri Dao 氏は、FlashAttention-2 と呼ばれる別の技術を使用することで、アイドル時間を約 30% 削減できると述べています。フランスの人工知能スタートアップ企業ミストラルを含む多くの開発者がすでにこの技術を活用し始めている。

AI 開発者はコストを削減するために多くのツールを利用できますが、それがすべて使用されているわけではありません。 OpenAIやAnthropicなどの最先端モデルの開発者は、優れたチップ、人材、データリソースを追求しているため、利益率の目標を一時的に保留する可能性があります。

たとえば、Facebook の親会社 Meta の CEO であるマーク・ザッカーバーグ氏は、同社が年末までに 35,000 台の H100 GPU を取得する計画 (総額 70 億ドル以上) を発表しました。これは、たとえ古い GPU の方が手頃な価格であっても、強力な企業は最先端のチップを購入するために多額の費用を費やす用意があることを示しています。

さらに、大規模な言語モデルをトレーニングするために新しいデータを取得するコストも無視してはなりません。 OpenAIやAppleのような企業が出版社からコンテンツのライセンスを取得するために支払う料金は、些細なことのように思えるかもしれないが、将来的には劇的に増加する可能性がある。大規模言語モデルは徐々に新しいモデルのための「合成」トレーニング データを生成していますが、再現できない高品質な情報がまだたくさんあります。

<<:  ビッグバンを証明した男が亡くなった!宇宙背景放射の発見でノーベル賞受賞者が90歳で死去

>>:  1万語の要約 | 2023年のビッグモデルと自動運転の論文を簡単に見る

ブログ    

推薦する

プロのようにビッグデータをマイニングするにはどうすればいいでしょうか?

股関節置換手術にはどれくらいの時間がかかりますか?これは病院にとって学術的な問題ではありません。 2...

...

量子コンピューティングの冬が来る、ルカン氏:現実は残酷、誇大宣伝が多すぎる

「量子コンピューティングの冬が来るのか?」今週の金曜日、AIの先駆者であるヤン・ルカン氏の発言が議論...

「顔認識」は諸刃の剣です。どうすればそれを利用して被害を回避できるのでしょうか?

[[356811]]顔認識は人工知能の画期的な技術として、大規模に導入され始めています。顔認証ロッ...

アリインデックスシステムの設計と実践

今回の講演者は、アントグループの王高航氏です。講演のテーマは、アントインデックスシステムの設計と実践...

Li Ziqing教授はPBODの主任コンピュータービジョン科学者を務めています。

最近、中国のビッグデータおよび人工知能製品と技術の大手プロバイダーであるPERCENTは、コンピュー...

...

RNN の理論から PyTorch まで

RNN とは何か、どこで使用されているか、どのように前方および後方に伝播するか、そして PyTorc...

Google 数学 AI が Nature に発表: IMO 金メダルの幾何学レベル、定理証明は呉文軍の 1978 年の法則を上回る

Google DeepMindが再びNatureを出版、AIのAlphaシリーズが力強く復活、数学レ...

HSBC、コロナウイルス危機中にAIガードレールを導入

規制の厳しい業界の企業は、AI を導入しようとすると、いわゆる「ブラック ボックス」問題に直面するこ...

今後 3 ~ 5 年で、機械学習のどの分野の人材が最も不足するでしょうか?

[[205598]]すでにこの業界にいる私としては、今後数年間で業界にどのような機械学習の才能が必...

...

...

網膜症治療のAIが成熟する中、なぜ医療業界は「無反応」なのか?

網膜は人体の中で唯一、血管や神経細胞の変化を非侵襲的に直接観察できる組織であり、さまざまな慢性疾患の...

テクノロジーリーダーはAIGCの長所と短所をどう評価しているか

AIGC は、現代の偉大な技術的進歩の 1 つとして広く認められています。 OpenAI の Cha...