業界: 過去数か月で、古い AI チップの価格が下がり、大規模モデルのトレーニングのコストが 60% 低下しました。

業界: 過去数か月で、古い AI チップの価格が下がり、大規模モデルのトレーニングのコストが 60% 低下しました。

1月24日のニュースでは、大規模言語モデル(LLM)の開発にはコストがかかることがよく知られています。これには、モデル自体の研究開発だけでなく、クラウドでこれらのモデルを実行するコストも含まれます。人工知能のスタートアップ企業 Anthropic を例に挙げてみましょう。クラウドでモデルを実行するコストは、モデルのトレーニングコストを除いて、先月の同社の収益のほぼ半分を占めました。

しかし、最近の技術の進歩により、大規模な言語モデルの開発と実行にかかるコストが削減される見込みです。これが大規模な言語モデル開発を高利益率のソフトウェアビジネスに変えるには十分かどうかは明らかではありませんが、最も差し迫ったコスト問題の多くを軽減するのに役立つはずです。

企業向け AI ツールを開発するスタートアップ企業 Writer を例に挙げましょう。同社の共同創業者兼最高技術責任者のワシーム・アルシク氏は、エヌビディアのA100 GPUなど一部の旧型AIチップの価格下落により、過去3~4カ月でモデルのトレーニングコストを約60%削減できたと述べた。さらに、Nvidia はソフトウェア パフォーマンスを最適化し、開発者がこれらのチップ上で大規模なモデルをより速くトレーニングおよび実行できるようにしました。

しかし同時に、クラウド コンピューティング サービス プロバイダーがさらに多くの H100 チップをリリースしたため、Writer は大規模な言語モデルのトレーニングにさらに多くの新しい Nvidia チップを使用するようになりました。アルシェイク氏は、これらの新しいチップは高価だが、モデルのトレーニングでは A100 よりも高速であると指摘した。

開発者はコストを削減するために、さまざまな新しいトレーニング手法や構成も活用しています。 GPT-4 のような大規模な言語モデルは、実際には 1 つの巨大なモデルではなく、それぞれが異なるトピックに特化した複数の「エキスパート」モデルで構成されています。このエキスパートの組み合わせ (MoE または ME) は、クエリがモデル全体ではなくモデルの特定の部分のみをトリガーするため、計算効率が高くなります。

量子化や大規模言語モデルの低次適応などの他の技術により、モデルのパフォーマンスへの影響を最小限に抑えながら、モデルのトレーニングと調整を低コストで行うことができます。

大規模な言語モデルの開発者は、ハードウェアをより効率的に使用する方法も見つけました。 Google の研究者は、GPT-3 のトレーニング中、OpenAI の GPU はデータが入力されるのを待って、約 80% の時間アイドル状態だったと推定しています。つまり、GPU リソースを十分に活用していないことになります。しかし、GPU ディストリビューター Together の主任科学者 Tri Dao 氏は、FlashAttention-2 と呼ばれる別の技術を使用することで、アイドル時間を約 30% 削減できると述べています。フランスの人工知能スタートアップ企業ミストラルを含む多くの開発者がすでにこの技術を活用し始めている。

AI 開発者はコストを削減するために多くのツールを利用できますが、それがすべて使用されているわけではありません。 OpenAIやAnthropicなどの最先端モデルの開発者は、優れたチップ、人材、データリソースを追求しているため、利益率の目標を一時的に保留する可能性があります。

たとえば、Facebook の親会社 Meta の CEO であるマーク・ザッカーバーグ氏は、同社が年末までに 35,000 台の H100 GPU を取得する計画 (総額 70 億ドル以上) を発表しました。これは、たとえ古い GPU の方が手頃な価格であっても、強力な企業は最先端のチップを購入するために多額の費用を費やす用意があることを示しています。

さらに、大規模な言語モデルをトレーニングするために新しいデータを取得するコストも無視してはなりません。 OpenAIやAppleのような企業が出版社からコンテンツのライセンスを取得するために支払う料金は、些細なことのように思えるかもしれないが、将来的には劇的に増加する可能性がある。大規模言語モデルは徐々に新しいモデルのための「合成」トレーニング データを生成していますが、再現できない高品質な情報がまだたくさんあります。

<<:  ビッグバンを証明した男が亡くなった!宇宙背景放射の発見でノーベル賞受賞者が90歳で死去

>>:  1万語の要約 | 2023年のビッグモデルと自動運転の論文を簡単に見る

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

2020年第1四半期の人工知能の最新進歩

かつてはSFの世界であり、コンピューティングの世界の非現実的な夢であった人工知能が、今や現実のものと...

機械学習プロジェクトに十分なデータがありませんか?ここに5つの良い解決策があります

人工知能プロジェクトに着手する企業の多くは素晴らしいビジネスアイデアを持っていますが、企業の AI ...

最も暑い夏の日がやってきました。ドローンを飛ばすのに最適な時期です

さて、一年で最も暑い時期、真夏が正式に到来しました。今年の猛暑は7月11日から8月19日までの40日...

...

優れたオープンソース音声認識エンジン13選

自動音声認識 (ASR) は、人間とコンピュータの相互作用において重要な役割を果たし、転写、翻訳、デ...

MITテクノロジーレビューが2019年の世界トップ10の画期的テクノロジーを発表

MITテクノロジーレビューは2001年以来、毎年その年の「トップ10ブレークスルーテクノロジー」を選...

人工知能の応用は何ですか?

近年の人工知能の波の台頭により、無人運転車が再び話題となり、国内外の多くの企業が自動運転や無人運転車...

...

AIが書いた記事は教師を本当に騙すことができる

過去数年間、機械学習 (ML) と人工知能 (AI) の専門家は、以前は完全に人間が実行できると考え...

KServe、Kubernetes環境に基づく高度にスケーラブルな機械学習デプロイメントツール

ChatGPT のリリースにより、機械学習技術の活用を避けることがますます難しくなってきています。メ...

2020~2030年:人工知能が主流となる10年

ロボット工学者でありSF作家でもあるアイザック・アシモフは、小説『ロボット』(1950年)の中で、2...

ストーリーを伝えれば、動画が編集されます。AI による動画編集の自動化により、パンダの目を持つ編集者が解放されます。

ビデオ編集は、編集者が適切なフレームを見つけてつなぎ合わせる必要がある、時間と労力を要する作業です。...

2457億のパラメータ!世界最大のAIモデル「Source 1.0」がリリース、中国が独自のGPT-3を製作

[[426889]]古代の学者たちは、一杯の酒を飲みながら心の奥底にある感情を表現したり、武宇寺に...

...

...