業界: 過去数か月で、古い AI チップの価格が下がり、大規模モデルのトレーニングのコストが 60% 低下しました。

業界: 過去数か月で、古い AI チップの価格が下がり、大規模モデルのトレーニングのコストが 60% 低下しました。

1月24日のニュースでは、大規模言語モデル(LLM)の開発にはコストがかかることがよく知られています。これには、モデル自体の研究開発だけでなく、クラウドでこれらのモデルを実行するコストも含まれます。人工知能のスタートアップ企業 Anthropic を例に挙げてみましょう。クラウドでモデルを実行するコストは、モデルのトレーニングコストを除いて、先月の同社の収益のほぼ半分を占めました。

しかし、最近の技術の進歩により、大規模な言語モデルの開発と実行にかかるコストが削減される見込みです。これが大規模な言語モデル開発を高利益率のソフトウェアビジネスに変えるには十分かどうかは明らかではありませんが、最も差し迫ったコスト問題の多くを軽減するのに役立つはずです。

企業向け AI ツールを開発するスタートアップ企業 Writer を例に挙げましょう。同社の共同創業者兼最高技術責任者のワシーム・アルシク氏は、エヌビディアのA100 GPUなど一部の旧型AIチップの価格下落により、過去3~4カ月でモデルのトレーニングコストを約60%削減できたと述べた。さらに、Nvidia はソフトウェア パフォーマンスを最適化し、開発者がこれらのチップ上で大規模なモデルをより速くトレーニングおよび実行できるようにしました。

しかし同時に、クラウド コンピューティング サービス プロバイダーがさらに多くの H100 チップをリリースしたため、Writer は大規模な言語モデルのトレーニングにさらに多くの新しい Nvidia チップを使用するようになりました。アルシェイク氏は、これらの新しいチップは高価だが、モデルのトレーニングでは A100 よりも高速であると指摘した。

開発者はコストを削減するために、さまざまな新しいトレーニング手法や構成も活用しています。 GPT-4 のような大規模な言語モデルは、実際には 1 つの巨大なモデルではなく、それぞれが異なるトピックに特化した複数の「エキスパート」モデルで構成されています。このエキスパートの組み合わせ (MoE または ME) は、クエリがモデル全体ではなくモデルの特定の部分のみをトリガーするため、計算効率が高くなります。

量子化や大規模言語モデルの低次適応などの他の技術により、モデルのパフォーマンスへの影響を最小限に抑えながら、モデルのトレーニングと調整を低コストで行うことができます。

大規模な言語モデルの開発者は、ハードウェアをより効率的に使用する方法も見つけました。 Google の研究者は、GPT-3 のトレーニング中、OpenAI の GPU はデータが入力されるのを待って、約 80% の時間アイドル状態だったと推定しています。つまり、GPU リソースを十分に活用していないことになります。しかし、GPU ディストリビューター Together の主任科学者 Tri Dao 氏は、FlashAttention-2 と呼ばれる別の技術を使用することで、アイドル時間を約 30% 削減できると述べています。フランスの人工知能スタートアップ企業ミストラルを含む多くの開発者がすでにこの技術を活用し始めている。

AI 開発者はコストを削減するために多くのツールを利用できますが、それがすべて使用されているわけではありません。 OpenAIやAnthropicなどの最先端モデルの開発者は、優れたチップ、人材、データリソースを追求しているため、利益率の目標を一時的に保留する可能性があります。

たとえば、Facebook の親会社 Meta の CEO であるマーク・ザッカーバーグ氏は、同社が年末までに 35,000 台の H100 GPU を取得する計画 (総額 70 億ドル以上) を発表しました。これは、たとえ古い GPU の方が手頃な価格であっても、強力な企業は最先端のチップを購入するために多額の費用を費やす用意があることを示しています。

さらに、大規模な言語モデルをトレーニングするために新しいデータを取得するコストも無視してはなりません。 OpenAIやAppleのような企業が出版社からコンテンツのライセンスを取得するために支払う料金は、些細なことのように思えるかもしれないが、将来的には劇的に増加する可能性がある。大規模言語モデルは徐々に新しいモデルのための「合成」トレーニング データを生成していますが、再現できない高品質な情報がまだたくさんあります。

<<:  ビッグバンを証明した男が亡くなった!宇宙背景放射の発見でノーベル賞受賞者が90歳で死去

>>:  1万語の要約 | 2023年のビッグモデルと自動運転の論文を簡単に見る

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Keras の重み制約を使用してディープ ニューラル ネットワークの過剰適合を減らす

[[333587]]重み制約は、ディープラーニング ニューラル ネットワーク モデルのトレーニング ...

...

チューリング賞受賞者のヤン・ルカン氏:今後数十年間の AI 研究の最大の課題は「予測世界モデル」

ディープラーニングの大規模な応用の後、人々はさらなる技術的進歩をもたらすことができる真の汎用人工知能...

テクノロジーファイナンスからスマートファイナンスまで、民生銀行の革新的な人工知能の応用をご覧ください

[51CTO.comからのオリジナル記事] 「インターネット+」から「インテリジェンス+」まで、革新...

AI批判: GPT-3は何を話しているのか分かっていない

【51CTO.com クイック翻訳】 [[341305]] 【はじめに】 GPT-3は1750億個の...

李開復のLLaMAに基づく企業モデルだが、テンソル名が異なっており論争を巻き起こしたが、公式の回答が来た。

少し前に、オープンソースのビッグモデル分野に新しいモデル「易」が導入されました。このモデルはコンテキ...

[ビッグガイがやってくるエピソード4] データ駆動型の製品意思決定とインテリジェンス

データと製品を組み合わせるトピック 1 は、データと製品の組み合わせです。Stitch Fix を例...

...

人工知能に関するあまり知られていない3つの事実!古代中国にロボットは存在したのでしょうか?

時代の発展とテクノロジーの進歩に伴い、人工知能の分野も革新を繰り返しています。しかし、この神秘的な業...

ライブ放送室で見る高解像度1080Pは720Pほど良くないかもしれない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

AIユニコーンがIPOに群がり、資本市場を刺激。シナリオアプリケーションは複数の場所で爆発的に増加する可能性がある

美景記者:李紹廷 美景編集者:温多2020年を振り返ると、新型コロナウイルス感染症の突然の流行は間違...

...