大規模言語モデルの最大のボトルネックを突破する方法

翻訳者 |ブガッティ

レビュー | Chonglou

OpenAIのGPT-4やAnthropicのClaude 2などの大規模言語モデル(LLM)は、人間レベルのテキストを生成する能力で人々の心をとらえています。企業も同様に熱心で、多くの企業がLLMを活用して自社の製品やサービスを改善する方法を模索しています。しかし、レート制限という大きなボトルネックにより、最先端のLLM を本番環境に導入することが厳しく制限されています。このレート制限を克服する方法はありますが、コンピューティングリソースの改善なしには真の進歩は得られない可能性があります。

費用を負担する

OpenAIやAnthropicなどの企業のモデルにユーザーがアクセスできるようにするパブリックLLM APIでは、 1分あたりに処理できるトークン（テキストの単位）の数、1分あたりのリクエスト数、 1日あたりのリクエスト数に厳しい制限が課せられています。

OpenAI GPT-4へのAPI呼び出しは現在、 1 分あたり3リクエスト( RPM ) 、 1 日あたり200リクエスト、 1 分あたり最大10,000トークン( TPM )に制限されています。トップギアでは10,000 RPMが可能で、制限は300,000 TPMです。

このレート制限により、企業が毎分数百万のトークンを処理する必要がある大規模な本番アプリケーションに最先端のLLM を使用することは事実上不可能になります。リクエストの数は増え続け、数分、あるいは数時間もかかり、リアルタイム処理は不可能でした。

ほとんどの組織は、大規模にLLM を安全かつ効果的に導入することに依然として苦労しています。しかし、データの機密性や内部プロセスに関する課題に対処しても、レート制限は頑固な障壁となります。製品の使用状況とデータが蓄積されるにつれて、 LLMを中心に製品を開発しているスタートアップはすぐにボトルネックに遭遇しますが、大規模なユーザーベースを持つ大企業では最も制限が厳しくなります。特別なアクセスメカニズムがなければ、アプリケーションは機能できません。

何をするか？

レート制限の回避

1 つのアプローチは、レート制限テクノロジーを完全にバイパスすることです。たとえば、一部の特殊用途の生成AIモデルにはLLMボトルネックがありません。英国オックスフォードに拠点を置くスタートアップ企業Diffblue は、レート制限のない強化学習テクノロジーを活用しています。 1 つの処理を非常に効率的に、そして数百万行に及ぶ可能性のあるコードにわたって実行します。開発者よりも250倍速くJavaユニットテストを自動的に作成し、開発者よりも10倍速くコンパイルします。

Diffblue Coverによって記述されたユニットテストを使用すると、複雑なアプリケーションをすばやく理解できるため、企業もスタートアップ企業も自信を持って革新を進めることができます。これは、レガシーアプリケーションをクラウドに移行するのに最適です。また、人間によるレビューを必要とせずに、新しいコードを自律的に記述し、既存のコードを改善し、 CI/CDパイプラインを高速化し、変更に関連するリスクに関する深い洞察を提供することもできます。それは悪くないですね。

もちろん、 LLMに頼らざるを得ない企業もあります。彼らにはどんな選択肢があるのでしょうか?

コンピューティングリソースを増やす

1 つの選択肢は、会社のレート制限の引き上げを要求することです。これは今のところうまく機能していますが、根本的な問題は、多くのLLMプロバイダーが実際に提供できる追加機能を持っていないことです。これが問題の核心です。 GPU の可用性は、 TSMC などのファウンドリから供給されるシリコンウェハーの総数に依存します。主要 GPU メーカーである Nvidia は、大規模な推論に数千個のGPUを連結して使用するAIワークロードからの爆発的な需要を満たすのに十分なチップを調達することができません。

GPU の供給を増やす最も直接的な方法は、ファブと呼ばれる新しい半導体製造工場を建設することです。しかし、新しい工場の建設には200億ドルの費用がかかり、建設には何年もかかります。インテル、サムスンファウンドリー、TSMC、テキサスインスツルメンツなどの大手チップメーカーは、米国に新たな半導体生産施設を建設している。今のところ、みんなにできるのは待つことだけです。

その結果、GPT-4 を活用した実際の本番環境の展開はほとんどありません。 GPT-4 が実際に導入される環境の範囲は限られており、LLM はコア製品コンポーネントとしてではなく、補助機能として使用されています。ほとんどの企業はまだパイロットと概念実証を評価している段階です。レート制限を検討する前に、 LLM 自体をエンタープライズワークフローに統合する必要があります。

答えを見つける

GPU の制約によりGPT-4 の処理能力が制限されるため、多くの企業が他の生成AI モデルを使用するようになりました。たとえば、 AWS にはトレーニングと推論(トレーニング後のモデルの実行)専用の独自のチップがあり、顧客に高い柔軟性を提供します。重要なのは、すべての問題に最も強力で高価なコンピューティングリソースが必要なわけではないということです。 AWS では、Titan Light など、より安価で調整しやすいさまざまなモデルを提供しています。一部の企業は、Meta の Llama 2 のようなオープンソースモデルを微調整するなどの代替手段を模索しています。プロンプトにコンテキストを添付して応答を生成する必要がある検索拡張生成( RAG )を含む単純なユースケースでは、それほど強力ではないモデルで十分です。

より高い制限を持つ複数の古いLLM間でのリクエストの並列化、データチャンク、モデル蒸留などの他の手法も役立ちました。コストを削減し、推論の速度を上げることができる技術がいくつかあります。量子化により、モデル内の重み (通常は 32 ビットの浮動小数点数) の精度が低下します。これは新しいアプローチではありません。たとえば、 Googleの推論ハードウェアであるTensor Processing Unit (TPU) は、重みが 8 ビットの整数に量子化されたモデルでのみ動作します。モデルの精度は多少低下しますが、サイズは大幅に小さくなり、実行速度も速くなります。

「スパースモデル」と呼ばれる新しい人気の手法は、トレーニングと推論のコストを削減でき、モデル蒸留よりも労力が少なくて済みます。 LLM は、多数の小さな言語モデルの集合体のようなものです。たとえば、 GPT-4にフランス語で質問すると、モデルのフランス語処理部分のみが使用され、スパースモデルはこれを活用します。

モデルのフランス語のサブセットのみをトレーニングするスパーストレーニングを実行できます。また、モデルのフランス語の部分のみを実行するスパース推論を実行できます。量子化と併用すると、 LLMからGPUではなくCPUで実行できる小さな特殊モデルを抽出できます。 GP T-4 が有名なのは、より限定的でより特殊なモデルではなく、汎用テキストジェネレーターであることです。

ハードウェア面では、 AIワークロードに特化した新しいプロセッサアーキテクチャにより、効率性が向上することが期待されます。 Cerebras は機械学習に最適化された巨大なウエハースケールのエンジンを構築しており、一方 Manticore はメーカーが廃棄した「放置された」 GPU チップを再利用して実用的なシリコンを提供しています。

最終的に、最大の利益は、さらに少ない計算量を必要とする次世代のLLMから得られるでしょう。最適化されたハードウェアと組み合わせることで、将来のLLM は現在のレート制限の障壁を突破できる可能性があります。現在、エコシステムは、LLM の機能を活用しようと競い合う多数の熱心な企業によって圧倒されています。 AIで新たな道を切り開きたいと考えている人は、 GPU の供給がさらに緩和されるまで待つ必要があるかもしれません。皮肉なことに、これらの制限は、生成AIを取り巻く誇大宣伝を和らげ、業界がそれを効率的かつ経済的に使用するための前向きなパラダイムに落ち着く時間を与えるのに役立つかもしれません。