大規模言語モデルの最大のボトルネック：レート制限

マット・アセイ

企画 | ヤン・ジェン

制作：51CTO テクノロジースタック（WeChat ID：blog）

レート制限は、誰もがより優れたコンピューティングリソースや異なる生成 AI モデルを待っていることを意味します。

OpenAI の GPT-4 や Anthropic の Claude 2 などの大規模言語モデル (LLM) は、人間のようなテキストを生成する能力で人々の心をとらえています。企業も同様に熱心であり、多くの企業が LLM を活用して自社の製品やサービスを改善する方法を模索しています。しかし、レート制限という大きなボトルネックにより、最先端の LLM を本番環境に導入することが厳しく制限されています。これらの料金で料金所を制限する方法はありますが、コンピューティングリソースの改善がなければ、本当の進歩は得られない可能性があります。

1. ボトルネックの代償

OpenAI や Anthropic などの企業のモデルへのアクセスを許可するパブリック LLM API では、1 分あたりに処理できるトークン (テキストの単位) の数、1 分あたりのリクエスト数、1 日あたりのリクエスト数に厳しい制限が課せられます。

たとえば、この文では 9 個のトークンが消費されます。現在、OpenAI GPT-4 への API 呼び出しは、1 分あたり 3 リクエスト (RPM)、1 日あたり 200 リクエスト、1 分あたり最大 10,000 トークン (TPM) に制限されています。

最高レベルでは、10,000 RPM および 300,000 TPM の制限が許可されます。 1 分間に数百万のトークンを処理する必要がある大規模な本番アプリケーションの場合、これらのレート制限により、最先端の LLM を使用することは実質的に不可能になります。リクエストが積み重なり、数分または数時間かかるため、リアルタイム処理は不可能になります。

ほとんどの企業は、大規模に LLM を安全かつ効果的に導入することに依然として苦労しています。しかし、データの機密性や内部プロセスに関する課題に対処している場合でも、レート制限は頑強な障壁となります。 LLM を中心に製品を構築するスタートアップは、使用量とデータが蓄積されるにつれてすぐに最高のパフォーマンスに達しますが、大規模なユーザーベースを持つ大企業は最も制約を受けることになります。特別なアクセス権がなければ、アプリケーションは動作しません。

何をするか？

2. レート制限の回避

1 つのアプローチは、レート制限技術を完全にスキップすることです。たとえば、LLM ボトルネックを持たない特定目的の生成 AI モデルがいくつかあります。英国オックスフォードに拠点を置くスタートアップ企業 Diffblue は、レート制限のない強化学習テクノロジーを活用しています。 1 つの処理を非常に効率的に実行し、数百万行のコードをカバーできます。

開発者よりも 250 倍速く Java ユニットテストを自動的に作成し、10 倍速くコンパイルします。 Diffblue Cover によって記述されたユニットテストにより、複雑なアプリケーションを迅速に理解できるようになり、企業もスタートアップ企業も自信を持って革新を進めることができるようになります。これは、たとえば、レガシーアプリケーションをクラウドに移行する場合に最適です。また、手動レビューを必要とせずに、新しいコードの自動作成、既存コードの改善、CI/CD パイプラインの高速化、変更に関連するリスクの深い理解も可能になります。悪くない。

もちろん、LLM に頼らざるを得ない企業もあります。彼らにはどんな選択肢があるのでしょうか?

3. さらに計算してください

一つの選択肢は、会社の料金制限の引き上げを単に要求することです。ここまでは問題ありませんが、根本的な問題は、多くの LLM プロバイダーが実際にサービスを提供する余裕がないことです。それが問題の核心です。 GPU の可用性は、TSMC などのファウンドリから出荷されるシリコンウェハーの総量によって決まります。主要 GPU メーカーである Nvidia は、大規模な推論に数千の GPU をクラスター化する必要がある人工知能ワークロードによって生じる爆発的な需要を満たすのに十分なチップを調達することができません。

GPU の供給を増やす最も直接的な方法は、新しい半導体製造工場、つまりファブを建設することです。しかし、新しい工場の建設には200億ドルもの費用がかかり、建設には何年もかかります。インテル、サムスンファウンドリー、TSMC、テキサスインスツルメンツなどの大手チップメーカーは、米国に新たな半導体生産施設を建設している。いつか、それは素晴らしいことでしょう。今、みんなは待たなければなりません。

その結果、GPT-4 を活用した実際の本番環境の展開はほとんどありません。これは、LLM をコア製品コンポーネントとしてではなく、補助機能として使用して、小規模に行われます。ほとんどの企業はまだパイロットと概念実証を評価している段階です。レート制限を考慮する前に、LLM をエンタープライズワークフローに統合するために必要な向上は、それ自体が重要です。

4. 答えを見つける

GPT-4 のスループットを制限する GPU の制限により、多くの企業が他の生成 AI モデルを使用するようになりました。たとえば、AWS にはトレーニングと推論 (トレーニング後のモデルの実行) 用の独自の専用チップがあり、顧客に高い柔軟性を提供しています。重要なのは、すべての問題に最も強力で高価なコンピューティングリソースが必要なわけではないということです。 AWS では、Titan Light など、より安価で簡単に微調整できるさまざまなモデルを提供しています。

一部の企業は、Meta の Llama 2 のようなオープンソースモデルを微調整するなど、他の選択肢を検討しています。プロンプトにコンテキストを添付して応答を生成する必要がある、検索拡張生成 (RAG) を伴う単純なユースケースでは、それほど強力ではないモデルで十分です。

より高い制限を持つ複数の古い LLM 間でリクエストを並列化する、データチャンク化、モデル抽出などの手法も役立ちます。推論をより安価かつ高速に行うことができる技術がいくつかあります。量子化により、モデル内の重み (通常は 32 ビットの浮動小数点数) の精度が低下します。これは新しいアプローチではありません。たとえば、Google の推論ハードウェアである Tensor Processing Unit (TPU) は、重みが 8 ビットの整数に量子化されたモデルでのみ動作します。モデルの精度は多少低下しましたが、サイズは小さくなり、実行速度は速くなりました。「スパースモデル」と呼ばれる新しい人気の手法は、トレーニングと推論のコストを削減でき、蒸留よりも労力が少なくて済みます。 LLM は、多数の小さな言語モデルの集合体と考えることができます。たとえば、GPT-4 にフランス語で質問すると、モデルのフランス語処理部分のみが使用されます。これがスパースモデルで活用される部分です。

モデルのサブセットのみをフランス語でトレーニングするスパーストレーニングを実行できます。また、モデルのフランス語部分のみを実行するスパース推論を実行できます。量子化と組み合わせて使用すると、LLM からより小さな特殊モデルを抽出し、GPU ではなく CPU で実行できるようになります (ただし、精度はわずかに低下します)。何が問題ですか？ GPT-4 は、より狭く、より具体的なモデルではなく、一般的なテキストジェネレーターであることから有名です。

ハードウェア面では、AI ワークロード専用に設計された新しいプロセッサアーキテクチャにより、効率性が向上することが期待されます。 Cerebras は機械学習に最適化された巨大なウエハースケールのエンジンを構築しており、Manticore はメーカーが廃棄した「不合格」の GPU シリコンを再利用して使用可能なチップを提供しています。最終的に、最大の利益は、さらに少ない計算量を必要とする次世代の LLM から得られるでしょう。最適化されたハードウェアと組み合わせることで、将来の LLM は現在のレート制限の障壁を突破できる可能性があります。

現在、エコシステムは、LLM の力を活用したい企業からの圧力によって緊張状態にあります。 AI で新境地を拓きたいと考えている人は、GPU の供給が今後さらに増えるまで待つ必要があるかもしれません。皮肉なことに、これらの制限は生成 AI を取り巻く誇大宣伝をいくらか和らげ、業界が前向きなパラダイムに落ち着き、それを効率的かつ費用対効果の高い方法で使用する時間を与えることになるかもしれません。

参考リンク: https://www.infoworld.com/article/3712300/the-biggest-bottleneck-in-a-large-language-model.html

<<: Visual Mamba が登場: 2.8 倍高速、メモリが 87% 削減

>>: ByteDance は給与の大幅調整を行いましたが、これは隠された 20% の給与増額です。ネットユーザー：業界の清流！