大規模言語モデルの最大のボトルネック:レート制限

大規模言語モデルの最大のボトルネック:レート制限

マット・アセイ

企画 | ヤン・ジェン

制作:51CTO テクノロジースタック(WeChat ID:blog)

レート制限は、誰もがより優れたコンピューティング リソースや異なる生成 AI モデルを待っていることを意味します。

OpenAI の GPT-4 や Anthropic の Claude 2 などの大規模言語モデル (LLM) は、人間のようなテキストを生成する能力で人々の心をとらえています。企業も同様に熱心であり、多くの企業が LLM を活用して自社の製品やサービスを改善する方法を模索しています。しかし、レート制限という大きなボトルネックにより、最先端の LLM を本番環境に導入することが厳しく制限されています。これらの料金で料金所を制限する方法はありますが、コンピューティング リソースの改善がなければ、本当の進歩は得られない可能性があります。

1. ボトルネックの代償

OpenAI や Anthropic などの企業のモデルへのアクセスを許可するパブリック LLM API では、1 分あたりに処理できるトークン (テキストの単位) の数、1 分あたりのリクエスト数、1 日あたりのリクエスト数に厳しい制限が課せられます。

たとえば、この文では 9 個のトークンが消費されます。現在、OpenAI GPT-4 への API 呼び出しは、1 分あたり 3 リクエスト (RPM)、1 日あたり 200 リクエスト、1 分あたり最大 10,000 トークン (TPM) に制限されています。

最高レベルでは、10,000 RPM および 300,000 TPM の制限が許可されます。 1 分間に数百万のトークンを処理する必要がある大規模な本番アプリケーションの場合、これらのレート制限により、最先端の LLM を使用することは実質的に不可能になります。リクエストが積み重なり、数分または数時間かかるため、リアルタイム処理は不可能になります。

ほとんどの企業は、大規模に LLM を安全かつ効果的に導入することに依然として苦労しています。しかし、データの機密性や内部プロセスに関する課題に対処している場合でも、レート制限は頑強な障壁となります。 LLM を中心に製品を構築するスタートアップは、使用量とデータが蓄積されるにつれてすぐに最高のパフォーマンスに達しますが、大規模なユーザーベースを持つ大企業は最も制約を受けることになります。特別なアクセス権がなければ、アプリケーションは動作しません。

何をするか?

2. レート制限の回避

1 つのアプローチは、レート制限技術を完全にスキップすることです。たとえば、LLM ボトルネックを持たない特定目的の生成 AI モデルがいくつかあります。英国オックスフォードに拠点を置くスタートアップ企業 Diffblue は、レート制限のない強化学習テクノロジーを活用しています。 1 つの処理を非常に効率的に実行し、数百万行のコードをカバーできます。

開発者よりも 250 倍速く Java ユニット テストを自動的に作成し、10 倍速くコンパイルします。 Diffblue Cover によって記述されたユニット テストにより、複雑なアプリケーションを迅速に理解できるようになり、企業もスタートアップ企業も自信を持って革新を進めることができるようになります。これは、たとえば、レガシー アプリケーションをクラウドに移行する場合に最適です。また、手動レビューを必要とせずに、新しいコードの自動作成、既存コードの改善、CI/CD パイプラインの高速化、変更に関連するリスクの深い理解も可能になります。悪くない。

もちろん、LLM に頼らざるを得ない企業もあります。彼らにはどんな選択肢があるのでしょうか?

3. さらに計算してください

一つの選択肢は、会社の料金制限の引き上げを単に要求することです。ここまでは問題ありませんが、根本的な問題は、多くの LLM プロバイダーが実際にサービスを提供する余裕がないことです。それが問題の核心です。 GPU の可用性は、TSMC などのファウンドリから出荷されるシリコン ウェハーの総量によって決まります。主要 GPU メーカーである Nvidia は、大規模な推論に数千の GPU をクラスター化する必要がある人工知能ワークロードによって生じる爆発的な需要を満たすのに十分なチップを調達することができません。

GPU の供給を増やす最も直接的な方法は、新しい半導体製造工場、つまりファブを建設することです。しかし、新しい工場の建設には200億ドルもの費用がかかり、建設には何年もかかります。インテル、サムスンファウンドリー、TSMC、テキサスインスツルメンツなどの大手チップメーカーは、米国に新たな半導体生産施設を建設している。いつか、それは素晴らしいことでしょう。今、みんなは待たなければなりません。

その結果、GPT-4 を活用した実際の本番環境の展開はほとんどありません。これは、LLM をコア製品コンポーネントとしてではなく、補助機能として使用して、小規模に行われます。ほとんどの企業はまだパイロットと概念実証を評価している段階です。レート制限を考慮する前に、LLM をエンタープライズ ワークフローに統合するために必要な向上は、それ自体が重要です。

4. 答えを見つける

GPT-4 のスループットを制限する GPU の制限により、多くの企業が他の生成 AI モデルを使用するようになりました。たとえば、AWS にはトレーニングと推論 (トレーニング後のモデルの実行) 用の独自の専用チップがあり、顧客に高い柔軟性を提供しています。重要なのは、すべての問題に最も強力で高価なコンピューティング リソースが必要なわけではないということです。 AWS では、Titan Light など、より安価で簡単に微調整できるさまざまなモデルを提供しています。

一部の企業は、Meta の Llama 2 のようなオープンソース モデルを微調整するなど、他の選択肢を検討しています。プロンプトにコンテキストを添付して応答を生成する必要がある、検索拡張生成 (RAG) を伴う単純なユースケースでは、それほど強力ではないモデルで十分です。

より高い制限を持つ複数の古い LLM 間でリクエストを並列化する、データ チャンク化、モデル抽出などの手法も役立ちます。推論をより安価かつ高速に行うことができる技術がいくつかあります。量子化により、モデル内の重み (通常は 32 ビットの浮動小数点数) の精度が低下します。これは新しいアプローチではありません。たとえば、Google の推論ハードウェアである Tensor Processing Unit (TPU) は、重みが 8 ビットの整数に量子化されたモデルでのみ動作します。モデルの精度は多少低下しましたが、サイズは小さくなり、実行速度は速くなりました。 「スパース モデル」と呼ばれる新しい人気の手法は、トレーニングと推論のコストを削減でき、蒸留よりも労力が少なくて済みます。 LLM は、多数の小さな言語モデルの集合体と考えることができます。たとえば、GPT-4 にフランス語で質問すると、モデルのフランス語処理部分のみが使用されます。これがスパース モデルで活用される部分です。

モデルのサブセットのみをフランス語でトレーニングするスパース トレーニングを実行できます。また、モデルのフランス語部分のみを実行するスパース推論を実行できます。量子化と組み合わせて使用​​すると、LLM からより小さな特殊モデルを抽出し、GPU ではなく CPU で実行できるようになります (ただし、精度はわずかに低下します)。何が問題ですか? GPT-4 は、より狭く、より具体的なモデルではなく、一般的なテキストジェネレーターであることから有名です。

ハードウェア面では、AI ワークロード専用に設計された新しいプロセッサ アーキテクチャにより、効率性が向上することが期待されます。 Cerebras は機械学習に最適化された巨大なウエハースケールのエンジンを構築しており、Manticore はメーカーが廃棄した「不合格」の GPU シリコンを再利用して使用可能なチップを提供しています。最終的に、最大の利益は、さらに少ない計算量を必要とする次世代の LLM から得られるでしょう。最適化されたハードウェアと組み合わせることで、将来の LLM は現在のレート制限の障壁を突破できる可能性があります。

現在、エコシステムは、LLM の力を活用したい企業からの圧力によって緊張状態にあります。 AI で新境地を拓きたいと考えている人は、GPU の供給が今後さらに増えるまで待つ必要があるかもしれません。皮肉なことに、これらの制限は生成 AI を取り巻く誇大宣伝をいくらか和らげ、業界が前向きなパラダイムに落ち着き、それを効率的かつ費用対効果の高い方法で使用する時間を与えることになるかもしれません。

参考リンク: https://www.infoworld.com/article/3712300/the-biggest-bottleneck-in-a-large-language-model.html

<<:  Visual Mamba が登場: 2.8 倍高速、メモリが 87% 削減

>>:  ByteDance は給与の大幅調整を行いましたが、これは隠された 20% の給与増額です。ネットユーザー:業界の清流!

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

セキュリティ | 機械学習の「データ汚染」を 1 つの記事で理解する

人間の目には、以下の 3 つの画像はそれぞれ異なるもの、つまり鳥、犬、馬に見えます。しかし、機械学習...

機械学習を予知保全に適用するにはどうすればよいでしょうか?

機械学習と産業用 IoT (IIoT) デバイスから収集されたデータを組み合わせることで、プロセスの...

1 つの記事で AI エージェント テクノロジーを理解する

環境と自律的に対話し、収集したデータに基づいて決定を下し、人間の介入を最小限に抑えてシナリオベースの...

ビッグデータと人工知能 - 機械的思考から統計的思考へ

今日は、ビッグデータ、人工知能、認知問題の解決の関係ロジックについて話す記事を書こうと思います。した...

あなたを飛び立たせる5つの迅速なフレームワークモデル

今日のデジタル化が進む世界では、人工知能は私たちの日常生活に欠かせないものとなっています。特に、プロ...

人工知能はビッグデータ天体物理学の時代へのマスターキーとなるのでしょうか?

[[386945]]私はかつて「ウォーリーと一緒に星を見上げる」というタイトルの記事を書き、ビッグ...

AI人工知能は研究室から生産現場へと進出したが、依然として大きな課題に直面している。

国内企業におけるAI導入の現状アクセンチュアが世界各国の企業幹部を対象に実施した「中国企業はどのよう...

...

...

...

Google 創設者が正式に LLM 戦争に復帰!ジェミニの開発を導く、OpenAIとMetaとの戦いが迫る

4年前に辞任したGoogleの共同創設者がついに復帰!ウォール・ストリート・ジャーナルの報道によると...

網膜症治療のAIが成熟する中、なぜ医療業界は「無反応」なのか?

網膜は人体の中で唯一、血管や神経細胞の変化を非侵襲的に直接観察できる組織であり、さまざまな慢性疾患の...

人工知能の5大セキュリティ問題への対策

Google、スタンフォード大学、カリフォルニア大学バークレー校、OpenAI の研究者が論文「AI...

AIは近い将来自己認識できるようになるのでしょうか? Facebook がメタバースへの扉を開く「Ego4D」を発表

ある日、ヘルメットをかぶると、SFのような美しい世界が目の前に浮かび上がるのを想像したことはありませ...

...