大規模言語モデルの最大のボトルネックを突破する方法

大規模言語モデルの最大のボトルネックを突破する方法

翻訳者 |ブガッティ

レビュー | Chonglou

OpenAIGPT-4AnthropicClaude 2などの大規模言語モデル(LLM)は、人間レベルのテキストを生成する能力で人々の心をとらえています企業も同様に熱心で、多くの企業がLLMを活用して自社の製品やサービスを改善する方法を模索しています。しかし、レート制限という大きなボトルネックにより最先端のLLM を本番環境導入することが厳しく制限されています。このレート制限克服する方法はありますがコンピューティング リソースの改善なしには真の進歩は得られない可能性があります

費用を負担する

OpenAIAnthropicなどの企業モデルユーザーがアクセスできるようにするパブリックLLM APIでは、 1分あたりに処理できるトークン(テキストの単位の数、1分あたりのリクエスト数 1日あたりのリクエスト数に厳しい制限が課せられています。

OpenAI GPT-4へのAPI呼び出しは現在、 1 分あたり3リクエスト( RPM ) 1 日あたり200リクエスト 1 分あたり最大10,000トークン( TPM )に制限されています。トップギアでは10,000 RPMが可能で制限は300,000 TPMです

このレート制限により、企業分数百万のトークンを処理する必要がある規模な本番アプリケーション最先端のLLM を使用することは事実上不可能になります。リクエストの数は増え続け、数分、あるいは数時間もかかり、リアルタイム処理は不可能でした。

ほとんどの組織は、大規模にLLM を安全かつ効果的に導入することに依然として苦労しています。しかし、データの機密性や内部プロセスに関する課題に対処してもレート制限頑固な障壁となります。製品の使用状況とデータが蓄積されるにつれて、 LLMを中心に製品を開発しているスタートアップはすぐにボトルネックに遭遇しますが、大規模なユーザーベースを持つ大企業では最も制限が厳しくなります。特別なアクセスメカニズムがなければアプリケーション機能できません

何をするか

レート制限の回避

1 つのアプローチは、レート制限テクノロジーを完全にバイパスすることですたとえば、一部の特殊用途の生成AIモデルにはLLMボトルネックがありません。英国オックスフォードに拠点を置くスタートアップ企業Diffblue は、レート制限のない強化学習テクノロジーを活用しています。 1 つの処理を非常に効率的に、そして数百万行に及ぶ可能性のあるコードにわたって実行します。開発者よりも250倍速くJavaユニット テストを自動的に作成し開発者よりも10倍速くコンパイルします

Diffblue Coverによって記述されたユニット テストを使用すると、複雑なアプリケーションをすばやく理解できるため、企業もスタートアップ企業も自信を持って革新を進めることができます。これは、レガシーアプリケーションをクラウド移行するのに最適ですまた、人間によるレビューを必要とせずに、新しいコードを自律的に記述し既存のコードを改善し CI/CDパイプラインを高速化し変更に関連するリスクに関する深い洞察を提供することもできます。それは悪くないですね。

もちろん LLMに頼らざるを得ない企業あります彼らにはどんな選択肢があるのでしょうか?

コンピューティングリソースを増やす

1 つの選択肢、会社のレート制限の引き上げを要求することですこれは今のところうまく機能していますが、根本的な問題は、多くのLLMプロバイダーが実際に提供できる追加機能を持っていないことです。これが問題の核心です。 GPU の可用性は、 TSMC などのファウンドリから供給されるシリコンウェハーの総数に依存します。主要 GPU メーカーである Nvidia は、大規模な推論に数千個のGPUを連結して使用するAIワークロードからの爆発的な需要を満たすのに十分なチップを調達することができません

GPU の供給を増やす最も直接的な方法は、ファブと呼ばれる新しい半導体製造工場を建設することです。しかし新しい工場の建設には200億ドルの費用がかかり、建設には何年もかかります。インテル、サムスンファウンドリー、TSMC、テキサスインスツルメンツなどの大手チップメーカーは、米国に新たな半導体生産施設を建設している。今のところみんなにできるのは待つことだけです

その結果、GPT-4 を活用した実際の本番環境の展開はほとんどありません。 GPT-4 が実際に導入される環境の範囲は限られており、LLM はコア製品コンポーネントとしてではなく、補助機能として使用されています。ほとんどの企業はまだパイロットと概念実証を評価している段階です。レート制限を検討する前に、 LLM 自体をエンタープライズ ワークフローに統合する必要があります

答えを見つける

GPU の制約によりGPT-4 の処理能力が制限されるため、多くの企業が他の生成AI モデルを使用するようになりましたたとえば、 AWS にはトレーニングと推論(トレーニング後のモデルの実行)専用の独自のチップがあり、顧客に高い柔軟性を提供します。重要なのは、すべての問題に最も強力で高価なコンピューティング リソースが必要なわけではないということです。 AWS では、Titan Light など、より安価で調整しやすいさまざまなモデルを提供しています。一部の企業は、Meta の Llama 2 のようなオープンソース モデルを微調整するなどの代替手段を模索していますプロンプトにコンテキストを添付して応答を生成する必要がある検索拡張生成( RAG )を含む単純なユースケースではそれほど強力ではないモデルで十分です。

より高い制限を持つ複数の古いLLM間でのリクエストの並列化、データ チャンク、モデル蒸留などの他の手法も役立ちました。コストを削減し、推論の速度を上げることができる技術がいくつかあります量子化により、モデル内の重み (通常は 32 ビットの浮動小数点数) の精度が低下します。これは新しいアプローチではありません。たとえば Googleの推論ハードウェアであるTensor Processing Unit (TPU) は、重みが 8 ビットの整数に量子化されたモデルでのみ動作します。モデルの精度は多少低下しますが、サイズは大幅に小さくなり、実行速度も速くなります

スパース モデルと呼ばれる新しい人気の手法は、トレーニングと推論のコストを削減でき、モデル蒸留よりも労力が少なくて済みます。 LLM は、多数の小さな言語モデルの集合体のようなものですたとえば GPT-4にフランス語質問する、モデルのフランス語処理部分のみが使用され、スパースモデルはこれを活用します。

モデルのフランス語のサブセットのみをトレーニングするスパース トレーニングを実行できます。また、モデルのフランス語の部分のみを実行するスパース推論を実行できます量子化と併用すると、 LLMからGPUではなくCPUで実行できる小さな特殊モデルを抽出できます GP T-4 が有名なのは、より限定的でより特殊なモデルではなく、汎用テキスト ジェネレーターであることです

ハードウェア面では、 AIワークロードに特化した新しいプロセッサ アーキテクチャにより、効率性が向上することが期待されます。 Cerebras は機械学習最適化された巨大なウエハースケールのエンジン構築しており、一方 Manticore はメーカーが廃棄した放置された GPU チップを再利用して実用的なシリコンを提供しています

最終的に、最大の利益は、さらに少ない計算量を必要とする次世代のLLMから得られるでしょう最適化されたハードウェア組み合わせることで、将来のLLM は現在のレート制限の障壁を突破できる可能性があります。現在、エコシステムは、LLM の機能を活用しようと競い合う多数の熱心な企業によって圧倒されています AI新たな道を切り開きたいと考えている人は、 GPU の供給がさらに緩和されるまで待つ必要があるかもしれません。皮肉なことに、これらの制限は生成AIを取り巻く誇大宣伝を和らげ業界がそれを効率的かつ経済的に使用するための前向きなパラダイムに落ち着く時間を与えるのに役立つかもしれませ

原題:大規模言語モデルにおける最大のボトルネック、著者: Matt Asay

<<: 

>>: 

ブログ    
ブログ    

推薦する

...

...

...

Google、かわいい動物動画生成に優れたAI動画ジェネレータ「Lumiere」をリリース

海外メディアの報道によると、1月26日、GoogleはLumiereと呼ばれる人工知能ビデオジェネレ...

ロボティック プロセス オートメーションの 10 の秘密

[[394728]] [51CTO.com クイック翻訳]すべての優れた SF ストーリーには、ロボ...

Tik Tok ダンスでは、実際の人物がカメラに映る必要はなく、1 枚の写真だけで高品質のビデオを生成できます。バイトダンスの新技術をCTOと一緒に体験する機会も

見て!今、あなたの前で踊っているのは 4 人の若い女性です。ショート動画プラットフォームで何人かのキ...

強化学習のフレームワークは AI 開発に新たなアイデアを生み出すでしょうか?

[[256809]]アルゴリズムを理解しておらず、AI機能を備えたアプリを開発したいアプリ開発者の...

2022年の政府活動報告を聞いた後、人工知能業界が注目するべき点は以下のとおりです。

2022年全国人民代表大会と中国人民政治協商会議が開幕した。3月5日には2022年政府活動報告が発...

大規模ナレッジグラフデータストレージの実践的分析

1. ナレッジグラフとは何ですか?現実世界にはさまざまなものが存在します。物事の間にはいくつかの種類...

知っておくべき 10 個の機械学習 API

[[257117]] [51CTO.com クイック翻訳] 今日では、携帯電話の写真ストリーム認識...

自動運転のためのマルチモーダルセンサーフュージョンのレビュー

2022年2月6日にarXivにアップロードされたレビュー論文「自動運転認識のためのマルチモーダルセ...

...

...