コンピューティング能力が重要視される時代に、GPU は大規模モデル (LLM) をスムーズに実行できるでしょうか? 多くの人は、この質問に明確な答えを出すのが難しく、GPU メモリの計算方法を知りません。 GPU がどの LLM を処理できるかを確認するのはモデルのサイズを確認するほど簡単ではないため、モデルは推論中に大量のメモリを消費する可能性があります (KV キャッシュ)。たとえば、シーケンス長が 1000 の llama-2-7b では、1 GB の追加メモリが必要です。それだけでなく、モデルのトレーニング中は、KV キャッシュ、アクティベーション、量子化のすべてが大量のメモリを消費します。 上記のメモリ使用量を事前に知ることはできないかと疑問に思わざるを得ません。最近、LLM のトレーニングや推論中に必要な GPU メモリの量を計算するのに役立つ新しいプロジェクトが GitHub に登場しました。それだけでなく、このプロジェクトの助けを借りて、詳細なメモリ配分、評価に使用する量子化方法、処理する最大コンテキスト長などの問題も知ることができ、ユーザーが自分に適した GPU 構成を選択するのに役立ちます。 プロジェクトアドレス: https://github.com/RahulSChand/gpu_poor それだけでなく、このプロジェクトはインタラクティブです。以下に示すように、LLM を実行するために必要な GPU メモリを計算できます。空欄を埋めるだけの簡単な作業です。ユーザーは必要なパラメータをいくつか入力し、最後に青いボタンをクリックするだけで答えが得られます。 交流アドレス: https://rahulschand.github.io/gpu_poor/ 最終的な出力は次のようになります。 このプロジェクトが行われた理由について、著者の Rahul Shiv Chand 氏は、次のような理由があると述べています。
それで、どうやって使うのでしょうか? 最初のステップは、モデル名、ID、モデル サイズを処理することです。 Huggingface のモデル ID を入力できます (例: meta-llama/Llama-2-7b)。現在、このプロジェクトでは、Huggingface で最もダウンロード数が多い上位 3000 個の LLM のモデル構成をハードコードして保存しています。 カスタム モデルを使用する場合、または Hugginface ID が利用できない場合は、json 構成をアップロードするか (プロジェクトの例を参照)、モデル サイズ (例: llama-2-7b の場合は 70 億) を入力する必要があります。 次は量子化です。現在、プロジェクトは bitsandbytes (bnb) int8/int4 と GGML (QK_8、QK_6、QK_5、QK_4、QK_2) をサポートしています。後者は推論にのみ使用されますが、bnb int8/int4 はトレーニングと推論の両方に使用できます。 最後のステップは推論とトレーニングです。推論中は、HuggingFace を使用するか、vLLM または GGML を使用して推論用の vRAM を見つけます。トレーニング中は、vRAM を見つけてモデル全体を微調整するか、LoRA (現在のプロジェクトでは、LoRA 構成用に r=8 がハードコードされています) または QLoRA を使用して微調整します。 ただし、プロジェクトの作成者は、最終結果はユーザー モデル、入力データ、CUDA バージョン、量子化ツールなどによって異なる可能性があると述べています。実験では、著者はこれらすべての要素を考慮し、最終結果が 500 MB 以内になるように努めました。次の表は、Web サイトで提供されている 3b、7b、13b モデルのメモリ使用量と、著者が RTX 4090 および 2060 GPU で取得したメモリ比較をクロスチェックしたものです。すべての値は500MB以内です。 興味のある読者は自分で体験することができます。提示された結果が不正確な場合、プロジェクト作成者は、プロジェクトは適時に最適化され、改善されると述べています。 |
<<: 視覚的な手がかりに「マーカー」を追加することで、Microsoft と他の企業は GPT-4V をより正確かつ詳細にしました。
>>: テイラー・スウィフトが本物の中国語を話す動画が話題になっている。ほぼ完璧な唇の動きと時間通りのパフォーマンスが特徴だ。その背後にはAIツールがあることが判明した。
ヘッドホンは必要なく、脳コンピューターインターフェースを通じて直接音楽を聴くことができ、体内のホルモ...
[中国、北京、2019年5月15日] ファーウェイは、2018年にAI戦略とフルスタックの全シナリオ...
[51CTO.comより引用] 2019年を振り返ると、今年は人工知能、モノのインターネット、クラ...
新インフラ政策の導入以来、データセンター、5G、ビッグデータの開発が最も頻繁に言及されていますが、産...
大きな模型ブームが到来し、アイアンマンのジャービスが最も忙しい「マーベルヒーロー」(手動の犬の頭)に...
[[265422]]人工知能はビジネスを変えています。自然言語処理やインテリジェント音声からモノのイ...
有名な科学者ホーキング博士の存命中、人工知能の発展は阻止されました。ホーキング博士はかつて、人工知能...
何の警告もなく、OpenAIのCEOサム・アルトマンは解雇された。一つの石が千の波紋を呼ぶ。ウルトラ...
近年、人工知能がブームを迎えており、人々は合理的な分析と思考を通じて、人工知能の波をどのように利用し...
人工知能と機械学習は企業の世界で注目を集めており、組織はますますこれらのテクノロジーを活用して顧客の...
2つの生体認証技術は顔認証と指紋認証です。実験では、両方ともモバイルデバイスを通じて実装され、2つ...
Google は最近、TensorFlow Quantum (TensorFlow の拡張) のオー...