Apple チップは、計算精度を低下させることなく大規模なモデルを実行できます。投機的サンプリングは急速に普及しており、GPT-4 もこれを使用しています。

Apple チップは、計算精度を低下させることなく大規模なモデルを実行できます。投機的サンプリングは急速に普及しており、GPT-4 もこれを使用しています。

コードに特化した Code Llama が登場したとき、誰もが、誰かがコードを定量化してスリム化し、ローカルでも実行できるようにする方法を考案することを期待していました。

案の定、行動を起こしたのは llama.cpp の作者である Georgi Gerganov 氏でしたが、今回は手順には従いませんでした。

量子化なしで FP16 精度を使用すると、34B Code LLama は Apple コンピューター上で 1 秒あたり 20 トークンを超える推論速度で実行できます。

写真

もともと 4 つのハイエンド GPU を必要としていた作業が、今では 800GB/秒の帯域幅しかない M2 Ultra で実行でき、コードを非常に速く記述できます。

すると兄弟は秘密を明かしました。答えは非常に簡単で、それは投機的サンプリング(投機的サンプリング/デコード)です。

写真

この動きは多くの有力者の注目を集めた。

OpenAI の創設メンバーである Andrej Karpathy 氏は、これは優れた推論時間の最適化であるとコメントし、より技術的な解釈を提供しました。

Nvidia の科学者 Linxi Fan 氏も、これはすべての大規模モデル実践者が習得すべきスキルであると考えています。

写真

GPT-4でも使用されている方法

実際、投機的サンプリングは、大規模なモデルをローカルで実行したい人だけでなく、Google OpenAI のような大手企業でも使用されています。

以前リークされた情報によると、GPT-4 は推論コストを削減するためにこの方法を使用しており、そうでなければこれほど多額の資金を投入することはできなかっただろう。

写真

最新のニュースによれば、Google DeepMindが共同開発する次世代大型モデルGeminiにも採用される可能性があるとのこと。

OpenAIの具体的な手法は秘密にされているが、Googleチームはすでに論文を発表しており、ICML 2023 Oralに選出されている。

写真

方法は非常に簡単です。まず、大きなモデルに似ていて安価な小さなモデルをトレーニングします。小さなモデルに K 個のトークンを生成させ、その後、大きなモデルに判断をさせます。

ビッグモデルで受け入れられた部分はそのまま使用でき、ビッグモデルで受け入れられなかった部分はビッグモデルによって変更されます。

元の論文で実証された T5-XXL モデルは、同じ生成結果を維持しながら、2 ~ 3 倍の推論高速化を達成しました。

写真

Andjrey Karpathy 氏は、このアプローチを「最初に小さなモデルを大まかに作成すること」に例えています。

彼は、この方法の有効性の鍵は、大規模なモデルにトークンを 1 つずつ入力する場合も、トークンのバッチを一度に入力する場合も、次のトークンを予測するために必要な時間が同様であることだ、と説明しました。

ただし、各トークンは前のトークンに依存しているため、通常、一度に複数のトークンをサンプリングすることはできません。

小さいモデルは能力が弱いですが、実際に文章を生成する部分では小さいモデルでも対応できる簡単な部分が多く、難しい部分だけを大きいモデルで対応できます。

元の論文では、これにより、大規模モデルの構造を変更したり再トレーニングしたりすることなく、既存の既製モデルを直接高速化できると考えています。

論文の付録には、精度が損なわれないことを数学的に証明する証拠も示されています。

写真

原理がわかったところで、今度はGeorgi Gerganovの具体的な設定を見てみましょう。

彼は、1 秒あたり約 80 個のトークンを生成できる 4 ビット量子化の 7B モデルを「ドラフト」モデルとして使用しました。

FP16 精度の 34B モデルは、単独で使用した場合、1 秒あたり 10 トークンしか生成できません。

推測的サンプリング法の使用により 2 倍の加速が達成され、これは元の論文のデータと一致しています。

写真

同氏は、生成されるものによって速度は異なる可能性があるが、コード生成には非常に効果的であり、ドラフトモデルはほとんどのトークンを正しく推測できると付け加えた。

写真

最後に、彼はまた、将来モデルをリリースする際には、Meta が小さなドラフト モデルを直接含めるべきであると提案し、これは全員から好評を博しました。

写真

著者はビジネスを始めた

作者は Georgi Gerganov です。LlaMA は今年 3 月に初めてリリースされ、C++ に移植されました。オープン ソース プロジェクト llama.cpp は、約 40,000 個のスターを獲得しています。

写真

当初は趣味で始めたが、反響が大きく、6月に起業することを発表した。

新会社 ggml.ai は、llama.cpp の背後にある C 言語の機械学習フレームワークに重点を置き、エッジ デバイス上で AI を実行することに取り組んでいます。

写真

彼はビジネスを始める際に、GitHub の元 CEO である Nat Friedman 氏と Y Combinator のパートナーである Daniel Gross 氏からプレシード投資を受けました。

彼はLlaMA2がリリースされた後も非常に活発に活動していました。最も非情だったのは、大きなモデルをブラウザに直接詰め込んだときです。

写真

Google 投機的サンプリング論文: https://arxiv.org/abs/2211.17192

参考リンク: [1] https://x.com/ggerganov/status/1697262700165013689 [2] https://x.com/karpathy/status/1697318534555336961


<<:  マスク氏はWeChatの複製に本気だ! 𝕏は音声通話とビデオ通話を推進します、シャオ・ザッカーバーグ:私は4年前にそれをやりました

>>:  BigDL-LLMを使用して、数百億のパラメータを持つLLM推論を即座に加速します。

ブログ    
ブログ    

推薦する

[オピニオン] アルゴリズムとテクノロジーが成熟すれば、新しい小売業は本当に素晴らしい時代を迎えることになる

2007年、サンフランシスコのモスコーニセンターで開催されたMacWorldカンファレンスで、スティ...

...

マイクロソフトの深夜革命、GPT-4 Office フルパッケージが登場!月30ドルで10億人の労働者の雇用が奪われる?

6 か月の遅延の後、Microsoft Copilot ファミリー全体がついに登場しました。ちょう...

人工知能にはどのような専攻が含まれますか?どのような関連専攻を選択できますか?

[[400740]]人工知能専攻は、中国の大学の人材計画に基づいて設立された専攻であり、中国の人工...

将来の医療における人工知能の重要な役割

今日の製薬業界が直面している最大の課題の 1 つは、新薬の開発と市場投入にかかるコストの高さです。こ...

調査によると、AIツールは企業の従業員が年間約400時間を節約するのに役立つことがわかった

7月10日、人材分析・計画会社Visierは、英国、米国、カナダ、ドイツの250社以上の企業の従業員...

人工知能は商業ディスプレイの将来の発展の傾向を混乱させる可能性がある

[[412444]]商業用ディスプレイは日常生活でますます広く使用されるようになり、買い物、仕事、旅...

マイクロソフト、OpenAI、グーグルなどの大手企業が共同でフロンティアモデルフォーラムを設立し、責任ある人工知能の開発を推進している。

人工知能の発展は日々変化しており、特に生成型人工知能はテクノロジー業界で話題になっています。しかし、...

GPT-3は創造性に欠けるにもかかわらず、わずか20分で合格できる大学論文を書いた。

GPT-3で書かれた論文は通過したのでしょうか?教育リソースウェブサイトEduRefがこれに関する...

...

...

世界的な人口高齢化と労働力不足:ロボットとAIによる解決策

人工知能は近年、産業を変革する可能性を秘めていることから、幅広い注目を集めています。 AI が大きな...

やめる! Google は米国国防総省の 100 億ドルの契約への入札を断念しました。

[[245607]]ブルームバーグによると、アルファベットの検索子会社グーグルは、米国防総省の10...

Chain World: シンプルで効果的な人間行動エージェントモデル強化学習フレームワーク

強化学習は、エージェントが環境と対話し、蓄積された報酬を最大化するために最適なアクションを選択する方...

考えてみると恐ろしいですね! 1億人のネットユーザーが騙された、AIは変装の技術を習得

最近、「射雁英雄伝」でアテナ・チュウが演じる「黄容」の顔をAI技術で楊冪の顔に差し替えた動画が、ネッ...