大規模モデルはなぜこんなに遅いのか？考えすぎだったことが判明：新しい方向性は、人間と同じ思考アルゴリズムを使用することです

人間の直感は AI 研究者によって見落とされがちな能力ですが、非常に微妙なため、私たち自身でさえ完全に理解できていません。最近の論文で、バージニア工科大学とマイクロソフトの研究チームは、直感的な能力とアルゴリズム的アプローチの方法論的性質を組み合わせた思考アルゴリズム (AoT) を提案しました。これにより、LLM のパフォーマンスを維持しながらコストを大幅に節約できます。

大規模言語モデルは最近急速に開発されており、一般的な問題の解決、コードの生成、指示の遵守において優れた能力を示しています。

初期のモデルは直接的な回答戦略に依存していましたが、現在の研究では、問題をサブタスクに分解して解決策を見つけたり、外部メカニズムを活用してコンテキストを変更することでトークン生成を変更したりすることで、線形推論パスに移行しています。

人間の認知と同様に、初期の LLM 戦略は、衝動的な意思決定を特徴とする即時のシステム 1 (高速応答) を模倣しているようでした。対照的に、Chain of Thought (CoT) や Least-to-Most Prompting (L2M) などの新しい方法は、システム 2 (遅い思考) の内省的な性質を反映しています。注目すべきは、LLM の算術推論能力は中間推論ステップを統合することによって向上できることです。

しかし、タスクにさらに深い計画と幅広い精神的探求が必要な場合は、これらのアプローチの限界が明らかになります。自己一貫性のある CoT (CoT-SC) は複数の LLM 出力を使用してコンセンサス結果に到達できますが、慎重な評価が不足するとモデルが間違った方向に進む可能性があります。 2023年に登場した「思考の樹（ToT）」は注目に値する解決策です。 1 つの LLM を使用してアイデアを生成し、別の LLM を使用してそれらのアイデアのメリットを評価し、その後、一時停止、評価、継続のサイクルが続きます。ツリー検索に基づくこの反復プロセスは、特に継続時間が長いタスクの場合に効果的であることは明らかです。研究者たちは、この進歩は、人間が自身の作業記憶の限界を回避するためにツールを使用するのと同様に、LLM を強化するために外部ツールを使用するものだと考えています。

一方、この強化された LLM アプローチには欠点がないわけではありません。明らかな欠点は、クエリの数と計算要件が急増することです。 GPT-4 のようなオンライン LLM API へのクエリごとに、かなりの金銭的オーバーヘッドが発生し、レイテンシも増加します。これは、リアルタイムアプリケーションにとって特に重大な制限です。これらのクエリの蓄積されたレイテンシは、ソリューションの全体的な効率を損なう可能性があります。インフラストラクチャ側では、継続的なやり取りによりシステムに負荷がかかり、帯域幅が制限され、モデルの可用性が低下する可能性があります。さらに、環境への影響も無視できません。継続的なクエリにより、すでにエネルギーを大量に消費しているデータセンターのエネルギー消費量が増加し、二酸化炭素排出量がさらに増加します。

これらの考慮に基づいて、研究者の最適化目標は、現在のマルチクエリ推論方法で使用されるクエリの数を大幅に削減しながら、モデルが世界知識の熟練した使用を必要とするタスクに対処できるように十分なパフォーマンスを維持し、それによって人々が AI リソースをより責任を持って熟練して使用できるようにすることです。

システム 1 からシステム 2 への LLM の進化について考えると、アルゴリズムという重要な要素が浮かび上がってきます。アルゴリズムは体系的であり、人々が問題領域を探索し、戦略を開発し、解決策を構築するのに役立つ方法を提供します。多くの主流文献ではアルゴリズムを LLM の外部ツールと見なしていますが、LLM の固有の生成再現性を考慮すると、この反復ロジックを導いてアルゴリズムを LLM に内部化することはできるでしょうか?

バージニア工科大学とマイクロソフトの研究者チームは、人間の推論の洗練さとアルゴリズム的アプローチの系統的精度を組み合わせることで、LLM 内の推論能力を強化しようとしています。

既存の研究では、人間は複雑な問題を解決するときに本能的に過去の経験を活用し、単一の詳細に狭く焦点を当てるのではなく、全体的に考えるようになっていることが強調されています。 LLM 生成範囲はトークン制限によってのみ制限され、人間の作業記憶の壁を突破する運命にあるようです。

この観察に触発されて、研究者たちは、LLM が同様の階層的なアイデアの探索を可能にし、以前の中間ステップを参照して実行不可能な選択肢を除外できるかどうかを調査しました。これらはすべて LLM の生成サイクル内で行われます。人間は直感力が優れていますが、アルゴリズムは組織的かつ体系的な探索が得意です。 CoT などの現在のテクノロジーは、この相乗効果の可能性を回避し、LLM の現場精度に重点を置きすぎることがよくあります。研究者たちは、LLM の再帰機能を活用して、人間とアルゴリズムのハイブリッドアプローチを構築しました。これは、最初の候補から実証済みのソリューションまで、探索の本質を捉えたアルゴリズムの例を使用することで実現されます。

これらの観察に基づいて、研究者は思考アルゴリズム (AoT) を提案しました。

論文: https://arxiv.org/pdf/2308.10379.pdf

さらに広い意味では、この新しいアプローチは、文脈学習の新しいパラダイムを生み出すことが期待されます。この新しいアプローチでは、[質問、回答] または [質問、回答を得るための次のステップ] という従来の教師あり学習パラダイムを使用する代わりに、[質問、検索プロセス、回答] という新しいパラダイムを採用しています。当然、LLM にアルゴリズムを使用するように指示する場合、通常は LLM がアルゴリズムの反復的な思考を単純に模倣することを期待します。しかし、興味深いのは、LLM には独自の「直感」を注入する機能があり、アルゴリズム自体よりも検索を効率的にすることができることです。

思考アルゴリズム

研究者らは、彼らの研究戦略の中心は、現在の文脈学習パラダイムの根本的な欠点を認識することだと述べている。 CoT は思考のつながりの一貫性を向上させることができますが、時折、間違った中間ステップを与えることもあります。

この現象を説明するために、研究者たちは実験を設計した。 text-davinci-003 に算術タスク (例: 11 − 2 =) をクエリする際、研究者は同等の出力を生成する複数のコンテキスト方程式をプレフィックスとして追加しました (例: 15 − 5 = 10、8 + 2 = 10)。

結果は、正確性が急激に低下したことを示しており、文脈の中で正しい推論を単に与えるだけでは、LLM の基本的な算数能力が意図せず損なわれる可能性があることを示唆しています。

この偏りを減らすには、例をより多様化することが実行可能な解決策になるかもしれませんが、これにより出力の分布がわずかに変化する可能性があります。単に失敗した試行をいくつか追加するだけで (ランダム検索の場合など)、モデルが実際に問題を解決するのではなく、誤って再試行するように促す可能性があります。アルゴリズムの動作の本質を理解すること（失敗した検索とその後の回復、およびそれらの試行からの学習が重要）では、コンテキスト例を組み込む方法は、検索アルゴリズム、特に深さ優先探索 (DFS) と幅優先探索 (BFS) のパターンに従います。図1に例を示します。

この論文では、ツリー検索問題に似た大規模なクラスのタスクに焦点を当てています。

このようなタスクでは、主な問題を分解し、各部分に対して実行可能なソリューションを構築し、特定のパスを採用するか放棄するかを決定し、より有望な部分を再評価するオプションが必要です。

研究者たちは、サブセットごとに個別のクエリを作成する代わりに、LLM の反復機能を活用して、統合された生成スキャンでそれらを解決しました。このアプローチでは、LLM の相互作用を 1 つまたは 2 つだけに限定することで、以前のコンテキスト候補からの洞察を自然に統合し、ソリューションドメインの詳細な調査を必要とする複雑な問題を解決できます。研究者らはまた、これらの考えをどの程度の大きさにすべきか、トークンの効率性を向上させるために LLM にどのような種類のコンテキスト例を提供すべきかについても洞察を提供しています。ツリー検索アルゴリズムの主要コンポーネントと新しいフレームワークでのそれらの表現を以下に示します。

1. 問題を細分化します。問題が与えられた場合、実際の問題解決の側面を考慮しなくても、可能な推論パスを記述する検索ツリーを構築することはすでに困難な作業です。分解では、サブタスク間の相互関係だけでなく、各問題を解決する難易度も考慮する必要があります。

単純な多桁の加算を例に挙げてみましょう。コンピューターが数値を 2 進数に変換するのは効率的ですが、人間は一般に 10 進数の方が直感的だと感じます。さらに、サブ問題が同じであっても、実装方法が異なる場合があります。直感があれば、解決手順間の近道を見つけることができますが、直感がなければ、より詳細な手順が必要になる場合があります。

これらの微妙な違いは、LLM が確実に実行するために必要なトークンの最小数を決定するため、正しいプロンプト (つまり、コンテキストアルゴリズムの例) を作成するために重要です。これは、LLM のコンテキスト制約を満たすだけでなく、同様のトークンを使用してコンテキストに共鳴する問題を LLM が解決することを望んでいるため、LLM のパワーにとっても重要です。

2. サブ問題に対する解決策を提案します。現在主流のアプローチでは、LLM トークンの出力確率を直接サンプリングします。このアプローチは、ワンショットの回答には機能しますが (いくつかの制限はありますが)、サンプルシーケンスを後続のプロンプトに組み込んだり評価したりする必要があるシナリオには役立ちません。モデルクエリを最小限に抑えるために、研究者は継続的なソリューション作成プロセスを使用しました。つまり、主要なサブ問題に対するソリューションは、生成の中断なしに、直接かつ継続的に生成されます。

このアプローチには多くの利点があります。まず、生成されたすべてのソリューションは同じ共有コンテキスト内にあるため、各ソリューションを評価するために個別のモデルクエリを生成する必要がなくなります。第二に、最初は直感に反するように思えるかもしれませんが、孤立したトークンまたはトークンのグループ化の確率は、必ずしも意味のある選択につながるとは限りません。図4に簡単な概略図を示します。

3. サブ問題の見通しを検討します。前述のように、既存の手法では、ツリーノードの可能性を識別し、探索方向の決定を支援するために追加の手がかりに依存しています。私たちの観察によれば、最も有望なパスが文脈上の例にカプセル化できる場合、LLM は本質的に有望な候補を優先する傾向があることが示唆されています。これにより、複雑なプロンプトエンジニアリングの必要性が軽減され、直感的なものでも知識主導のものでも、洗練されたヒューリスティックメソッドを統合できるようになります。同様に、新しいアプローチには分離したプロンプトが含まれていないため、生成された同じ結果内で候補の実現可能性を即座に評価できます。

4. より適切なノードに戻ります。次に探索するノードの決定 (前のノードへのバックトラックを含む) は、選択したツリー検索アルゴリズムに本質的に依存します。これまでの研究では、検索プロセスにエンコードメカニズムなどの外部アプローチを採用してきましたが、これでは幅広い魅力が制限され、追加のカスタマイズが必要になります。本論文で提案する新しい設計では、主にプルーニングを補完した DFS 方式を採用しています。目標は、同じ親ノードを持つ子ノード間の近接性を維持し、それによって LLM がリモート機能よりもローカル機能を優先するようにすることです。さらに、研究者らは、BFS ベースの AoT 方式のパフォーマンス指標を提案しました。研究者らは、文脈上の例から洞察を収集するモデル本来の能力を活用することで、追加のカスタマイズメカニズムの必要性を排除できると述べている。

実験

研究者らは、24ドットと5x5のミニワードゲームで実験を行い、その結果、AoT方式の優位性が示されました。そのパフォーマンスは、単一プロンプト方式（標準方式、CoT、CoT-SCなど）よりも優れており、外部メカニズムを利用する方法（ToTなど）にも匹敵します。

表 1 から明らかなように、CoT/CoT-SC と組み合わせた標準プロンプト設計法は、LLM 経由のツリー検索法よりも大幅に遅れています。

表 3 は、ミニ単語充填タスクにおける AoT の有効性を強調しており、単語充填の成功率は、さまざまなプロンプト手法を使用した従来の方法を上回っています。

しかし、ToTよりも悪いです。重要な観察結果は、ToT で使用されるクエリ量が非常に大きく、AoT の 100 倍以上であるということです。 AoT が ToT より劣るもう 1 つの要因は、アルゴリズムの例に固有のバックトラック機能が完全には有効化されていないことです。この能力が完全にロック解除されると、スポーンフェーズが大幅に延長されます。対照的に、ToT の利点は、バックトラックに外部メモリを使用できることです。

話し合う

AoT は模倣した DFS を超えることができるでしょうか?

図 5 に示すように、AoT は DFS バージョンよりも全体的にノード数が少なくなります。 DFS はその後探索するサブツリーを選択する際に統一された戦略を採用しますが、AoT の LLM は固有のヒューリスティックを統合します。この基本アルゴリズムの拡張は、LLM の再帰的推論機能の利点を示しています。

アルゴリズムの選択は AoT の有効性にどのように影響しますか?

表 5 は実験結果を示しており、3 つの AoT バリアントが単一クエリの CoT よりも優れていることがわかります。

この結果は、アルゴリズムが何であっても、ランダム検索バリアントでのランダムな試行、または DFS または BFS 構成でのバックトラックを通じて、潜在的なエラーを検索して再検討するため、予想されたものです。注目すべきは、構造化検索バージョンである AoT (DFS) と AoT (BFS) の両方が AoT (ランダム) よりも効率的であり、ソリューションの発見におけるアルゴリズムの洞察の利点を強調していることです。ただし、AoT (BFS) は AoT (DFS) に遅れをとっています。研究者らは、AoT (BFS) のエラーをさらに分析した結果、AoT (DFS) よりも AoT (BFS) の方が最善のアクションを特定するのが難しいことを発見しました。

では、アルゴリズム例の検索ステップ数によって、AoT の動作はどのように調整されるのでしょうか?

図 6 は、検索ステップの総数の影響を示しています。 AoT (Long) と AoT (Short) は、それぞれ元の AoT を基準とした生成された結果の長いバージョンと短いバージョンです。

結果は、検索ステップの数によって LLM の検索速度に暗黙的なバイアスが生じることを示しています。間違ったステップを踏んだ場合でも、有望な方向性を探ることの重要性を強調することが重要です。

<<: Meta社が来年、新たな大型モデル「GPT-4レベルのオープンソース版」をリリースすることが明らかになりました！パラメータ数はLlama 2より数倍多く、商用利用も無料です。

>>: 北京航空航天大学はモードの壁を打ち破り、可視光と赤外線モードにわたる普遍的な物理的対抗手段を開発しました。

マシンビジョンについて知っておくべきこと

ブログ

UCenter パスワードアルゴリズムのルールと生成方法

ブログ

「中国版ダヴィンチ」ロボットが人気！ブドウの皮を縫うだけでなく、このような創造的な作業もあります

ブログ

研究はHPCを活用したAIの急速な成長を予測

ブログ

大規模モデルはなぜこんなに遅いのか？考えすぎだったことが判明：新しい方向性は、人間と同じ思考アルゴリズムを使用することです

思考アルゴリズム

実験

話し合う

マシンビジョンについて知っておくべきこと

UCenter パスワードアルゴリズムのルールと生成方法

「中国版ダヴィンチ」ロボットが人気！ブドウの皮を縫うだけでなく、このような創造的な作業もあります

研究はHPCを活用したAIの急速な成長を予測

推薦する

Apache Flink トークシリーズ - PyFlink のコアテクノロジーを公開

あなたを飛び立たせる5つの迅速なフレームワークモデル

Pudu Technology、新製品「Hulu」をリリース、4月19日より先行販売開始

Google は、フルスタックプログラミング言語をサポートし、すぐに使用でき、ワンクリックでデプロイできるブラウザ AI 開発環境 IDX をリリースしました。

AIが人々の職場復帰を支援：重慶の音声ロボット、北京の無人配達、広州の顔認識体温測定

CNN モデルの圧縮と加速アルゴリズムのレビュー

生死に関わる問題：病院のICU病棟で人工知能は何ができるのか？

「機械」が他より賢く、「技術」が他より劣っているという観察と思考

ChatGPTの背後にある技術的進化を分析する

量子コンピュータ、モノのインターネット、サイバーセキュリティの相互作用