最新世代の言語モデル (特に GPT-4、PaLM、LLaMa) は、自然言語処理と生成の限界を押し広げることに成功しました。これらの大規模モデルは、シェークスピアのソネットの執筆から複雑な医療レポートの要約、競技レベルのプログラミング問題の解決まで、さまざまなタスクを解決できます。これらのモデルはさまざまな問題に対処できますが、必ずしも正しいとは限らず、不正確、誤解を招く、または矛盾した応答を生成することもあります。 これらのモデルの実行コストが下がるにつれて、スキャフォールディング システムを使用し、複数の言語モデル クエリを使用してこれらのモデル出力の精度と堅牢性を最適化および向上できるかどうかという疑問が生じるのは当然です。 スタンフォード大学と OpenAI によるこの研究では、言語モデルの機能とパフォーマンスを向上させるために使用できる「メタプロンプティング」と呼ばれる新しい手法を提案しています。
この手法では、言語モデルに次の操作を指示する高レベルの「メタ」プロンプトを構築します。 1. 複雑なタスクや問題を、より小さく、解決しやすいサブタスクに分割します。 2. 適切かつ詳細な自然言語指示を使用して、これらのサブタスクを専門の「エキスパート」モデルに割り当てます。 3. これらのエキスパートモデル間の通信を監視する。 4. このプロセスを通じて、独自の批判的思考、推論、検証スキルを適用します。 メタプロンプトを使用して効果的に呼び出すことができる言語モデルの場合、モデルはクエリの実行時にコンダクターとして機能します。複数のエキスパート モデルからの応答で構成されるメッセージ履歴 (またはナラティブ) のセットを出力します。この言語モデルは、まずメッセージ履歴の指揮官部分を生成する役割を担います。これには、エキスパートの選択と、エキスパートに対する特定の指示の構築が含まれます。ただし、同じ言語モデル自体も独立したエキスパートとして機能し、特定のクエリごとにコマンダーが選択した専門知識と情報に基づいて出力を生成します。 このアプローチにより、単一の統合言語モデルで一貫性のある一貫した推論を維持しながら、さまざまな専門家の役割を活用することができます。プロンプトのコンテキストを動的に選択することで、これらの専門家はプロセスに新しい視点をもたらすことができ、一方で、指揮官モデルは完全な履歴の俯瞰図を維持し、調整を維持します。 したがって、このアプローチにより、単一のブラックボックス言語モデルが中央司令官と一連のさまざまな専門家の両方として効果的に機能できるようになり、より正確で信頼性が高く、一貫した応答が得られます。 ここで提案されている新しいメタプロンプト手法は、高レベルの計画と意思決定、動的なペルソナの割り当て、マルチエージェントの議論、自己デバッグ、自己反省など、最近の研究で提案されているいくつかの異なるプロンプトのアイデアを組み合わせて拡張したものです。 メタプロンプトの重要な側面は、特定のタスクから独立しているという特性があることです。 各タスクに特定の指示や例をカスタマイズする必要がある従来のスキャフォールディング アプローチとは異なり、メタ プロンプティングでは、複数のタスクと入力にわたって同じ一連の高レベルの指示を使用します。この汎用性により、特定のタスクごとに詳細な例や具体的な指示を提供する必要がなくなるため、特に臆病なユーザーにとって有益です。 たとえば、「自撮り写真についてのシェイクスピアのソネットを書いてください」といった一回限りのリクエストの場合、ユーザーは新古典派の詩の高品質な例を補足する必要はありません。 メタプロンプトアプローチは、言語モデルの特異性や関連性を損なうことなく、幅広く柔軟なフレームワークを提供することで、言語モデルの有用性を向上させることができます。さらに、メタプロンプト方式の汎用性と統合機能を実証するために、チームはシステムを拡張して Python インタープリターを呼び出せるようにしました。これにより、テクノロジはより動的で包括的なアプリケーションをサポートできるようになり、さまざまなタスクやクエリを効果的に処理する可能性がさらに高まります。 図 2 は、メタプロンプト会話フローの例を示しています。 これは、メタモデル (つまり、コマンダー モデル) が複数の異なる専門のエキスパート モデルまたはコード実行からの入力と出力を使用して、独自の出力を解釈するプロセスを表します。この構成により、メタプロンプトはほぼ普遍的なツールになります。これにより、複数の言語モデルの相互作用と計算を単一の一貫した物語に集約できるようになります。メタプロンプトの違いは、どのプロンプトまたはコードスニペットを使用するかを言語モデルが自動的に決定することです。 研究チームは、GPT-4 を基本言語モデルとして使用し、メタプロンプトと他のタスクに依存しないスキャフォールディング方法を比較する包括的な実験を実施しました。 実験により、メタプロンプトは全体的なパフォーマンスを向上させるだけでなく、複数の異なるタスクで新たな最良の結果を達成することが多いことがわかりました。その柔軟性は特に注目に値します。コマンダー モデルは、エキスパート モデル (基本的にはコマンダー モデルと同じですが、異なる指示があります) を呼び出して、さまざまな機能を実行することができます。これらの機能には、以前の出力の確認、特定のタスクに対する特定の AI パーソナリティの選択、生成されたコンテンツの最適化、最終出力が内容と形式の両方で必要な基準を満たしていることの確認などが含まれる場合があります。 図 1 に示すように、以前の方法と比較すると、新しい方法には明らかな改善が見られます。 メタプロンプト直感的な知識と抽象的な概要。メタプロンプトが機能する仕組みは、モデルを使用して複数の独立したクエリを調整および実行し、それらの応答を組み合わせて最終的な応答をレンダリングすることです。原則として、このメカニズムは統合アプローチを採用しており、独立した専門モデルの強みと多様性を借りて、多面的なタスクや問題を共同で解決し、対処します。 メタプロンプト戦略の中核は、その浅い構造であり、単一のモデル (メタモデルと呼ばれる) が権威あるマスター エンティティとして使用されます。 このプロンプト構造はオーケストラに似ており、指揮者の役割はメタモデルによって担われ、各ミュージシャンは異なるドメイン固有のモデルに対応します。指揮者が複数の楽器を調整して調和のとれたメロディーを演奏するのと同じように、メタモデルは複数のモデルの回答と洞察を組み合わせて、複雑な問題やタスクに対する正確で包括的な回答を提供できます。 概念的には、このフレームワーク内では、ドメイン エキスパートは、特定のタスクに合わせて微調整された言語モデル、特定の種類のクエリを処理するための特殊な API、さらには計算機などの計算ツールや、コードを実行するための Python インタープリターなどのコード ツールなど、さまざまな形態をとることができます。異なる機能を持つこれらの専門家はすべて、メタモデルの監督下で指示および統合されており、互いに直接対話したり通信したりすることはできません。 アルゴリズムの手順。アルゴリズム 1 は、提案されたメタプロンプト方法の疑似コードを示します。 簡単にまとめると、最初のステップは、入力を適切なテンプレートに準拠するように変換することです。次に、次のループが実行されます: (a) プロンプトをメタモデルに送信、(b) 必要に応じてドメイン エキスパート モデルを使用、(c) 最終応答を返し、(d) エラーを処理します。 実験でチームが使用したメタモデルとエキスパートモデルはどちらも GPT-4 であることに留意する必要があります。それぞれの役割の違いは、受け取る指示によって決まります。メタモデルは図 3 に示す一連の指示に従いますが、エキスパート モデルは推論時にメタモデルによって動的に決定される指示に従います。 実験のセットアップベンチマーク 研究チームは、メタプロンプトと、次のプロンプト方法のタスクに依存しないゼロショットバージョンを比較しました。
データセットとタスク 研究チームは、数学的およびアルゴリズム的推論、分野固有の知識、文学的創造性など、さまざまな能力を必要とするさまざまなタスクとデータセットを実験に使用しました。これらのデータセットとタスクには以下が含まれます。
回答抽出および評価プロトコル 図 3 に示すように、提案されたメタプロンプト方式では、システム指示によりメタモデルが特定の形式で最終的な回答を出すように促します。 評価については、タスクの性質と形式に応じて、次の 3 つの指標のいずれかが使用されます。
モデルと推論 チームの主な実験ではすべて GPT-4 (gpt-4-32k) が使用されました。いくつかの追加実験では、GPT-3.5 (gpt-35-turbo) が使用されました。 GPT-3.5 と GPT-4 はどちらも、微調整に以下の命令を使用します。 すべての実験において、メタモデルとシステム命令で使用されるパラメータは同じです。温度値は 0 に設定され、top-p 値は 0.95 に設定され、トークンの最大数は 1024 に設定されています。 主な結果と考察表1は実験結果をまとめたものであり、提案されたメタプロンプトの優位性が実証されています。 すべてのタスクにおけるこれらの方法の全体的なパフォーマンスを見ると、特に Python インタープリター ツールの支援を受けた場合、メタプロンプトによって精度が大幅に向上することがわかります。 具体的には、メタプロンプト方式は標準プロンプト方式よりも 17.1% 優れており、専門家 (動的) プロンプトよりも 17.3% 優れており、複数人プロンプトよりも 15.2% 優れています。 さらに、図 4 と 5 から、Python インタープリタを使用しないメタプロンプトと比較して、Python インタープリタを統合すると、さまざまなタスクの全体的なパフォーマンスが 11.5% 向上することがわかります。 チームはまた、メタプロンプト、ゼロショット分解機能、エラー検出、情報集約、コード実行のパフォーマンスの優位性など、論文の実験から得られた重要な洞察についても詳細に議論しています。ここでは詳細には触れませんが、「Fresh Eyes」のコンセプトは紹介する価値があります。 「フレッシュ アイズ」、つまり別の目で見るということは、言語モデルに関するよく知られた問題、つまり間違いを犯すと間違いを繰り返し、自信過剰になってしまうという問題を軽減するのに役立ちます。 Fresh Eyes は、メタプロンプトと複数人プロンプトの主な違いであり、実験結果もその利点を証明しています。メタプロンプトでは、専門家 (またはペルソナ) を使用して質問を再評価できます。このアプローチはまったく新しい洞察を生み出す可能性があり、これまでは誤りだとは見なされていなかった解決策の発見につながることが期待されます。 Fresh Eyes は認知心理学に基づいており、より創造的な問題解決とエラー検出の結果をもたらします。 次の例は、Fresh Eyes の実際の利点を示しています。タスクが 24 のゲームで、指定された数字が 6、11、12、13 であり、結果が 24 になる算術式を作成する必要があり、各数字は 1 回しか使用できないとします。歴史的なプロセスは次のようになります。 1. メタモデルは、数学的な問題を解決し、Python を使用してプログラミングするためのコンサルティング エキスパート モデルを提案します。正確性と制約の順守の必要性を強調し、必要に応じて別の専門家を関与させることを推奨しています。 2. ある専門家が解決策を提示しましたが、別の専門家はそれが間違っていると考え、メタモデルは有効な解決策を見つけるために Python プログラムを作成することを提案します。 3. プログラミングの専門家に相談し、プログラムの作成を依頼します。 4. 別のプログラミング専門家がスクリプトのバグを発見し、それを修正して、修正したスクリプトを実行します。 5. 数学の専門家に相談し、プログラムによって出力された解を検証してもらいます。 6. 検証が完了すると、メタモデルはそれを最終的な回答として出力します。 この例は、メタプロンプティングが各ステップで新しいアイデアを取り入れ、解決策につながるだけでなく、エラーを効果的に特定して修正する方法を示しています。 最後に、チームは、使用される専門家のタイプの分析、最終結果に到達するのに必要な会話のターン数、解決策がない状況への対処方法など、メタプロンプトに関連するその他のいくつかの問題について議論しました。詳細については原論文を参照してください。 |
<<: エンコーダー・デコーダーアーキテクチャを放棄し、エッジ検出に拡散モデルを使用する方が効果的です。国立国防科学技術大学はDiffusionEdgeを提案しました。
>>: GPT-4/Llama2のパフォーマンスを大幅に向上させるためにRLHFは必要ない、北京大学のチームはAlignerの新しいアライメントパラダイムを提案
(NetEase Intelligence English ソース/Engadget 翻訳/Mach...
[[438491]]情報データ伝送のセキュリティは、常に非常に重要なテーマです。プログラマーとして働...
翻訳者 |ブガッティレビュー | Chonglou他の人はAI画像を使って超リアルな顔を生成できるの...
今日の急速に変化するデジタル環境において、顧客は独自のニーズや要望を満たす優れたサービスをますます期...
2020年12月2日午前9時、知恵とリソースを集めることを目的とした2日間のOpenI/O 2020...
[51CTO.com クイック翻訳] 現在、世界中のあらゆる場所で大量のデータが絶えず生成されており...
Neural Radiance Fieldsは2020年に提案されて以来、関連論文が飛躍的に増加し...
[[252632]]はじめに:最近、「このスクリーンはあなたの運命を変えるかもしれない」という記事が...
無線周波数識別技術は、無線、非接触の自動識別技術であり、近年開発された最先端の技術プロジェクトです。...
人々が自らに問うべき実存的な問いは、自分たちがシミュレートされた宇宙に住んでいるかどうかだ。 [[3...
[[379872]] 【はじめに】「遠く離れた親友は遠い国を近づける」これは、Shi Tou兄弟が私...
実際の人間の顔の 3 次元モデリング、合成、再照明は、コンピュータ グラフィックスの分野で高い応用価...
今日の GitHub ホット リストのトップは、最新のオープン ソース ワールド モデルです。コンテ...
AI の取り組みが失敗すると、その責任はスキルのギャップにあるとされることが多いです。しかし、それだ...