スタンフォード大学とOpenAIがメタプロンプティングを提案し、最も強力なゼロショットプロンプティング技術が誕生した。

最新世代の言語モデル (特に GPT-4、PaLM、LLaMa) は、自然言語処理と生成の限界を押し広げることに成功しました。これらの大規模モデルは、シェークスピアのソネットの執筆から複雑な医療レポートの要約、競技レベルのプログラミング問題の解決まで、さまざまなタスクを解決できます。これらのモデルはさまざまな問題に対処できますが、必ずしも正しいとは限らず、不正確、誤解を招く、または矛盾した応答を生成することもあります。

これらのモデルの実行コストが下がるにつれて、スキャフォールディングシステムを使用し、複数の言語モデルクエリを使用してこれらのモデル出力の精度と堅牢性を最適化および向上できるかどうかという疑問が生じるのは当然です。

スタンフォード大学と OpenAI によるこの研究では、言語モデルの機能とパフォーマンスを向上させるために使用できる「メタプロンプティング」と呼ばれる新しい手法を提案しています。

論文タイトル: メタプロンプト: タスクに依存しないスキャフォールディングによる言語モデルの強化
論文アドレス: https://arxiv.org/abs/2401.12954
プロジェクトアドレス: https://github.com/suzgunmirac/meta-prompting

この手法では、言語モデルに次の操作を指示する高レベルの「メタ」プロンプトを構築します。

1. 複雑なタスクや問題を、より小さく、解決しやすいサブタスクに分割します。

2. 適切かつ詳細な自然言語指示を使用して、これらのサブタスクを専門の「エキスパート」モデルに割り当てます。

3. これらのエキスパートモデル間の通信を監視する。

4. このプロセスを通じて、独自の批判的思考、推論、検証スキルを適用します。

メタプロンプトを使用して効果的に呼び出すことができる言語モデルの場合、モデルはクエリの実行時にコンダクターとして機能します。複数のエキスパートモデルからの応答で構成されるメッセージ履歴 (またはナラティブ) のセットを出力します。この言語モデルは、まずメッセージ履歴の指揮官部分を生成する役割を担います。これには、エキスパートの選択と、エキスパートに対する特定の指示の構築が含まれます。ただし、同じ言語モデル自体も独立したエキスパートとして機能し、特定のクエリごとにコマンダーが選択した専門知識と情報に基づいて出力を生成します。

このアプローチにより、単一の統合言語モデルで一貫性のある一貫した推論を維持しながら、さまざまな専門家の役割を活用することができます。プロンプトのコンテキストを動的に選択することで、これらの専門家はプロセスに新しい視点をもたらすことができ、一方で、指揮官モデルは完全な履歴の俯瞰図を維持し、調整を維持します。

したがって、このアプローチにより、単一のブラックボックス言語モデルが中央司令官と一連のさまざまな専門家の両方として効果的に機能できるようになり、より正確で信頼性が高く、一貫した応答が得られます。

ここで提案されている新しいメタプロンプト手法は、高レベルの計画と意思決定、動的なペルソナの割り当て、マルチエージェントの議論、自己デバッグ、自己反省など、最近の研究で提案されているいくつかの異なるプロンプトのアイデアを組み合わせて拡張したものです。

メタプロンプトの重要な側面は、特定のタスクから独立しているという特性があることです。

各タスクに特定の指示や例をカスタマイズする必要がある従来のスキャフォールディングアプローチとは異なり、メタプロンプティングでは、複数のタスクと入力にわたって同じ一連の高レベルの指示を使用します。この汎用性により、特定のタスクごとに詳細な例や具体的な指示を提供する必要がなくなるため、特に臆病なユーザーにとって有益です。

たとえば、「自撮り写真についてのシェイクスピアのソネットを書いてください」といった一回限りのリクエストの場合、ユーザーは新古典派の詩の高品質な例を補足する必要はありません。

メタプロンプトアプローチは、言語モデルの特異性や関連性を損なうことなく、幅広く柔軟なフレームワークを提供することで、言語モデルの有用性を向上させることができます。さらに、メタプロンプト方式の汎用性と統合機能を実証するために、チームはシステムを拡張して Python インタープリターを呼び出せるようにしました。これにより、テクノロジはより動的で包括的なアプリケーションをサポートできるようになり、さまざまなタスクやクエリを効果的に処理する可能性がさらに高まります。

図 2 は、メタプロンプト会話フローの例を示しています。

これは、メタモデル (つまり、コマンダーモデル) が複数の異なる専門のエキスパートモデルまたはコード実行からの入力と出力を使用して、独自の出力を解釈するプロセスを表します。この構成により、メタプロンプトはほぼ普遍的なツールになります。これにより、複数の言語モデルの相互作用と計算を単一の一貫した物語に集約できるようになります。メタプロンプトの違いは、どのプロンプトまたはコードスニペットを使用するかを言語モデルが自動的に決定することです。

研究チームは、GPT-4 を基本言語モデルとして使用し、メタプロンプトと他のタスクに依存しないスキャフォールディング方法を比較する包括的な実験を実施しました。

実験により、メタプロンプトは全体的なパフォーマンスを向上させるだけでなく、複数の異なるタスクで新たな最良の結果を達成することが多いことがわかりました。その柔軟性は特に注目に値します。コマンダーモデルは、エキスパートモデル (基本的にはコマンダーモデルと同じですが、異なる指示があります) を呼び出して、さまざまな機能を実行することができます。これらの機能には、以前の出力の確認、特定のタスクに対する特定の AI パーソナリティの選択、生成されたコンテンツの最適化、最終出力が内容と形式の両方で必要な基準を満たしていることの確認などが含まれる場合があります。

図 1 に示すように、以前の方法と比較すると、新しい方法には明らかな改善が見られます。

メタプロンプト

直感的な知識と抽象的な概要。メタプロンプトが機能する仕組みは、モデルを使用して複数の独立したクエリを調整および実行し、それらの応答を組み合わせて最終的な応答をレンダリングすることです。原則として、このメカニズムは統合アプローチを採用しており、独立した専門モデルの強みと多様性を借りて、多面的なタスクや問題を共同で解決し、対処します。

メタプロンプト戦略の中核は、その浅い構造であり、単一のモデル (メタモデルと呼ばれる) が権威あるマスターエンティティとして使用されます。

このプロンプト構造はオーケストラに似ており、指揮者の役割はメタモデルによって担われ、各ミュージシャンは異なるドメイン固有のモデルに対応します。指揮者が複数の楽器を調整して調和のとれたメロディーを演奏するのと同じように、メタモデルは複数のモデルの回答と洞察を組み合わせて、複雑な問題やタスクに対する正確で包括的な回答を提供できます。

概念的には、このフレームワーク内では、ドメインエキスパートは、特定のタスクに合わせて微調整された言語モデル、特定の種類のクエリを処理するための特殊な API、さらには計算機などの計算ツールや、コードを実行するための Python インタープリターなどのコードツールなど、さまざまな形態をとることができます。異なる機能を持つこれらの専門家はすべて、メタモデルの監督下で指示および統合されており、互いに直接対話したり通信したりすることはできません。

アルゴリズムの手順。アルゴリズム 1 は、提案されたメタプロンプト方法の疑似コードを示します。

簡単にまとめると、最初のステップは、入力を適切なテンプレートに準拠するように変換することです。次に、次のループが実行されます: (a) プロンプトをメタモデルに送信、(b) 必要に応じてドメインエキスパートモデルを使用、(c) 最終応答を返し、(d) エラーを処理します。

実験でチームが使用したメタモデルとエキスパートモデルはどちらも GPT-4 であることに留意する必要があります。それぞれの役割の違いは、受け取る指示によって決まります。メタモデルは図 3 に示す一連の指示に従いますが、エキスパートモデルは推論時にメタモデルによって動的に決定される指示に従います。

実験のセットアップ

ベンチマーク

研究チームは、メタプロンプトと、次のプロンプト方法のタスクに依存しないゼロショットバージョンを比較しました。

標準プロンプト
ゼロサンプル思考連鎖の促進
専門家の助言
マルチプレイヤープロンプト

データセットとタスク

研究チームは、数学的およびアルゴリズム的推論、分野固有の知識、文学的創造性など、さまざまな能力を必要とするさまざまなタスクとデータセットを実験に使用しました。これらのデータセットとタスクには以下が含まれます。

24 のゲーム: 4 つの指定された値 (それぞれ 1 回のみ使用可能) を使用して、結果が 24 になる算術式を作成することが目標です。
3 つの BIG-Bench Hard (BBH) タスク: 幾何学的形状、マルチステップ算術 2、および単語の並べ替え。さらに、BIG-Bench スイートから直接取得した推論タスク Checkmate-in-One。
Python プログラミングパズル (P3)、つまり Python プログラミングの質問には、複数の難易度レベルが含まれます。
GSM8K データセットの多言語バージョンである Multilingual Grade School Math には、ベンガル語、日本語、スワヒリ語などの言語が含まれています。
シェイクスピア風ソネットの書き方は、チームによって作成された新しいタスクです。目標は、「ABAB CDCD EFEF GG」に従って厳密に韻を踏んだソネットを書くことです。これには、指定された 3 つの単語が逐語的に含まれている必要があります。

回答抽出および評価プロトコル

図 3 に示すように、提案されたメタプロンプト方式では、システム指示によりメタモデルが特定の形式で最終的な回答を出すように促します。

評価については、タスクの性質と形式に応じて、次の 3 つの指標のいずれかが使用されます。

完全一致 (EM)
ソフトマッチ（SM）
機能的に正しい (FC)

モデルと推論

チームの主な実験ではすべて GPT-4 (gpt-4-32k) が使用されました。いくつかの追加実験では、GPT-3.5 (gpt-35-turbo) が使用されました。 GPT-3.5 と GPT-4 はどちらも、微調整に以下の命令を使用します。

すべての実験において、メタモデルとシステム命令で使用されるパラメータは同じです。温度値は 0 に設定され、top-p 値は 0.95 に設定され、トークンの最大数は 1024 に設定されています。

主な結果と考察

表1は実験結果をまとめたものであり、提案されたメタプロンプトの優位性が実証されています。

すべてのタスクにおけるこれらの方法の全体的なパフォーマンスを見ると、特に Python インタープリターツールの支援を受けた場合、メタプロンプトによって精度が大幅に向上することがわかります。

具体的には、メタプロンプト方式は標準プロンプト方式よりも 17.1% 優れており、専門家 (動的) プロンプトよりも 17.3% 優れており、複数人プロンプトよりも 15.2% 優れています。

さらに、図 4 と 5 から、Python インタープリタを使用しないメタプロンプトと比較して、Python インタープリタを統合すると、さまざまなタスクの全体的なパフォーマンスが 11.5% 向上することがわかります。

チームはまた、メタプロンプト、ゼロショット分解機能、エラー検出、情報集約、コード実行のパフォーマンスの優位性など、論文の実験から得られた重要な洞察についても詳細に議論しています。ここでは詳細には触れませんが、「Fresh Eyes」のコンセプトは紹介する価値があります。

「フレッシュアイズ」、つまり別の目で見るということは、言語モデルに関するよく知られた問題、つまり間違いを犯すと間違いを繰り返し、自信過剰になってしまうという問題を軽減するのに役立ちます。

Fresh Eyes は、メタプロンプトと複数人プロンプトの主な違いであり、実験結果もその利点を証明しています。メタプロンプトでは、専門家 (またはペルソナ) を使用して質問を再評価できます。このアプローチはまったく新しい洞察を生み出す可能性があり、これまでは誤りだとは見なされていなかった解決策の発見につながることが期待されます。

Fresh Eyes は認知心理学に基づいており、より創造的な問題解決とエラー検出の結果をもたらします。

次の例は、Fresh Eyes の実際の利点を示しています。タスクが 24 のゲームで、指定された数字が 6、11、12、13 であり、結果が 24 になる算術式を作成する必要があり、各数字は 1 回しか使用できないとします。歴史的なプロセスは次のようになります。

1. メタモデルは、数学的な問題を解決し、Python を使用してプログラミングするためのコンサルティングエキスパートモデルを提案します。正確性と制約の順守の必要性を強調し、必要に応じて別の専門家を関与させることを推奨しています。

2. ある専門家が解決策を提示しましたが、別の専門家はそれが間違っていると考え、メタモデルは有効な解決策を見つけるために Python プログラムを作成することを提案します。

3. プログラミングの専門家に相談し、プログラムの作成を依頼します。

4. 別のプログラミング専門家がスクリプトのバグを発見し、それを修正して、修正したスクリプトを実行します。

5. 数学の専門家に相談し、プログラムによって出力された解を検証してもらいます。

6. 検証が完了すると、メタモデルはそれを最終的な回答として出力します。

この例は、メタプロンプティングが各ステップで新しいアイデアを取り入れ、解決策につながるだけでなく、エラーを効果的に特定して修正する方法を示しています。

最後に、チームは、使用される専門家のタイプの分析、最終結果に到達するのに必要な会話のターン数、解決策がない状況への対処方法など、メタプロンプトに関連するその他のいくつかの問題について議論しました。詳細については原論文を参照してください。

<<: エンコーダー・デコーダーアーキテクチャを放棄し、エッジ検出に拡散モデルを使用する方が効果的です。国立国防科学技術大学はDiffusionEdgeを提案しました。

>>: GPT-4/Llama2のパフォーマンスを大幅に向上させるためにRLHFは必要ない、北京大学のチームはAlignerの新しいアライメントパラダイムを提案

AIビッグモデルオープンソースヒーロー！ザッカーバーグ氏はLLaMAリークについて議会から質問を受けた。「慣れている」

ブログ

スタンフォード大学とOpenAIがメタプロンプティングを提案し、最も強力なゼロショットプロンプティング技術が誕生した。

メタプロンプト

実験のセットアップ

主な結果と考察

AIビッグモデルオープンソースヒーロー！ザッカーバーグ氏はLLaMAリークについて議会から質問を受けた。「慣れている」

AIは生産性を低下させるでしょうか?今のところは出演はありません!

自動運転車を最も必要としているのは誰でしょうか?

AIとIoTがサプライチェーンにもたらす効果

わかった！ニッチだけど役に立つAIテクニック6選

図解機械学習: 誰でも理解できるアルゴリズムの原理

HTML5アウトラインアルゴリズムが構造に与える影響

推薦する

ブロックチェーン、人工知能…革新的なコンセプトを利用して投資家を混乱させる違法金融にご注意

オプティマイザーを選択するにはどうすればいいですか?この記事では、さまざまなMLプロジェクトに適したオプティマイザーを選択する方法を説明します。

AIと自動化がプロセスマイニングを改善する6つの方法

人工知能の到来。会計士は不安になるべきでしょうか?

ByteDance Wanka Cluster の技術詳細が明らかに: GPT-3 トレーニングが 2 日間で完了、コンピューティングパワーの使用率は Nvidia Megatron-LM を上回る

人工知能のための 6 つの無料オープンソースツール! 3 分で機械学習を始めましょう!

Apple、Google Play ランキングアルゴリズム

エネルギー効率を向上させるために、脳は予測知覚能力を発達させた。

第 5 のインテリジェント運転認識技術を深く掘り下げて、低照度シーン認識の問題点を解決し、大量生産を実現し、コストを低く抑えるにはどうすればよいでしょうか。

人工知能が誤って解釈する画像とはどのようなものでしょうか?