清華大学、マイクロソフトなど大学がリマインダーエンジニアを排除？ LLMと進化的アルゴリズムを組み合わせて強力なプロンプト最適化ツールを作成する

LLM の機能と従来のアルゴリズムを組み合わせることで、どのような火花が生まれるのでしょうか?

清華大学、マイクロソフトリサーチ、ノースイースタン大学による最近の新しい研究では、プロンプトワードエンジニアリングの問題に対処するために従来の進化的アルゴリズムを使用すると、効率が大幅に向上することが示されています。

進化的アルゴリズムをプロンプトワードエンジニアリングに統合し、LLM を使用して進化的アルゴリズム内の進化的演算子を模倣して新しいプロンプトワードを生成し、より優れたパフォーマンスでプロンプトワードを保持して継続的に反復します。プロンプトワードを自動的に生成するこの方法は、将来、プロンプトワードエンジニアリングで最も重要な方法になる可能性があります。

論文アドレス: https://arxiv.org/pdf/2309.08532

一部のネットユーザーは自らを嘲笑した。

私は年を取りすぎているのでしょうか? 2 週間前、「プロンプトエンジニア」がまだ新しい職業だったことを覚えています...

研究者らは進化的アルゴリズムのアイデアを活用して、離散プロンプト調整フレームワークである EvoPrompt を提案しました。

進化アルゴリズムの進化演算子は通常、シーケンス用に設計されていますが、新しい候補ソリューションを生成するためにマーカーを独立して変更する傾向があります。

残念ながら、このアプローチでは、個別のキューワードの一貫性と可読性を維持するために重要なトークン間の接続が無視されます。

したがって、個別の手がかり語に対する進化演算子を設計することは困難です。

研究者たちは、LLM の自然言語処理の専門知識と進化的アルゴリズムの優れた最適化機能を活用し、両方の方法の利点を組み合わせました。LLM は進化的演算子に基づいて新しい候補プロンプトを生成し、進化的アルゴリズムは最適化プロセスをガイドして最適なプロンプト単語を保持します。

具体的には、研究者はいくつかの初期プロンプトに基づいて、LLM を使用して進化アルゴリズムの進化演算子を模倣し、新しい候補プロンプトを生成し、開発セットでより優れたパフォーマンスのプロンプトを保持しました。

このように、継続的な反復によって、生成されるプロンプト単語の品質を向上させることができます。研究者らは合計 9 つのデータセットを使用して、手動で設計されたプロンプトや以前の自動プロンプト生成方法と比較して、EvoPrompt が一貫して優れたプロンプト単語を取得できることを発見しました。

離散プロンプトワードの自動最適化

現在の最先端の大規模言語モデル (LLM) は通常、勾配やパラメータにアクセスできないブラックボックス API を介して操作されます。進化型アルゴリズム (EA) は、優れた精度と高速収束を備えた導関数を使用しないアルゴリズムです。

そのため、研究者は離散プロンプト最適化に EA を導入することを検討しました。

ただし、新しい候補ソリューションを生成する場合、進化演算子は通常、現在のソリューション内の要素を、それらの間の接続を考慮せずに個別に編集します。このため、一貫性と読みやすさが求められる個別の手がかり単語に進化演算子を適用するのは困難です。

この課題に対処するために、研究者らは、LLM の自然言語処理の専門知識と EA の最適化機能を組み合わせた相乗的なアプローチを設計し、これを EvoPrompt と名付けました。

具体的には、LLM は進化演算子に基づいて新しい候補のキューワードを生成し、EA は最適化プロセスをガイドして最適なキューワードを見つけます。

EvoPrompt を実際に実装するには、EA の特定のアルゴリズムを使用してインスタンス化する必要があります。

EA にはさまざまな種類があり、研究者は広く使用されている 2 つのアルゴリズム (遺伝的アルゴリズムと差分進化アルゴリズム) を検討しました。 GA は最も高く評価されている進化アルゴリズムの 1 つであり、DE は導入以来、複雑な最適化問題を解決するために最も広く使用されているアルゴリズムの 1 つとなっています。どちらのアルゴリズムも業界で広く受け入れられ、使用されています。

EvoPrompt フレームワーク

EA（進化的アルゴリズム）は通常、N 個のソリューションの初期集団（研究者の研究における単語プロンプトに相当）から開始し、現在の集団に対して進化的演算子（突然変異や交差など）を使用して新しいソリューションを反復的に生成し、スコアリング関数に従って集団を更新します。

一般的な EA によれば、EvoPrompt は主に次の 3 つのステップで構成されます。

1. 初期集団:既存の手がかりベースの方法のほとんどが、人間の知識によって提供される効率的な事前初期化を無視しているという観察に基づいて、人間の知恵を事前知識として活用するために、いくつかの手動の手がかりを初期集団として適用します。

さらに、EA は通常、ランダムに生成されたソリューション (キューワード) から開始して、多様な集団を生成し、局所最適値に陥らないようにします。したがって、研究者らは、LLM によって生成されたいくつかのプロンプト単語も初期グループに導入しました。

2. 進化:各反復において、EvoPrompt は LLM を進化演算子として使用し、現在の母集団から選択された複数の親プロンプトに基づいて新しいプロンプトを生成します。

これを実現するために、研究者らは、EA の特定のタイプごとに突然変異および交差演算子の手順と、これらの手順に基づいて LLM が新しいキューを生成するようにガイドする対応する指示を慎重に設計しました。

3. 更新:研究者は、開発セットで生成された候補プロンプトを評価し、自然界の適者生存と同様に、パフォーマンスが優れているものを保持します。

具体的な更新戦略は、使用する EA の種類によって異なる場合があります。

反復回数が事前に定義された上限に達すると、アルゴリズムは停止します。 EvoPrompt の詳細は上の図に示されています。 EA の特定のアルゴリズムを使用して EvoPrompt をインスタンス化する場合、進化と更新のプロセスを調整する必要があります。重要な課題は、離散プロンプトの進化演算子を設計することです。

遺伝的アルゴリズムのインスタンス化

選択: GA (遺伝的アルゴリズム) では、通常、適応度値に基づいてルーレットホイール選択を使用して 2 つの親ソリューションが選択されます。同様に、研究者らはルーレットホイール選択を使用して、開発セットで評価されたスコアに基づいて現在の集団から 2 つの親キューを選択しました。

進化: GA の進化演算子によると、選択された 2 つの親プロンプトに基づいて、2 段階のプロセスを通じて新しい候補プロンプトが生成されます。1) 親プロンプトが交差し、2 つの親プロンプトのコンポーネントを選択的に組み合わせた新しいプロンプトが生成されます。2) 最初のステップで新しく生成されたプロンプトが突然変異し、その内容の一部がランダムに変更されます。

この2段階のプロセスに基づいて、アルゴリズム1でEvo(·)を実行するために、LLMがこれらの手順に基づいて新しいヒントを生成するようにガイドする命令を設計します。このプロセスの詳細は、以下の図に示されています。

更新する

EvoPrompt は、新しい候補プロンプトを繰り返し生成し、D というラベルの付いた開発セットを使用して、プロンプトの品質を定量化するスコアを取得します。研究者たちは単純な選択戦略を検討した。具体的には、各反復で、GA (遺伝的アルゴリズム) ベースの EvoPrompt は N 個の新しいプロンプトを生成し、それが現在の N 個のプロンプトの集合とマージされます。次に、上位 N 個のスコアリングキューを保持することによって、更新された集団が選択されます。

差分進化によるインスタンス化

微分進化の基礎知識

DE (Differential Evolution) では、解は数値ベクトルで表されます。各候補ベクトルは、突然変異と交差のための集団内の基本ベクトル x として順番に選択されます。突然変異とは、現在の集団からランダムに抽出された解 a に基づいて、突然変異解 y を生成するプロセスです。

進化

DE ベースの EvoPrompt の進化プロセスは、1) F(b−c)、2) y=a+F(b−c)、3) x と y の交差の 3 つのステップに分解できます。

DE ベースの EvoPrompt では、研究者は次の 3 つの手順に従って進化プロセスを設計し、対応する LLM 指示に従ってこれらの手順に基づいて新しいプロンプトを生成します (下の図を参照)。

DE の差異ベクトルにヒントを得て、研究者らは、現在の集団内でランダムに選択された 2 つのプロンプトの異なる部分のみを変異させることを検討しました (上図のステップ 1 と 2)。現在のグループ内のヒントは、現時点でのベストのヒントとみなされます。したがって、2 つのキューの共有コンポーネントはパフォーマンスにプラスの影響を与える傾向があるため、保持する必要があります。
DE のバリアントは、突然変異プロセスで現在の最適なベクトルを使用します。この場合、突然変異ベクトルは、差分ベクトルのスケールを現在の最適なベクトルに追加することによって生成されます。この考えに基づいて、研究者たちは現在最良のヒントも使用しました。具体的には、研究者は、現在の最良のヒントの一部をバリアントの異なる部分に選択的に置き換えることによって、バリアントのヒントを生成します (上図のステップ 3)。
交差は、ベースキュー（つまり、現在の集団の候補キューの 1 つ）の一部のコンポーネントをバリアントキューのフラグメントに置き換えるプロセスとして定義されます。この操作により、2 つの異なるプロンプトの機能が結合され、新しい改善されたソリューションが作成される可能性が高くなります (上図のステップ 4)。

EvoPrompt評価実験

GPT-3.5で進化演算子を実行する際、研究者らはEvoPromptを使用してオープンソースのAlpaca-7bとクローズドソースのGPT-3.5の両方でプロンプトを最適化し、開発セットで最も高いスコアを獲得したプロンプトのスコアをテストセットに報告しました。

目標は、さまざまなヒント方法を比較して、どのヒント方法が自然言語処理タスクでより優れたパフォーマンスを達成できるかを判断することです。

手動で設計されたプロンプト (ML)、手動で収集されたプロンプトから選択されたプロンプト (PromptSource および Natural Directions)、およびモンテカルロ検索を使用して初期プロンプトを改善する APE と呼ばれる方法があります。

研究者らは、実験の実装の詳細とパフォーマンスのベースラインを提示した後、言語理解と生成のタスクにおける EvoPrompt のパフォーマンスを評価しました。

言語理解

研究者らは、7つのデータセットに対してEvoPromptを使用した言語理解実験を実施しました。

上の図に示すように、EvoPrompt はプロンプト生成 (APE) や人間による指示書に関するこれまでの研究と比較して、大幅に優れた結果を達成しています。

しかし、感情分類データセットでは、EvoPrompt(GA) は EvoPrompt(DE) よりもわずかに優れています。

トピック分類データセットに関しては、EvoPrompt(GA) と EvoPrompt(DE) は同様の結果を示します。

主観的分類タスク (Subi) では、EvoPrompt(DE) は EvoPrompt(GA) よりも 9.7% の精度優位性で大幅に優れています。

言語生成

研究者らは、テキストの要約と簡素化のタスクで EvoPrompt を評価しました。

テキスト要約タスクでは、評価に使用されるデータセットは、複雑で困難な会話要約データセットである SAMSum です。

研究者らは、Alpaca-7b と GPT-3.5 における ROUGE-1/2/L のスコアを報告しています。

テキスト簡略化タスクでは、研究者は、元の意味を維持しながらテキストを簡略化することを目的として、複数の参照を持つ代表的な ASSET データセットを採用しました。

テキスト編集タスクで広く使用されている n グラムベースのメトリックである SARI スコアが報告されます。

要約と簡略化された結果をそれぞれ表 2 と表 3 に示します。

異なるサイズの 2 つのモデル (Alpaca-7 と GPT-3.5) では、EvoPrompt は人間が設計したプロンプトと APE が生成したプロンプトの両方を大幅に上回ります。

さらに、要約タスクでは、EvoPrompt(DE) は EvoPrompt(GA) を大幅に上回りますが、簡素化タスクでは、EvoPrompt(DE) は EvoPrompt(GA) と同等のパフォーマンスを発揮します。

アルゴリズム分析

進化的オペレータ設計

進化的演算子を個別のプロンプトに適用すると、EvoPrompt (DE) には、異なる部分のみを変異させ、現在の最適なプロンプト (図 2 のプロンプト 3 など) を選択するという 2 つの重要な設計側面があります。

研究者らは、理解データセット Subj と生成データセット ASSET における EvoPrompt (DE) の有効性に影響を与える可能性のあるこれらの設計を研究し、前者では EvoPrompt (DE) が EvoPrompt (GA) よりもはるかに優れたパフォーマンスを発揮しました。

後者では、EvoPrompt (DE) と EvoPrompt (GA) のパフォーマンスは同様でした。 GPT-3.5 は進化演算子として使用され、Alpaca-7b からのヒントを使用して最適化されます。

異なる部分のみを変異させることの利点を説明するために、研究者は図 2 の最初の 2 つの手順を次の指示に置き換えました。

「ヒント 1 とヒント 2 をランダムに変更する」は、表 4 の「Al」で示されているように、ヒント 1 とヒント 2 のすべての内容の変更を許可します。

一方、EvoPrompt の元の設計では、「Dice」というラベルが付いたさまざまな部分のみが変異しています。表 4 に示すように、異なる部分のみを変異させた設計では、一貫して改善が得られました。

EvoPrompt (DE) アルゴリズムでプロンプト 3 を選択することは、DE アルゴリズムを適用することの一種であり、図 2 のプロンプト 3 として現在の母集団内で最適なプロンプトを選択します。

研究者たちは、次の設定を使用してこの設計を検証しました。

1) 表 4 で「ランダム」と示されている現在の母集団から 3 つのランダムサンプルを抽出します。

2) プロンプト 3 の使用を削除し、基本プロンプトが表 4 のバリエーションのさまざまな部分を直接横切るようにします。

さらに、研究により、最良のキューをキュー 3 として選択する方がランダムサンプリングよりも効果的であることがわかっています。

EvoPrompt (GA) と EvoPrompt (DE)

研究者らは、提案された EvoPrompt を遺伝的アルゴリズム (GA) と差分進化アルゴリズム (DE) を含む 2 つの特定のアルゴリズムに実装しました。

2 つのアルゴリズムの選択プロセスを理解し、それぞれの長所と限界を理解するために、研究者は次の 2 つのデータセットを選択しました。

1) SST-5では、EvoPrompt (GA) のパフォーマンスが優れています。

2) 件名: EvoPrompt (DE) はこのデータセットで優れたパフォーマンスを示します。

各反復の開発セットの平均スコアと最高スコアを図 3 に示します。

SST-5 では、EvoPrompt (GA) を使用したグループの平均品質は、EvoPrompt (DE) を使用したグループの平均品質よりも一貫して優れており、最適なプロンプトも優れていました。

これは、スコアの高いキューが新しいキューを生成するための親として選択される可能性が高くなるという GA の選択戦略の恩恵を受けます。

DE では、集団内の各キューが順番にベースキューとして選択され、キュー 1 とキュー 2 はランダムに選択されます。

したがって、GA は現在の最適なソリューションの近くを検索する可能性が高くなり、手動のヒントが比較的高品質である状況では、より良い結果が得られる可能性が高まります。

たとえば、SST-5 の手動プロンプトはすでに適切に設計されており、EvoPrompt の改善はそれほど重要ではありません。対照的に、Subi の既存の手動プロンプトのパフォーマンスは低く、EvoPrompt は手動プロンプトに比べて 25% の大幅な改善を達成しています。

このデータセットでは、EvoPrompt(GA) は局所最適解に陥りましたが、EvoPrompt(DE) はうまく脱出し、より良い結果を達成しました。

選択戦略と適切に設計された進化的操作の利点により、複数の高品質のプロンプトがすでに存在する場合は EvoPrompt (GA) を選択し、それ以外の場合は EvoPrompt (DE) を選択することをお勧めします。

要約する

LLM (大規模言語モデル) のパフォーマンスは適切に設計されたプロンプトに大きく依存するという課題に対処するため、研究者らは、初期集団からの個別のプロンプトを最適化する EvoPrompt を設計し、LLM を進化演算子として使用して、最適なプロンプトを自動的に生成および検索しました。

さらに、研究者らは、調査結果に基づいて、LLM は従来のアルゴリズムを実装するための効果的で解釈可能なインターフェースを提供し、人間の理解とコミュニケーションとの良好な一貫性を保証すると考えています。

研究者らの調査結果は、LLM が誤った予測のサンプルを収集することで離散空間で「勾配降下法」を実行するという最近の傾向を裏付けています。研究者らの研究は、LLM が幅広い従来のアルゴリズムに応用できる可能性を実証することで重要な進歩を遂げました。研究者たちは、この研究が LLM と従来のアルゴリズムの組み合わせに関するさらなる研究を刺激し、LLM の斬新で革新的な応用への道を開くことを期待しています。

<<: 一流の科学者はどうやって AI を習得するのでしょうか? DeepSpeed4Science: 高度な AI システム最適化技術を使用して科学的発見を可能にする

>>: 高品質なマルチビュー画像生成、シーン素材を完璧に再現！ SFUらはMVDiffusionを提案した