エージェントは迅速なエンジニアリングに使用されます

エージェントが現実世界での人間の行動を模倣する場合、それをプロンプトエンジニアリングに適用できますか?

LLMからPromptエンジニアリングへ

大規模言語モデル (LLM) は、インターネット上のほとんどの Web ページを含む膨大なコーパスまたはテキストのデータセットでトレーニングされた Transformer ベースのモデルです。多くの時間 (および/または GPU)、エネルギー、水 (冷却用) を要するトレーニング中は、勾配降下法を使用してモデルのパラメータを最適化し、トレーニングデータを適切に予測できるようにします。

写真

本質的に、LLM は前の単語のシーケンスに基づいて、最も可能性の高い次の単語を予測することを学習します。これは推論を実行するために使用できます。つまり、モデルが何らかのテキストを生成した可能性を調べたり、ChatGPT などの LLM が人間との会話に使用できるテキストを生成したりすることができます。 LLM のトレーニングが終了し、パラメータが保存されると、トレーニングデータや再トレーニングされたデータに入力は追加されなくなります。 LLM は依然としてトレーニングデータからバイアスを学習できることは注目に値します。ChatGPT の開発元である OpenAI は、モデルが問題のあるコンテンツを生成しないように、人間からのフィードバックによる強化学習 (RLHF) を使用して安全策を追加する必要がありました。さらに、LLM は、事実確認や推論を行わずに、見たものに基づいて最も可能性の高い次の単語を単純に生成するだけなので、幻覚や事実の捏造、推論の誤りを起こしやすくなります。

ChatGPTが一般公開されて以来、LLMは世界中で人気を博しています。これらのモデルの新たな知能と私たちの生活のあらゆる側面への応用により、これらのモデルはあらゆる企業が利用したいと考える非常に人気のあるツールとなっています。チャットボットやコーディングおよびライティングアシスタントに加えて、LLM はインターネットなどのシミュレートされた環境と対話するエージェントの作成にも使用されます。

ChatGPT を試したことがある場合、回答が不十分な場合があることに気付くかもしれませんが、質問を言い換えると、より良い結果が得られる可能性があります。これはプロンプトエンジニアリングの技術であり、入力を変更して LLM が希望どおりに応答するようにします。このプロンプトの背後にある考え方は、いくつかの事実を提示したり、新しいドメインについて伝えたりして「LLM の記憶を呼び起こす」ことを試み、その後、訓練を受けた LLM から適切な応答を得ることです。これはコンテキスト学習と呼ばれ、ゼロショットと少数ショットの 2 つの主なタイプがあります。ゼロショットは LLM にヒントを提供します。これには、質問/コマンドの前に背景情報を含めることができ、LLM が適切な応答を見つけるのに役立ちます。 LLM にはサンプルプロンプトと可能な応答が数回提示され、その後、新しいプロンプトが提示され、LLM は例の形式で応答します。

ヒントエンジニアリングは、自然言語処理 (NLP) の将来のトレンドの 1 つになる可能性があります。この分野では、カスタムモデルからカスタムプロンプトへと移行しつつあります。LLM は、多くの時間と労力をかけずに誰でも独自に作成できる言語モデルよりもはるかに優れているためです。 LLM を適切なヒントエンジニアリングと組み合わせると、通常は専用モデルで実行できることはすべて実行できます。

写真

CoTからエージェントへ

Chain of Thoughts (CoT) は、推論エラーに対抗するために設計された、人気のキューエンジニアリング手法です。これは、言語的推論によって問題を解決する方法の例を LLM に 1 つ以上示し、次にこの方法で解決する別の問題を与えることを意味します。これは推論の誤りを克服するのに役立ちますが、それでも幻覚の影響を受け、幻覚の「事実」が推論を通じて伝播し、モデルが誤った結論を導き出す可能性があります。

1 つの質問のみを提示する標準プロンプトは、問題を解決するために複数の推論ステップを必要とする Chain of Thought (CoT) プロンプトの入力と比較されます。錯覚の問題により、CoT プロンプトを使用した LLM はより説得力のある応答を示しましたが、それでも間違っている可能性があります。 LLM が有用なツールとなるためには、自分で作り上げることができなければ、彼らを信頼することはできず、自分で調査を行う方がよいでしょう。エージェントはこの問題を解決できるようで、LLM が Wikipedia を検索して事実や理由を見つけるなどのアクションを実行できるようにします。

プロンプトエンジニアリングのエージェントアプリケーションの例 - ReAct

思考連鎖と同様に、ReAct は、小規模学習を使用してモデルに問題を解決する方法を教えるヒントエンジニアリングアプローチです。 CoT は人間が問題を考える方法を模倣すると考えられており、ReAct にもこの推論要素が含まれていますが、エージェントがテキストを操作して環境と対話できるようにすることでさらに一歩進んでいます。人間は、戦略を立てたり物事を記憶したりするために言語的推論を使用しますが、より多くの情報を得て目標を達成するための行動をとるためにも言語的推論を使用します。これがReActの基礎です。 ReAct プロンプトには、アクションの例、アクションを通じて得られた観察、プロセスのさまざまなステップでの人間の思考の転写 (推論戦略) が含まれます。 LLM は、環境内でエージェントとして考え、行動するためのこのクロストークアプローチを模倣することを学びます。

観測は LLM によって生成されるのではなく、環境によって生成されることを覚えておくことが重要です。環境は、LLM が特定のテキスト操作を通じてのみ対話できる別のモジュールです。したがって、ReAct を実装するには、次のことが必要です。

テキストアクションを受け取り、環境の内部状態に基づいて変更できる一連の潜在的なアクションからテキスト観測を返す環境。
エージェントが有効なアクションを記述するとテキストの生成を停止し、環境内でアクションを実行し、通常はこれまでに生成されたテキストに追加される観察結果を返し、結果を LLM にプロンプトする出力パーサーフレームワーク。
思考、行動、観察を組み合わせた人工的に生成された例は、少数のショット環境で使用できます。例の数と詳細は、目標と開発者の設計によって異なります。例:

ここでは、思考、アクション、観察が上記のように明確にラベル付けされており、アクションはクエリを括弧で囲んだ特別な形式を使用しているため、エージェントはこの方法でタスクを記述することを学習でき、出力パーサーはクエリを簡単に抽出できます。

Yao et al. (2023) はPalM-540Bを使用し、このLLMを使用して、2つの知識集約型推論タスクと2つの意思決定タスクに対するReActベースのプロンプトエンジニアリングの効果をテストしました。

知識集約型の推論タスク

このタスク領域で使用される 2 つのドメインは HotPotQA と FEVER です。前者は Wikipedia の文章を使用したマルチホップの質問応答であり、後者は事実検証です。エージェントは、次の操作を使用して Wikipedia API と対話できます。

検索: 名前または最も類似した結果のリストからページを検索します。
検索: ページ内の文字列を検索します。
回答してタスクを終了します。

ReAct は、HotPotQA と FEVER の 2 つの評価ドメインで、以下のヒントエンジニアリング手法と比較されます。結果は、FEVER での精度と HotPotQA での EM によって評価されます。

写真

で：

標準プロンプト: 考え、行動、または観察はありません。
CoT: タイムリーなアクションまたは観察がありません。
CoT-SC (自己一貫性) : LLM から一定数の応答がサンプリングされ、その大部分が応答として選択されます。
アクション: 思考プロンプトはありません。
ReAct ->CoT-SC: ReAct から開始し、その後 CoT-SC に切り替わります。
CoT-SC->ReAct: CoT-SC から開始し、その後 ReAct に切り替わります。

ReAct は HotPotQA ではパフォーマンスが低いですが、FEVER では CoT よりもパフォーマンスが優れています。 ReAct は CoT よりも幻覚を起こしにくいですが、推論エラーの発生率は高くなります。 ReAct にはこの欠点がありますが、ReAct-> CoT-SC と CoT-SC-> ReAct のメソッドが最も成功しています。

意思決定タスク

ReAct をテストするための 2 つの決定タスクは、ALFWorld と WebShop です。

ALFWorld は、現実的な環境を備えたテキストベースのゲームです。シミュレートされた世界で移動したり対話したりするためのテキストアクション (「引き出し 1 を開く」など) があります。エージェントに与えられる目標の 1 つは、家の中で特定のオブジェクトを見つけることです。そのため、常識的な推論によって、そのようなオブジェクトが通常どこにあるかを知ることができます。成功は目標を達成した試行の割合として測定されます。

WebShop は、Amazon のデータを使用してシミュレートされたオンラインショッピングサイトです。モバイルナビゲーションサイトや検索製品が多数存在するため、これは難しい分野です。目標は、ユーザーの仕様を満たすプロジェクトを見つけることです。成功は、選択された項目がユーザーの心の中に隠された項目にどれだけ近いかによって測定されます。

論文の評価結果によると、ReAct はベースラインよりも大幅に優れたパフォーマンスを発揮します。

ReAct は推論エラーのために不完全ですが、思考連鎖推論の事実錯覚問題を克服し、LLM が環境と対話できるエージェントになることを可能にする強力なキューエンジニアリング手法です。さらに、エージェントは行動しながら思考プロセスを出力するため、解釈可能です。

まとめ

プロンプトエンジニアリングに適用されるエージェントの具体的な実装として、ReAct は汎用人工知能と具体的な言語モデルに向けて一歩前進します。ロボットが、馴染みのある特徴に基づいて外部環境をモデル化し、そのモデルを使用して手がかりを作成する方法があれば、人工的に作成された例を必要とせずに、さまざまな領域で少なくとも独立して行動しようとすることができます。また、何らかの記憶、つまり経験から学ぶ能力も必要です。常識的な知識を持つロボットは、推論エラーや幻覚などの問題を解決できる限り、私たちにとって大きな助けとなるでしょう。

ところで、モデルが大きいということは、良い製品ができるということでしょうか? プロダクトマネージャーの貢献は、依然として不可欠な場合が多くあります。スマート音声製品を例にとると、製品設計をより良く完成させるために、このようなデスクマニュアル（著者の最新翻訳）が必要になる場合があります。

<<: GPT-4P がマルチモーダルプロンプトインジェクションイメージ攻撃に対して脆弱なのはなぜですか?

>>: 7Bモデルがまた手に入ると最高ですね！ 700億のLLaMA2を突破、Appleのコンピュータは