エージェントは迅速なエンジニアリングに使用されます

エージェントは迅速なエンジニアリングに使用されます

エージェントが現実世界での人間の行動を模倣する場合、それをプロンプトエンジニアリングに適用できますか?

LLMからPromptエンジニアリングへ

大規模言語モデル (LLM) は、インターネット上のほとんどの Web ページを含む膨大なコーパスまたはテキストのデータセットでトレーニングされた Transformer ベースのモデルです。多くの時間 (および/または GPU)、エネルギー、水 (冷却用) を要するトレーニング中は、勾配降下法を使用してモデルのパラメータを最適化し、トレーニング データを適切に予測できるようにします。

写真

本質的に、LLM は前の単語のシーケンスに基づいて、最も可能性の高い次の単語を予測することを学習します。これは推論を実行するために使用できます。つまり、モデルが何らかのテキストを生成した可能性を調べたり、ChatGPT などの LLM が人間との会話に使用できるテキストを生成したりすることができます。 LLM のトレーニングが終了し、パラメータが保存されると、トレーニング データや再トレーニングされたデータに入力は追加されなくなります。 LLM は依然としてトレーニング データからバイアスを学習できることは注目に値します。ChatGPT の開発元である OpenAI は、モデルが問題のあるコンテンツを生成しないように、人間からのフィードバックによる強化学習 (RLHF) を使用して安全策を追加する必要がありました。さらに、LLM は、事実確認や推論を行わずに、見たものに基づいて最も可能性の高い次の単語を単純に生成するだけなので、幻覚や事実の捏造、推論の誤りを起こしやすくなります。

ChatGPTが一般公開されて以来、LLMは世界中で人気を博しています。これらのモデルの新たな知能と私たちの生活のあらゆる側面への応用により、これらのモデルはあらゆる企業が利用したいと考える非常に人気のあるツールとなっています。チャットボットやコーディングおよびライティングアシスタントに加えて、LLM はインターネットなどのシミュレートされた環境と対話するエージェントの作成にも使用されます。

ChatGPT を試したことがある場合、回答が不十分な場合があることに気付くかもしれませんが、質問を言い換えると、より良い結果が得られる可能性があります。これはプロンプト エンジニアリングの技術であり、入力を変更して LLM が希望どおりに応答するようにします。このプロンプトの背後にある考え方は、いくつかの事実を提示したり、新しいドメインについて伝えたりして「LLM の記憶を呼び起こす」ことを試み、その後、訓練を受けた LLM から適切な応答を得ることです。これはコンテキスト学習と呼ばれ、ゼロショットと少数ショットの 2 つの主なタイプがあります。ゼロショットは LLM にヒントを提供します。これには、質問/コマンドの前に背景情報を含めることができ、LLM が適切な応答を見つけるのに役立ちます。 LLM にはサンプルプロンプトと可能な応答が数回提示され、その後、新しいプロンプトが提示され、LLM は例の形式で応答します。

ヒント エンジニアリングは、自然言語処理 (NLP) の将来のトレンドの 1 つになる可能性があります。この分野では、カスタム モデルからカスタム プロンプトへと移行しつつあります。LLM は、多くの時間と労力をかけずに誰でも独自に作成できる言語モデルよりもはるかに優れているためです。 LLM を適切なヒント エンジニアリングと組み合わせると、通常は専用モデルで実行できることはすべて実行できます。

写真

CoTからエージェントへ

Chain of Thoughts (CoT) は、推論エラーに対抗するために設計された、人気のキュー エンジニアリング手法です。これは、言語的推論によって問題を解決する方法の例を LLM に 1 つ以上示し、次にこの方法で解決する別の問題を与えることを意味します。これは推論の誤りを克服するのに役立ちますが、それでも幻覚の影響を受け、幻覚の「事実」が推論を通じて伝播し、モデルが誤った結論を導き出す可能性があります。

1 つの質問のみを提示する標準プロンプトは、問題を解決するために複数の推論ステップを必要とする Chain of Thought (CoT) プロンプトの入力と比較されます。錯覚の問題により、CoT プロンプトを使用した LLM はより説得力のある応答を示しましたが、それでも間違っている可能性があります。 LLM が有用なツールとなるためには、自分で作り上げることができなければ、彼らを信頼することはできず、自分で調査を行う方がよいでしょう。エージェントはこの問題を解決できるようで、LLM が Wikipedia を検索して事実や理由を見つけるなどのアクションを実行できるようにします。

プロンプトエンジニアリングのエージェントアプリケーションの例 - ReAct

思考連鎖と同様に、ReAct は、小規模学習を使用してモデルに問題を解決する方法を教えるヒント エンジニアリング アプローチです。 CoT は人間が問題を考える方法を模倣すると考えられており、ReAct にもこの推論要素が含まれていますが、エージェントがテキストを操作して環境と対話できるようにすることでさらに一歩進んでいます。人間は、戦略を立てたり物事を記憶したりするために言語的推論を使用しますが、より多くの情報を得て目標を達成するための行動をとるためにも言語的推論を使用します。これがReActの基礎です。 ReAct プロンプトには、アクションの例、アクションを通じて得られた観察、プロセスのさまざまなステップでの人間の思考の転写 (推論戦略) が含まれます。 LLM は、環境内でエージェントとして考え、行動するためのこのクロストークアプローチを模倣することを学びます。

観測は LLM によって生成されるのではなく、環境によって生成されることを覚えておくことが重要です。環境は、LLM が特定のテキスト操作を通じてのみ対話できる別のモジュールです。したがって、ReAct を実装するには、次のことが必要です。

  1. テキスト アクションを受け取り、環境の内部状態に基づいて変更できる一連の潜在的なアクションからテキスト観測を返す環境。
  2. エージェントが有効なアクションを記述するとテキストの生成を停止し、環境内でアクションを実行し、通常はこれまでに生成されたテキストに追加される観察結果を返し、結果を LLM にプロンプ​​トする出力パーサー フレームワーク。
  3. 思考、行動、観察を組み合わせた人工的に生成された例は、少数のショット環境で使用できます。例の数と詳細は、目標と開発者の設計によって異なります。例:

ここでは、思考、アクション、観察が上記のように明確にラベル付けされており、アクションはクエリを括弧で囲んだ特別な形式を使用しているため、エージェントはこの方法でタスクを記述することを学習でき、出力パーサーはクエリを簡単に抽出できます。

Yao et al. (2023) はPalM-540Bを使用し、このLLMを使用して、2つの知識集約型推論タスクと2つの意思決定タスクに対するReActベースのプロンプトエンジニアリングの効果をテストしました。

知識集約型の推論タスク

このタスク領域で使用される 2 つのドメインは HotPotQA と FEVER です。前者は Wikipedia の文章を使用したマルチホップの質問応答であり、後者は事実検証です。エージェントは、次の操作を使用して Wikipedia API と対話できます。

  • 検索: 名前または最も類似した結果のリストからページを検索します。
  • 検索: ページ内の文字列を検索します。
  • 回答してタスクを終了します。

ReAct は、HotPotQA と FEVER の 2 つの評価ドメインで、以下のヒント エンジニアリング手法と比較されます。結果は、FEVER での精度と HotPotQA での EM によって評価されます。

写真

で:

  • 標準プロンプト: 考え、行動、または観察はありません。
  • CoT: タイムリーなアクションまたは観察がありません。
  • CoT-SC (自己一貫性) : LLM から一定数の応答がサンプリングされ、その大部分が応答として選択されます。
  • アクション: 思考プロンプトはありません。
  • ReAct ->CoT-SC: ReAct から開始し、その後 CoT-SC に切り替わります。
  • CoT-SC->ReAct: CoT-SC から開始し、その後 ReAct に切り替わります。

ReAct は HotPotQA ではパフォーマンスが低いですが、FEVER では CoT よりもパフォーマンスが優れています。 ReAct は CoT よりも幻覚を起こしにくいですが、推論エラーの発生率は高くなります。 ReAct にはこの欠点がありますが、ReAct-> CoT-SC と CoT-SC-> ReAct のメソッドが最も成功しています。

意思決定タスク

ReAct をテストするための 2 つの決定タスクは、ALFWorld と WebShop です。

ALFWorld は、現実的な環境を備えたテキストベースのゲームです。シミュレートされた世界で移動したり対話したりするためのテキスト アクション (「引き出し 1 を開く」など) があります。エージェントに与えられる目標の 1 つは、家の中で特定のオブジェクトを見つけることです。そのため、常識的な推論によって、そのようなオブジェクトが通常どこにあるかを知ることができます。成功は目標を達成した試行の割合として測定されます。

WebShop は、Amazon のデータを使用してシミュレートされたオンライン ショッピング サイトです。モバイル ナビゲーション サイトや検索製品が多数存在するため、これは難しい分野です。目標は、ユーザーの仕様を満たすプロジェクトを見つけることです。成功は、選択された項目がユーザーの心の中に隠された項目にどれだけ近いかによって測定されます。

論文の評価結果によると、ReAct はベースラインよりも大幅に優れたパフォーマンスを発揮します。

ReAct は推論エラーのために不完全ですが、思考連鎖推論の事実錯覚問題を克服し、LLM が環境と対話できるエージェントになることを可能にする強力なキュー エンジニアリング手法です。さらに、エージェントは行動しながら思考プロセスを出力するため、解釈可能です。

まとめ

プロンプトエンジニアリングに適用されるエージェントの具体的な実装として、ReAct は汎用人工知能と具体的な言語モデルに向けて一歩前進します。ロボットが、馴染みのある特徴に基づいて外部環境をモデル化し、そのモデルを使用して手がかりを作成する方法があれば、人工的に作成された例を必要とせずに、さまざまな領域で少なくとも独立して行動しようとすることができます。また、何らかの記憶、つまり経験から学ぶ能力も必要です。常識的な知識を持つロボットは、推論エラーや幻覚などの問題を解決できる限り、私たちにとって大きな助けとなるでしょう。

ところで、モデルが大きいということは、良い製品ができるということでしょうか? プロダクトマネージャーの貢献は、依然として不可欠な場合が多くあります。スマート音声製品を例にとると、製品設計をより良く完成させるために、このようなデスクマニュアル(著者の最新翻訳)が必要になる場合があります。

<<:  GPT-4P がマルチモーダルプロンプトインジェクションイメージ攻撃に対して脆弱なのはなぜですか?

>>:  7Bモデルがまた手に入ると最高ですね! 700億のLLaMA2を突破、Appleのコンピュータは

ブログ    
ブログ    

推薦する

スマートメーター: スマートなエネルギー管理への道

新型コロナウイルス感染症のパンデミックにより、配電事業者はメーターの読み取りとその後の請求という基本...

AI モデルのデータセンターのエネルギー消費を効果的に削減するにはどうすればよいでしょうか?

人工知能をより良くするための競争において、MIT リンカーン研究所は、電力消費の削減、効率的なトレー...

人間は AI シミュレーションの中で生きられるのか?

人々が自らに問うべき実存的な問いは、自分たちがシミュレートされた宇宙に住んでいるかどうかだ。 [[3...

機械学習アルゴリズムを使用して配信リンクを最適化する方法

【51CTO.comオリジナル記事】 1. 背景紹介---VODソース配信の問題点オンデマンドビデオ...

...

...

パスワードを忘れたことが引き起こすアルゴリズム思考

2日前、ウェブサイトにログインしようとしていたとき、よく使うパスワードを何回か試して失敗した後、「パ...

中関村科学技術の張傑氏との対話:大規模モデルを実装するには従うべき「テクニック」がある

ゲスト | 張潔インタビュー | 張小南編集者 | 徐潔成制作:51CTO テクノロジースタック(W...

人工知能が新薬開発を支援

[[251349]]古代、神農は何百種類もの生薬を試飲しましたが、これは実際には薬を人工的に選別する...

...

...

...

ChatGPT の機能低下が論争を引き起こしています。AIGC アプリケーションは依然として信頼できるのでしょうか?

スタンフォード大学とカリフォルニア大学バークレー校(UCLA)の研究者による新しい研究では、これらの...

グラフニューラルネットワークが深くなるほど、パフォーマンスは向上しますか?

数十または数百の層を持つニューラル ネットワークの応用は、ディープラーニングの重要な機能の 1 つで...