エージェントが現実世界での人間の行動を模倣する場合、それをプロンプトエンジニアリングに適用できますか? LLMからPromptエンジニアリングへ大規模言語モデル (LLM) は、インターネット上のほとんどの Web ページを含む膨大なコーパスまたはテキストのデータセットでトレーニングされた Transformer ベースのモデルです。多くの時間 (および/または GPU)、エネルギー、水 (冷却用) を要するトレーニング中は、勾配降下法を使用してモデルのパラメータを最適化し、トレーニング データを適切に予測できるようにします。 写真 本質的に、LLM は前の単語のシーケンスに基づいて、最も可能性の高い次の単語を予測することを学習します。これは推論を実行するために使用できます。つまり、モデルが何らかのテキストを生成した可能性を調べたり、ChatGPT などの LLM が人間との会話に使用できるテキストを生成したりすることができます。 LLM のトレーニングが終了し、パラメータが保存されると、トレーニング データや再トレーニングされたデータに入力は追加されなくなります。 LLM は依然としてトレーニング データからバイアスを学習できることは注目に値します。ChatGPT の開発元である OpenAI は、モデルが問題のあるコンテンツを生成しないように、人間からのフィードバックによる強化学習 (RLHF) を使用して安全策を追加する必要がありました。さらに、LLM は、事実確認や推論を行わずに、見たものに基づいて最も可能性の高い次の単語を単純に生成するだけなので、幻覚や事実の捏造、推論の誤りを起こしやすくなります。 ChatGPTが一般公開されて以来、LLMは世界中で人気を博しています。これらのモデルの新たな知能と私たちの生活のあらゆる側面への応用により、これらのモデルはあらゆる企業が利用したいと考える非常に人気のあるツールとなっています。チャットボットやコーディングおよびライティングアシスタントに加えて、LLM はインターネットなどのシミュレートされた環境と対話するエージェントの作成にも使用されます。 ChatGPT を試したことがある場合、回答が不十分な場合があることに気付くかもしれませんが、質問を言い換えると、より良い結果が得られる可能性があります。これはプロンプト エンジニアリングの技術であり、入力を変更して LLM が希望どおりに応答するようにします。このプロンプトの背後にある考え方は、いくつかの事実を提示したり、新しいドメインについて伝えたりして「LLM の記憶を呼び起こす」ことを試み、その後、訓練を受けた LLM から適切な応答を得ることです。これはコンテキスト学習と呼ばれ、ゼロショットと少数ショットの 2 つの主なタイプがあります。ゼロショットは LLM にヒントを提供します。これには、質問/コマンドの前に背景情報を含めることができ、LLM が適切な応答を見つけるのに役立ちます。 LLM にはサンプルプロンプトと可能な応答が数回提示され、その後、新しいプロンプトが提示され、LLM は例の形式で応答します。 ヒント エンジニアリングは、自然言語処理 (NLP) の将来のトレンドの 1 つになる可能性があります。この分野では、カスタム モデルからカスタム プロンプトへと移行しつつあります。LLM は、多くの時間と労力をかけずに誰でも独自に作成できる言語モデルよりもはるかに優れているためです。 LLM を適切なヒント エンジニアリングと組み合わせると、通常は専用モデルで実行できることはすべて実行できます。 写真 CoTからエージェントへChain of Thoughts (CoT) は、推論エラーに対抗するために設計された、人気のキュー エンジニアリング手法です。これは、言語的推論によって問題を解決する方法の例を LLM に 1 つ以上示し、次にこの方法で解決する別の問題を与えることを意味します。これは推論の誤りを克服するのに役立ちますが、それでも幻覚の影響を受け、幻覚の「事実」が推論を通じて伝播し、モデルが誤った結論を導き出す可能性があります。 1 つの質問のみを提示する標準プロンプトは、問題を解決するために複数の推論ステップを必要とする Chain of Thought (CoT) プロンプトの入力と比較されます。錯覚の問題により、CoT プロンプトを使用した LLM はより説得力のある応答を示しましたが、それでも間違っている可能性があります。 LLM が有用なツールとなるためには、自分で作り上げることができなければ、彼らを信頼することはできず、自分で調査を行う方がよいでしょう。エージェントはこの問題を解決できるようで、LLM が Wikipedia を検索して事実や理由を見つけるなどのアクションを実行できるようにします。 プロンプトエンジニアリングのエージェントアプリケーションの例 - ReAct思考連鎖と同様に、ReAct は、小規模学習を使用してモデルに問題を解決する方法を教えるヒント エンジニアリング アプローチです。 CoT は人間が問題を考える方法を模倣すると考えられており、ReAct にもこの推論要素が含まれていますが、エージェントがテキストを操作して環境と対話できるようにすることでさらに一歩進んでいます。人間は、戦略を立てたり物事を記憶したりするために言語的推論を使用しますが、より多くの情報を得て目標を達成するための行動をとるためにも言語的推論を使用します。これがReActの基礎です。 ReAct プロンプトには、アクションの例、アクションを通じて得られた観察、プロセスのさまざまなステップでの人間の思考の転写 (推論戦略) が含まれます。 LLM は、環境内でエージェントとして考え、行動するためのこのクロストークアプローチを模倣することを学びます。 観測は LLM によって生成されるのではなく、環境によって生成されることを覚えておくことが重要です。環境は、LLM が特定のテキスト操作を通じてのみ対話できる別のモジュールです。したがって、ReAct を実装するには、次のことが必要です。
ここでは、思考、アクション、観察が上記のように明確にラベル付けされており、アクションはクエリを括弧で囲んだ特別な形式を使用しているため、エージェントはこの方法でタスクを記述することを学習でき、出力パーサーはクエリを簡単に抽出できます。 Yao et al. (2023) はPalM-540Bを使用し、このLLMを使用して、2つの知識集約型推論タスクと2つの意思決定タスクに対するReActベースのプロンプトエンジニアリングの効果をテストしました。 知識集約型の推論タスクこのタスク領域で使用される 2 つのドメインは HotPotQA と FEVER です。前者は Wikipedia の文章を使用したマルチホップの質問応答であり、後者は事実検証です。エージェントは、次の操作を使用して Wikipedia API と対話できます。
ReAct は、HotPotQA と FEVER の 2 つの評価ドメインで、以下のヒント エンジニアリング手法と比較されます。結果は、FEVER での精度と HotPotQA での EM によって評価されます。 写真 で:
ReAct は HotPotQA ではパフォーマンスが低いですが、FEVER では CoT よりもパフォーマンスが優れています。 ReAct は CoT よりも幻覚を起こしにくいですが、推論エラーの発生率は高くなります。 ReAct にはこの欠点がありますが、ReAct-> CoT-SC と CoT-SC-> ReAct のメソッドが最も成功しています。 意思決定タスクReAct をテストするための 2 つの決定タスクは、ALFWorld と WebShop です。 ALFWorld は、現実的な環境を備えたテキストベースのゲームです。シミュレートされた世界で移動したり対話したりするためのテキスト アクション (「引き出し 1 を開く」など) があります。エージェントに与えられる目標の 1 つは、家の中で特定のオブジェクトを見つけることです。そのため、常識的な推論によって、そのようなオブジェクトが通常どこにあるかを知ることができます。成功は目標を達成した試行の割合として測定されます。 WebShop は、Amazon のデータを使用してシミュレートされたオンライン ショッピング サイトです。モバイル ナビゲーション サイトや検索製品が多数存在するため、これは難しい分野です。目標は、ユーザーの仕様を満たすプロジェクトを見つけることです。成功は、選択された項目がユーザーの心の中に隠された項目にどれだけ近いかによって測定されます。 論文の評価結果によると、ReAct はベースラインよりも大幅に優れたパフォーマンスを発揮します。 ReAct は推論エラーのために不完全ですが、思考連鎖推論の事実錯覚問題を克服し、LLM が環境と対話できるエージェントになることを可能にする強力なキュー エンジニアリング手法です。さらに、エージェントは行動しながら思考プロセスを出力するため、解釈可能です。 まとめプロンプトエンジニアリングに適用されるエージェントの具体的な実装として、ReAct は汎用人工知能と具体的な言語モデルに向けて一歩前進します。ロボットが、馴染みのある特徴に基づいて外部環境をモデル化し、そのモデルを使用して手がかりを作成する方法があれば、人工的に作成された例を必要とせずに、さまざまな領域で少なくとも独立して行動しようとすることができます。また、何らかの記憶、つまり経験から学ぶ能力も必要です。常識的な知識を持つロボットは、推論エラーや幻覚などの問題を解決できる限り、私たちにとって大きな助けとなるでしょう。 ところで、モデルが大きいということは、良い製品ができるということでしょうか? プロダクトマネージャーの貢献は、依然として不可欠な場合が多くあります。スマート音声製品を例にとると、製品設計をより良く完成させるために、このようなデスクマニュアル(著者の最新翻訳)が必要になる場合があります。 |
<<: GPT-4P がマルチモーダルプロンプトインジェクションイメージ攻撃に対して脆弱なのはなぜですか?
>>: 7Bモデルがまた手に入ると最高ですね! 700億のLLaMA2を突破、Appleのコンピュータは
[[391125]]エッジで AI を導入すると、ネットワークの遅延と運用コストを削減できるだけでな...
全米技術アカデミー (NAE) の会員リストが発表されました。 「狂人」マスク氏も選ばれたとは誰が予...
適応性は常に成功する組織の基礎となる原則です。過去 2 年間、世界は不確実性に直面してきましたが、こ...
[[377897]]新型コロナウイルスの感染拡大が世界中で続く中、多くの企業が業務をリモートワーク...
[[388165]]将来は自動化となり、人工知能 (AI) とモノのインターネット (IoT) が融...
編集者注: ロボット アドバイザーの登場により、従来のアドバイザーはどこへ向かうのでしょうか。これは...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
スタイル転送は最近人工知能の分野で注目されている研究テーマであり、Synced でも多くの関連研究が...
スティーブン・ホーキング博士はかつてこう言った。「効果的な人工知能の開発に成功すれば、私たちの文明史...
親が子どもの世話をしたり、子どもと遊んだり勉強したり、看護師や介護士の仕事を手伝ったりするロボットに...
[[222058]]無人運転車、ドローン、無人倉庫、無人駅、配達ロボットなどの「無人技術」が、電子...
12月13日、人工知能(AI)スタートアップ企業へのベンチャーキャピタルの収益が鈍化している可能性が...