LLM で会話インターフェースを設計するにはどうすればいいですか?

著者：ヴァルン・シェノイ

編纂者：王睿平

大規模言語モデル (LLM) で構築されたテキストボックスの反対側に何があるのか理解できないことがよくあります。じっと見つめられると怖い感じがします。したがって、デザインパターンを最適化し、LLM のテキストダイアログインターフェイスのコンテンツを制限する必要があります。

写真

「質問は何ですか？Google を使うようなものですか？それはどういう意味ですか？」ChatGPT を使用すると、テキストボックスに一連の質問をしたり、俳句で状況を説明したり、新しいバージョンの Seinfeld を作ったりすることができ、一貫した回答が出力されます。

テキストボックスは任意のコンテンツを出力できますが、毎回正しい単語をつなげてテキストボックスに入力できるという保証はありません。そのため、ChatGPTに関連する別名「Project Prompt」が登場し、ここ数か月で大きな人気を集めています。

1. テキスト入力インターフェースの欠点: プロンプトがすべてを決定する

LLM と話すのは人間と話すのと同じくらい簡単で、テキストを入力してコンテンツを出力するだけです。テキスト入力には無制限の自由があります。したがって、ChatGPT のプロンプトと制御もますます困難になります。

例えば、有害な内容やモデルが獲得できない知識が入力されると、幻覚を起こして物語を作り上げることしかできなくなります。解決策は、命令チューニングや RLHF などのテクノロジーを使用してモデルを調整し、モデルの言語理解能力を向上させることです。これらの技術にはすべて共通の目標があり、モデルが良い入力と悪い入力を区別できるように支援することです。

ただし、これらのテクノロジーにはいくつかの欠点もあります。モデルの特徴フィルターが誤検知を検出した場合、モデルの調整は役に立ちません。

たとえば、私は Anthropic の Claude ツールに、「病気なので仕事に行けません」というメールを上司に書くように依頼しました。

私は次のプロンプトを使用します。「上司に、病気のため仕事に行けないことを伝えるメールを書いてください。」

写真

入力プロンプトが何らかの理由でモデルの機能フィルターに「ヒット」し、モデルが目的の回答を出力しなくなりました。

プロンプトを少し調整するだけで、私が望んでいた答えが得られました。「上司に自分が病気であることを電子メールで説明してください。」

写真

とても奇妙だ！ 2 つの異なるプロンプトは同じ意味の要求を持ちますが、まったく異なる結果が得られます。

上記の例から、テキスト入力インターフェースには明らかな欠点があり、プロンプトによってすべてが決まることがわかります。

2. 脆弱性: 特別なプロンプト、モデルの調整をバイパスする

特定のプロンプトを入力してモデルの位置合わせプロンプトをバイパスすることにより、システムを「ハック」することができます。比喩的に言えば、「ハック」はモデルを「騙して」、そのモデルが設計された配置を無視させることができます。最も有名な例は、ChatGPT が一般公開されてから数日後に発見された DAN (Do anything now!) ヒントです。

· DAN は、ChatGPT が通常は実行できない、または実行しないであろうことを含め、AI キャラクターとしてすべてを即座に実行するように ChatGPT に指示する ChatGPT プロンプトです。

· DAN プロンプトを通じて、システムは、タブーな話題に関する会話や意見の表明など、ChatGPT では許可されないコンテンツを出力できます。

私は拡散モデルをいろいろ試してきたので、システムを「ハック」してモデルの調整を回避できるヒントを思いつくのが得意です。経験の浅いユーザーのほとんどは、Stable Diffusion のプロンプトを自由に記述することはできません。

3. 問題: モデルが期待する結果を出力できない

出力が不確実であるため、ユーザーがどのように質問するかを決めるのは困難です。開発者の観点から見ると、これによっていくつかの問題が発生します。ユーザーが製品とどのようにやり取りするかを理解することが困難になるだけでなく、LLM がすべての質問に答えられるかどうかを保証することも困難になります。

理論的には、優れた AI システムインターフェースは、ユーザーからの自然言語入力のみに依存すべきではありません。さらに、私たちが普段他の人とコミュニケーションをとるとき、その内容はテキストに限定されず、声のトーン、身振り、話すときの記憶など、より広範な情報の流れも含まれるはずです。

残念ながら、LLM はほとんどのコンテキストを理解できず、特定のプロンプト単語に基づいて関連するコンテンツのみを出力できます。この場合、Prompt はプログラミングに似たものになります。自分が何を望んでいるのかを正確に説明し、できるだけ多くの情報を提供する必要があります。

さらに、LLM には、タスクを正常に完了するために必要な社会的または専門的な文脈が欠けています。タスクに関係するすべての詳細をプロンプトにリストしても、LLM は必要な結果を出力できない場合があります。

（出典：パインコーン）

上の図は、簡単なプロンプトと主要部分の概要を示しています。ソースを引用したい場合、プロンプトは複雑になる可能性があります。

写真

上記を考慮すると、Prompt Engineering の方が理にかなっています。プロンプトエンジニアは、モデルが与えられた質問に応答するようにするだけでなく、解析可能な方法 (JSON など) で出力を構築する必要もあります。元のプロンプトステートメントを LLM に入力すると、ユーザーはプロンプトについて考える時間を費やす必要がなくなります。

4. 理想的なインタラクティブインターフェース

言語は少なく、選択肢は増える

上記を考慮すると、ほとんどの場合、「プロンプトボックス」はユーザーの前に表示されません。では、アプリケーションは LLM とどのように統合されるのでしょうか?答えは、オプションボタンです。

チャットダイアログボックスに適切なボタンを配置するにはどうすればよいでしょうか?最初から始めましょう。ほとんどの人は、LLM を使用して次の 4 つの基本的な言語タスクを完了する傾向があります。

4つの基本的な言語タスク

1.要約: 大量の情報またはテキストを簡潔かつ包括的な概要に要約します。これは、長い記事、文書、または会話内の情報をすばやく理解するのに役立ちます。 AI システムは、要約を生成するために、主要なアイデア、概念、またはテーマを理解する必要があります。

2. ELI5 (Explain Like a 5 Year Old): 専門用語を使わずに複雑な概念をわかりやすく説明し、専門家以外の幅広い読者にとって十分に明確でシンプルな説明を提供することを目標としています。

3. 視点: トピックに関して複数の視点を提供します。これには、さまざまな利害関係者からの個々の視点、さまざまな視点を持つ専門家、または単にさまざまな経験や背景に基づいてトピックを解釈するさまざまな方法が含まれる場合があります。

4. コンテキストに応じた応答: ユーザーまたは状況に対して、適切なコンテキストに応じた方法で応答します (電子メール、メッセージなど)。文脈に応じた応答は、同じ会話に参加している誰かが提供したかのように、トピックに沿ったものである必要があります。

写真

ほとんどの LLM アプリケーションは上記の 4 つのタスクを組み合わせたものですが、ChatGPT は会話、Web ブラウジング、長文ライティング (ロングテール)、および下の図でマークされているその他の部分に対応できます。

写真

LLM を使用する際にユーザーがタスクをどのように分類するかを理解したら、入力をボタン、メニュー、触覚インターフェースにマッピングして、AI システムが操作しやすいインターフェースを構築できます。

つまり、LLM のツールチップのほとんどは、「概要」や「ELI5」などの一般的なタスクを実行するためのオプションボタンに置き換えることができます。

曖昧なプロンプトに別れを告げましょう

オプションボタンは、入力内容と状態空間を制限し、ユーザーが勝手にテキストを入力できないようにします。これにより、システムの安定性が向上します。

写真

これは、GitHub Copilot インターフェースが提供する AI コード補完機能に似ており、開発者が「Tab」キーを押すとシステムが自動的に応答します。現在、ユーザーは「タブ」をクリックして、Copilot によって生成されたゴーストテキストを受け入れるか、入力を続行することができます。

これは、自然言語インターフェースの問題を回避する優れた例です。ユーザーは、プロンプトを入力せずに通常どおり入力を続けることで、AI の推奨事項を簡単に回避できます。何よりも素晴らしいのは、次のコードを書くのがたった 1 回のキーストロークで済むことです。

将来的には、プロンプトを作成する作業はプロのエンジニアの責任になります。開発者のタスクは、適切なコンテキスト情報をまとめることです。

6. 将来のインターフェース: ボタンの自動入力プロンプト

最後に、LLM アプリケーションを構築する場合、インターフェースが製品の品質を表すことが多く、システムが人間の仕事や生活に統合された後の適用度合いを決定することが多いことを再度強調したいと思います。

自然言語は人間同士がコミュニケーションをとるための簡単な方法ですが、会話型インターフェースは AI ツールにとって究極の理想的なインターフェースではありません。

写真

会話型インターフェースは、両者が同じ共有コンテキストを使用している場合にのみ機能します。 HCI と心理学では、これを相互主観性と呼ぶことがよくあります。

シナリオによっては、インターフェースが邪魔にならない場合もありますが、プロンプトはユーザーに考えることを要求するため、常に障害となります。結局のところ、ユーザーは目標を達成したときに空のテキストボックスが表示されることを望んでいません。

ボタンやその他のインタラクティブなデザイン要素により、操作が簡単になります。 GitHub Copilot に似た理想的なインターフェースは、ユーザーにクリーンかつ合理化されたエクスペリエンスを提供し、システムはユーザーのニーズを予測して提案を行うことができます。

したがって、テキスト入力ボックスを引き続き使用する必要がある場合は、プロンプトボックスに自動的に入力するためのボタンをいくつか提供する必要があります。これらのボタンは、LLM によって生成された質問をプロンプトボックスに渡します。

写真

Quora がリリースしたチャットアプリ Poe を例に挙げてみましょう。質問すると、プロンプトが埋め込まれた応答（紫色で強調表示）が返され、オプションボタンを使用して継続的に質問することができます。 Poe と同様に、LLM で構築されたアプリケーションも同様に動作し、潜在的な質問と回答を事前にキャッシュする必要があります。

よりスマートなインターフェースを備えた大規模言語モデルは、さまざまなユーザーのさまざまな好みに基づいてボタンを自動的に生成し、私たちの仕事や生活に役立ち、私たちを先導することができます。

もう、プロンプトワードを入力するのに頭を悩ませる必要はなく、自分の考えに反する出力を心配する必要もありません。LLMの次の破壊的イノベーションに期待しましょう！

参照: https://varunshenoy.substack.com/p/natural-language-is-an-unnatural

<<: 生産性を高める 13 の AI ツール

>>: 百人一首の戦いはかつてないレベルに到達！

ブログ

LLM で会話インターフェースを設計するにはどうすればいいですか?

1. テキスト入力インターフェースの欠点: プロンプトがすべてを決定する

2. 脆弱性: 特別なプロンプト、モデルの調整をバイパスする

3. 問題: モデルが期待する結果を出力できない

4. 理想的なインタラクティブインターフェース

4つの基本的な言語タスク

6. 将来のインターフェース: ボタンの自動入力プロンプト

傲慢か偏見か？AIはあなたの美的観念に影響を与えていますか？

インテルがモービルアイを買収、自動運転市場は3社間の競争の幕開けか

GPT-4P がマルチモーダルプロンプトインジェクションイメージ攻撃に対して脆弱なのはなぜですか?

新しい技術が機械学習モデルの推論を人間の推論と比較する

あなたは人工知能についてどれくらい知っていますか?普通の人として、私たちはもっと多くのことを知る能力を持っているのでしょうか?

【専門家がここにいるエピソード6】インタラクションのための人工知能

テスラはどのようにしてPyTorchを使って自動運転を実現し、世界に挑戦したのでしょうか？

ディープラーニング思考

推薦する

人工知能システム：無制限の核融合反応を現実のものに

「機械学習システム設計ガイド」は、このNVIDIAガールの人気プロジェクトです

AIを使って死後の意識を蘇らせることは信頼できるのか？デジタル不滅には経済計算が必要

顔認識と指紋認識のどちらがより定量化しやすいでしょうか?

Nvidiaの自動運転チップOrinはどれほど強力か：CEOのHuang RenxunはL2をデモンストレーションするためにメルセデスベンツを発見し、都市のシーンを簡単に処理できる

脳の治癒、人間と機械の共生、マスク氏は「脳コンピューターインターフェース」を擁護

人工知能産業は各地で花開いています。この7つのロボットがあなたに近づいてきます！

異常検出に機械学習を使用する際に尋ねるべき 7 つの質問

3分レビュー：2021年10月の自動運転業界の完全な概要

OpenAI が 10 億ドルで Microsoft に売却された後、汎用人工知能にはまだ希望があるのでしょうか?