トークンとメモリを理解することによってのみ、ChatGPT をよりよくマスターできます。

著者: ラセル・コーン

編纂者：ヤン・ジェン

ChatGPT のような大規模言語モデル (LLM) は AI の世界を一変させましたが、その複雑さを理解することは、その潜在能力を最大限に引き出すために不可欠です。この短い記事では、大規模言語モデルにおけるトークン制限とメモリに焦点を当てます。この記事の目的は、トークン制限の重要性、LLM におけるメモリの概念、そしてこれらの制限内でインタラクティブインターフェースと API を通じてプログラムで会話を効果的に管理する方法について理解を深めることです。

まず、ユーザーが LLM と対話し、会話に「トークン制限とメモリ」の影響を経験するシナリオについて説明しましょう。

写真

ヒント: 「眼鏡をかけ、茶色の髪にカジュアルなセーターを着た若い男性が、居心地の良い部屋に座って、スタイリッシュなラップトップ上の AI 言語モデルと対話しています。彼の周りにはトークンを含む吹き出しが浮かんでいます。レンダリングスタイルはモダンで魅力的です。」 Russ Kohn と GPT4 によるヒント。レンダリングはMidJourneyによるものです。

1. トークンとトークンの制限を理解する

1. トークンとトークン数

トークンは大規模な言語モデルテキストの構成要素であり、長さは文字から単語までの範囲です。たとえば、「ChatGPT is amazing!」というフレーズは、6 つのトークン ["Chat"、"G"、"PT"、"is"、"amazing"、"!"] で構成されます。より複雑な例を挙げます。「AI は楽しい (そして挑戦的)!」は 7 つのトークンで構成されています: [「AI」、「is」、「fun」、「(」、「and」、「challenge」、「)!」]。

トークンカウントの仕組みを示す OpenAI トークナイザーユーティリティのスクリーンショット。

画像クレジット: Russ Kohn および OpenAI。

注: 上記の画像で使用されているツールは OpenAI のものであり、https://platform.openai.com/tokenizer から入手できます。

2. トークンの制限

モデル実装のトークン制限により、1 回のやり取りで処理されるトークンの数を制限し、効率的なパフォーマンスを確保します。たとえば、ChatGPT 3 には 4096 トークンの制限があり、GPT4 (8K) には 8000 トークンの制限があり、GPT4 (32K) には 32000 トークンの制限があります。

2. 記憶と対話の歴史

トークン数は、大規模言語モデルのメモリと会話履歴を形成する上で重要な役割を果たします。トークンカウントを使用してコンテキストを維持し、会話がスムーズに流れるようにしながら、チャットの最後の数分を覚えている友人と会話をしていると考えてください。ただし、この限られたメモリは、コンテキストを維持するために重要な情報を繰り返す必要があるなど、ユーザー操作に影響を及ぼします。

1. 文脈が重要

コンテキストウィンドウは現在のプロンプトから開始され、トークンカウントを超えるまで履歴を遡ります。大規模言語モデルに関しては、これまで何も起こりませんでした。会話の長さがトークン制限を超えると、コンテキストウィンドウが変更され、会話の初期段階の重要なコンテンツが失われる可能性があります。この制限を克服するために、ユーザーは重要な情報を定期的に繰り返したり、より高度な戦略を使用したりといったさまざまな手法を採用できます。

写真

大規模言語モデルが文の冒頭を理解していない場合は、異なる応答をする可能性があることに注意してください。

2. チャットエクスペリエンス: プロンプト、完了、トークン制限

大規模な言語モデルに取り組むには、プロンプト (ユーザー入力) と補完 (モデルによって生成された応答) の動的な交換が必要になります。例えば、「フランスの首都は何ですか？」（ヒント）と質問すると、大規模言語モデルは「フランスの首都はパリです」と答えます。（仕上げる）。トークン制限内でチャットエクスペリエンスを最適化するには、プロンプトと補完のバランスをとることが重要です。会話がトークン制限に近づくと、コンテキストを維持し、大規模な言語モデルとのシームレスな対話を確保するために、テキストを短縮または切り捨てる必要がある場合があります。

3. トークン制限の超過と潜在的な解決策

トークン制限を超えると、大規模な言語モデルでは重要なコンテキストが失われるため、応答が不完全または意味をなさなくなる可能性があります。エッフェル塔について質問すると、コンテキストウィンドウが変更されたために、ピサの斜塔に関する応答が返されるところを想像してください。トークンの制限に対処するには、制限に合わせてテキストを切り捨てたり、省略したり、言い換えたりすることができます。良い戦略としては、制限に達する前に要約を作成して現在の会話を終了し、その要約を使用して次の会話を開始することです。もう 1 つの戦略は、ワンショットの会話を試みることができる長いプロンプトを作成することです。つまり、AI に自分が知っているすべての情報を与え、応答を出すように依頼します。サードパーティのチップマネージャーを使用すると、会話の管理、トークン制限の追跡、コストの管理にも役立ちます。

写真

この図は、テキストの切り捨て、会話の要約、長いワンショットプロンプトの作成など、大規模な言語モデルにおけるトークンの制限に対処するための戦略を示しています。

3. 実践的な応用: コンテンツ作成におけるトークン制限の管理

この記事で説明した戦略を適用することで、大規模な言語モデルでトークン制限とコンテキストを管理することの利点を個人的に体験しました。この記事を書いているときに、先ほど説明したトークン制限の問題に遭遇しました。興味のある方のために、私は OpenAI API を使用したカスタム FileMaker Pro ソリューションを使用し、ChatGPT-Plus 加入者が利用できる GPT-3.5-turbo (ChatGPT) および GPT-4 (8k) モデルを活用しました。まず、プロンプトを作成してストーリーの展開とアウトラインを作成し、それを修正します。会話がGPT-3.5-turboのトークン制限を超えたため、GPT-4に切り替えて新しい会話を開始するための目標をまとめました。プロンプトマネージャーを使用すると、プロジェクトごとにプロンプトを整理し、OpenAI Web サイトに依存せずに効率的に作業できます。このアプローチは、タイトルや SEO 最適化などの「メタ」キューを、執筆プロセスに役立つキューから分離するのにも役立ちます。プロセス全体を通して、生成されたコンテンツを慎重に確認し、編集して、品質と一貫性を確保しました。この実用的な例では、ダイジェストの使用、モデルの切り替え、プロンプトマネージャーを使用したトークン制限の管理の有効性を示します。これらの戦略を理解して適用することで、ユーザーはコンテンツの作成や分析などのさまざまなアプリケーションで ChatGPT などの大規模言語モデルの潜在能力を最大限に活用できます。

IV. 結論

大規模言語モデルのトークン制限とメモリを理解することは、コンテンツ作成、チャットボット、仮想アシスタントなどのさまざまなアプリケーションでその機能を効果的に活用するために重要です。

トークン、トークン数、会話履歴、コンテキスト管理の概念を習得することで、ChatGPT などの LLM とのやり取りを最適化できます。トークン制限の管理やヒントマネージャーの活用など、この記事で説明した実用的な戦略によって、自信を持って AI の世界をナビゲートできるようになることを願っています。この知識があれば、AI の未来を探ることへの期待が大幅に高まり、より技術的、ビジネス的、生産性的なアプリケーションのための大規模言語モデルの可能性を解き放つことができます。

オリジナルリンク: https://medium.com/@russkohn/mastering-ai-token-limits-and-memory-ce920630349a

<<:

>>: 待ちに待った！ ByteDance初の大規模モデル製品「Doubao」が公開テスト可能、招待コードは不要！