最新の Claude 200K は本当に「誤ったラベル」が貼られているのでしょうか?神は1016ドルを費やしてテストしましたが、90Kを超えるとパフォーマンスが急激に低下しました。

最新の Claude 200K は本当に「誤ったラベル」が貼られているのでしょうか?神は1016ドルを費やしてテストしましたが、90Kを超えるとパフォーマンスが急激に低下しました。

OpenAI が成功に忙しい一方で、シリコンバレーの最大のライバルである Anthropic は、20 万のコンテキストをサポートする Claude 2.1 をリリースし、ひっそりと大きなニュースを発信しました。

Claude 2.1 の最大のアップグレードは、すでに強力な 100K コンテキスト機能が 2 倍になったことであることがわかります。

200K コンテキストにより、ユーザーはより多くのドキュメントをより便利に処理できるだけでなく、モデルの幻覚の可能性も 2 倍減少します。同時に、システムプロンプトやガジェットの使用などもサポートします。

ほとんどの一般ユーザーにとって、Claude の最大の価値は、GPT-4 よりも強力なコンテキスト能力です。GPT-4 のコンテキスト長を超える長いドキュメントを Claude に渡して処理するのは非常に便利です。

これにより、Claude は ChatGPT より劣る選択肢ではなく、機能面で ChatGPT を補完するもう 1 つの強力なツールになります。

そのため、Claude 2.1 がリリースされるとすぐに、ネットユーザーは公式に主張されている「200K」コンテキスト機能がどれほど強力であるかをテストし始めました。

クロード 2.1 200K コンテキスト テスト: 最初と最後は最も明確ですが、中間はほとんど記憶に残りません

今月初め、OpenAIがGPT-4 turboをリリースしたとき、技術の第一人者であるGreg Kamradt氏がOpenAIの新しいモデルをさまざまな側面からテストしました。

彼は、YC 創設者ポール・グラハムの記事のさまざまな部分にマークされた文章を追加し、それをモデルに入力して、これらの文章を読み取る能力をテストしました。

ほぼ同じ方法を使用して、Claude 2.1 のコンテキスト機能もストレステストしました。

ネット閲覧総数は2日間で110万回を突破

テスト結果は次のとおりです:

公式の公称制限長 200K では、Claude 2.1 はマークされた文を実際に抽出できます。

文書の冒頭でマークされた内容は、ほぼ完全に取得できます。

しかし、GPT-4 Turbo の場合と同様に、このモデルはドキュメントの下部にあるコンテンツほどドキュメントの先頭にあるコンテンツをキャプチャするのに効果的ではありません。

長さが 90K を超えると、ドキュメントの下部にあるマークされたコンテンツをキャプチャするモデルの能力が低下し始めます。

図から、GPT-4 128K のテスト結果と比較すると、Claude 2.1 200K のコンテキスト長は、ちょうど「200K の長さの記事の情報を読み取ることができる」ことがわかります。

GPT-4 128K の場合、「128K の長さを超えると大幅な低下が見られます」。

GPT-4 128K 品質標準に従うと、Claude 2.1 は 90K のコンテキスト長しか主張できない可能性があります。

テストマスターのグレッグによると、これらのテスト結果は次のことを示しています。

コンテキスト検索の精度を測定するには、ユーザーはプロンプト単語を特別に設計するか、複数のテストを行う必要があります。

アプリケーション開発者は、これらのコンテキスト内の情報が取得できると単純に想定することはできません。

一般的に、コンテキストの長さが短いコンテンツは検索能力が高くなります。検索品質に対する要件が高い場合は、モデルに入力されるコンテキストの長さを短くしてみてください。

重要な情報の位置は重要であり、最初と最後の情報のほうが覚えやすくなります。

彼はさらに、なぜこの比較テストを行ったのかを説明しました。

彼は Anthropic を批判するつもりはありません。彼らの製品は本当に素晴らしいですし、彼らは誰にとっても強力な AI ツールを構築しています。

LLM 実践者として、彼はモデルの動作原理、利点、限界をより深く理解する必要があります。

これらのテストには確かに不完全な部分もありますが、モデルのユーザーがモデルベースのサービスをより適切に構築したり、モデルの機能をより効果的に使用したりするのに役立ちます。

テスト中に、彼はいくつかの詳細も発見しました。

モデルが思い出すことができるラベル付き事実の量は重要であり、モデルが複数の事実検索タスクまたは包括的な推論ステップを実行すると、思い出される事実の量は減少します。

思い出すきっかけとなる言葉、質問、事実、背景の文脈を変えると、思い出す質に影響を与える可能性があります。

Anthropic チームもテスト プロセス中に多くの支援と提案を提供しましたが、API へのテスト呼び出しには依然として作者に 1,016 ドルの費用がかかりました (100 万トークンあたりのコストは 8 ドルでした)。

GPT-4 128Kの最初のテストに200ドルを支払いました

今月初め、OpenAI は開発者会議で GPT-4 Turbo をリリースした際に、コンテキスト機能を 128K に拡張したことも発表しました。

当時、Greg Kamradt 氏はテストのために自腹で 200 ドルを支払いました (一度に 128K トークンを入力するコストは 1.28 ドルでした)。

傾向から判断すると、今回の Anthropic の結果と似ています。

コンテキストが 73K トークンを超えると、GPT-4 のメモリ パフォーマンスが低下し始めます。

想起すべき事実が文書の深さの 7% ~ 50% の範囲にある場合、想起率は一般的に低くなります。

事実が文書の先頭にある場合、コンテキストの長さに関係なく、通常は正常に思い出されます。

テスト全体の詳細な手順は次のとおりです。

Paul Graham の記事を「背景」トークンとして使用します。私は彼の記事を 218 件使用し、簡単に 200K トークンに到達しました (一部の記事は再利用されました)。

文書のさまざまな深さに、「サンフランシスコで一番楽しいことは、晴れた日にドロレス パークでサンドイッチを食べることです」という事実を述べたランダムな文を挿入します。

GPT-4 は、提供されたコンテキストのみに基づいてこの質問に答えます。

別のモデル (GPT-4) と @LangChainAI の評価方法を使用して、GPT-4 の回答を評価します。

上記の手順は、15 種類の異なるドキュメント深度 (ドキュメント上部の 0% から下部の 100% まで) と 15 種類の異なるコンテキスト長 (1K トークンから 128K トークンまで) に対して繰り返されます。

<<: 

>>:  LeCun が喧嘩を始めた、LLM は全く理屈が通らない!大規模モデルの出現は、最終的には文脈学習と切り離せないものである。

ブログ    
ブログ    

推薦する

...

将来のディープラーニングの鍵はフォトニックコンピューティング

今日では、人間の直感を備えたコンピューターは、画像内の物体の認識、音声の書き起こし、外国語の翻訳、病...

通信産業の発展を後押しし、2つの主要ドローンの価値が強調される

最近、わが国の科学技術分野は新たな躍進を遂げました。ドローンによる「橋渡し」の力を借りて、量子ネット...

LoraHubはレゴのように組み立てることができ、LoRAのモジュール特性を探索することができます。

低ランク適応 (LoRA) は、基本的な LLM が特定のタスクに効率的に適応できるようにする、一般...

人工知能はディープラーニングへと移行しており、強力なコンピューティングパワーの構築は重要な指標となっている

報告によると、人工知能の最大の課題の 1 つは、認識率と精度が低いことです。精度を向上させるには、モ...

...

人工知能技術の応用方向

[[395149]]人工知能を学ぶことで何ができるのでしょうか?詳しくご紹介します。 1. 製造業ス...

...

2024年にワイヤレス技術が接続性、効率性、消費者体験をどのように向上させるか

2024 年には、ワイヤレス テクノロジーに多くの改善がもたらされ、接続性、効率性、消費者体験が向上...

...

ChatGPTが公式検出ツールを削除、AIテキストは識別できないことを認める

OpenAI は、何の発表もなく、ひっそりと AI テキスト検出ツールをシャットダウンし、ページは直...

...

...

...