最新の Claude 200K は本当に「誤ったラベル」が貼られているのでしょうか?神は1016ドルを費やしてテストしましたが、90Kを超えるとパフォーマンスが急激に低下しました。

OpenAI が成功に忙しい一方で、シリコンバレーの最大のライバルである Anthropic は、20 万のコンテキストをサポートする Claude 2.1 をリリースし、ひっそりと大きなニュースを発信しました。

Claude 2.1 の最大のアップグレードは、すでに強力な 100K コンテキスト機能が 2 倍になったことであることがわかります。

200K コンテキストにより、ユーザーはより多くのドキュメントをより便利に処理できるだけでなく、モデルの幻覚の可能性も 2 倍減少します。同時に、システムプロンプトやガジェットの使用などもサポートします。

ほとんどの一般ユーザーにとって、Claude の最大の価値は、GPT-4 よりも強力なコンテキスト能力です。GPT-4 のコンテキスト長を超える長いドキュメントを Claude に渡して処理するのは非常に便利です。

これにより、Claude は ChatGPT より劣る選択肢ではなく、機能面で ChatGPT を補完するもう 1 つの強力なツールになります。

そのため、Claude 2.1 がリリースされるとすぐに、ネットユーザーは公式に主張されている「200K」コンテキスト機能がどれほど強力であるかをテストし始めました。

クロード 2.1 200K コンテキストテスト: 最初と最後は最も明確ですが、中間はほとんど記憶に残りません

今月初め、OpenAIがGPT-4 turboをリリースしたとき、技術の第一人者であるGreg Kamradt氏がOpenAIの新しいモデルをさまざまな側面からテストしました。

彼は、YC 創設者ポール・グラハムの記事のさまざまな部分にマークされた文章を追加し、それをモデルに入力して、これらの文章を読み取る能力をテストしました。

ほぼ同じ方法を使用して、Claude 2.1 のコンテキスト機能もストレステストしました。

ネット閲覧総数は2日間で110万回を突破

テスト結果は次のとおりです:

公式の公称制限長 200K では、Claude 2.1 はマークされた文を実際に抽出できます。

文書の冒頭でマークされた内容は、ほぼ完全に取得できます。

しかし、GPT-4 Turbo の場合と同様に、このモデルはドキュメントの下部にあるコンテンツほどドキュメントの先頭にあるコンテンツをキャプチャするのに効果的ではありません。

長さが 90K を超えると、ドキュメントの下部にあるマークされたコンテンツをキャプチャするモデルの能力が低下し始めます。

図から、GPT-4 128K のテスト結果と比較すると、Claude 2.1 200K のコンテキスト長は、ちょうど「200K の長さの記事の情報を読み取ることができる」ことがわかります。

GPT-4 128K の場合、「128K の長さを超えると大幅な低下が見られます」。

GPT-4 128K 品質標準に従うと、Claude 2.1 は 90K のコンテキスト長しか主張できない可能性があります。

テストマスターのグレッグによると、これらのテスト結果は次のことを示しています。

コンテキスト検索の精度を測定するには、ユーザーはプロンプト単語を特別に設計するか、複数のテストを行う必要があります。

アプリケーション開発者は、これらのコンテキスト内の情報が取得できると単純に想定することはできません。

一般的に、コンテキストの長さが短いコンテンツは検索能力が高くなります。検索品質に対する要件が高い場合は、モデルに入力されるコンテキストの長さを短くしてみてください。

重要な情報の位置は重要であり、最初と最後の情報のほうが覚えやすくなります。

彼はさらに、なぜこの比較テストを行ったのかを説明しました。

彼は Anthropic を批判するつもりはありません。彼らの製品は本当に素晴らしいですし、彼らは誰にとっても強力な AI ツールを構築しています。

LLM 実践者として、彼はモデルの動作原理、利点、限界をより深く理解する必要があります。

これらのテストには確かに不完全な部分もありますが、モデルのユーザーがモデルベースのサービスをより適切に構築したり、モデルの機能をより効果的に使用したりするのに役立ちます。

テスト中に、彼はいくつかの詳細も発見しました。

モデルが思い出すことができるラベル付き事実の量は重要であり、モデルが複数の事実検索タスクまたは包括的な推論ステップを実行すると、思い出される事実の量は減少します。

思い出すきっかけとなる言葉、質問、事実、背景の文脈を変えると、思い出す質に影響を与える可能性があります。

Anthropic チームもテストプロセス中に多くの支援と提案を提供しましたが、API へのテスト呼び出しには依然として作者に 1,016 ドルの費用がかかりました (100 万トークンあたりのコストは 8 ドルでした)。

GPT-4 128Kの最初のテストに200ドルを支払いました

今月初め、OpenAI は開発者会議で GPT-4 Turbo をリリースした際に、コンテキスト機能を 128K に拡張したことも発表しました。

当時、Greg Kamradt 氏はテストのために自腹で 200 ドルを支払いました (一度に 128K トークンを入力するコストは 1.28 ドルでした)。

傾向から判断すると、今回の Anthropic の結果と似ています。

コンテキストが 73K トークンを超えると、GPT-4 のメモリパフォーマンスが低下し始めます。
想起すべき事実が文書の深さの 7% ～ 50% の範囲にある場合、想起率は一般的に低くなります。
事実が文書の先頭にある場合、コンテキストの長さに関係なく、通常は正常に思い出されます。

テスト全体の詳細な手順は次のとおりです。

Paul Graham の記事を「背景」トークンとして使用します。私は彼の記事を 218 件使用し、簡単に 200K トークンに到達しました (一部の記事は再利用されました)。

文書のさまざまな深さに、「サンフランシスコで一番楽しいことは、晴れた日にドロレスパークでサンドイッチを食べることです」という事実を述べたランダムな文を挿入します。

GPT-4 は、提供されたコンテキストのみに基づいてこの質問に答えます。

別のモデル (GPT-4) と @LangChainAI の評価方法を使用して、GPT-4 の回答を評価します。

上記の手順は、15 種類の異なるドキュメント深度 (ドキュメント上部の 0% から下部の 100% まで) と 15 種類の異なるコンテキスト長 (1K トークンから 128K トークンまで) に対して繰り返されます。

<<:

>>: LeCun が喧嘩を始めた、LLM は全く理屈が通らない!大規模モデルの出現は、最終的には文脈学習と切り離せないものである。

南開大学、山東大学、北京理工大学のチームがtrRosettaRNAを開発: Transformerネットワークを使用してRNAの3D構造を自動的に予測

最新の Claude 200K は本当に「誤ったラベル」が貼られているのでしょうか?神は1016ドルを費やしてテストしましたが、90Kを超えるとパフォーマンスが急激に低下しました。

クロード 2.1 200K コンテキストテスト: 最初と最後は最も明確ですが、中間はほとんど記憶に残りません

GPT-4 128Kの最初のテストに200ドルを支払いました

南開大学、山東大学、北京理工大学のチームがtrRosettaRNAを開発: Transformerネットワークを使用してRNAの3D構造を自動的に予測

15人の専門家が予測：AIは2024年にサイバーセキュリティのルールを変える

論文のイラストは拡散モデルを使用して自動的に生成することもでき、ICLRに受け入れられました。

ライブクイズゲーム「Winning with Ease」は止められない、Baidu AIが150万の現金獲得にあなたを招待します！

感情分析に NLP を使用する理由は何ですか?

ザッカーバーグがAlpaca 2をベースにしたChatGPTのMetaバージョンを正式にリリース。Appleに先駆けて初のMRヘッドセットをリリース、価格は1/7以下

GPT-4 は上司とプログラマーに取って代わります。この GitHub プロジェクトは最も検索されています。著者: AI に反復処理を学習させる

雁塔区：西部の「最強の頭脳」が人工知能コンピューティングセンターの未来を切り開く

ブラックミラードッグが帰ってきた！ボストン・ダイナミクスの「ビッグ・イエロー・ドッグ」がスペースXで爆発現場の調査に当たっている

推薦する

馬化騰と李延紅の対談：基礎技術は巨大産業の変革の基盤

1990年代生まれの中国人教授が、1年間でネイチャー誌に3本の論文を発表した。最初の量子ニューラルネットワークQuantumFlowはオープンソースです

ソフトウェアプログラマー試験: 最もシンプルなコード実装による最速のソートおよび検索アルゴリズム

ハイエンドチップはインテリジェント運転の問題を解決できるでしょうか?

ビジュアルMambaモデルのSwinの瞬間：中国科学院、HuaweiなどがVMambaを発表

TensorRT が顔認識を高速化する方法

スマートコミュニティにおける人工知能応用の5つのシナリオ

人工知能は住宅ローン業界に大変革をもたらす

なぜ一部の数学研究者はディープラーニングを嫌ったり軽蔑したりするのでしょうか?

コードを入力せずに機械学習を行うことはできますか?アマゾンウェブサービスが今回大きな動きを見せた

会話型 AI でビジネス成果を向上させる 5 つの方法

世界の通信業界の専門家が2024年を予測

CVPR 自動運転チャレンジで優勝したのはどのようなソリューションでしょうか?

クロード 2.1 200K コンテキスト テスト: 最初と最後は最も明確ですが、中間はほとんど記憶に残りません

GPT-4 128Kの最初のテストに200ドルを支払いました

推薦する

クロード 2.1 200K コンテキストテスト: 最初と最後は最も明確ですが、中間はほとんど記憶に残りません