最新の Claude 200K は本当に「誤ったラベル」が貼られているのでしょうか?神は1016ドルを費やしてテストしましたが、90Kを超えるとパフォーマンスが急激に低下しました。

最新の Claude 200K は本当に「誤ったラベル」が貼られているのでしょうか?神は1016ドルを費やしてテストしましたが、90Kを超えるとパフォーマンスが急激に低下しました。

OpenAI が成功に忙しい一方で、シリコンバレーの最大のライバルである Anthropic は、20 万のコンテキストをサポートする Claude 2.1 をリリースし、ひっそりと大きなニュースを発信しました。

Claude 2.1 の最大のアップグレードは、すでに強力な 100K コンテキスト機能が 2 倍になったことであることがわかります。

200K コンテキストにより、ユーザーはより多くのドキュメントをより便利に処理できるだけでなく、モデルの幻覚の可能性も 2 倍減少します。同時に、システムプロンプトやガジェットの使用などもサポートします。

ほとんどの一般ユーザーにとって、Claude の最大の価値は、GPT-4 よりも強力なコンテキスト能力です。GPT-4 のコンテキスト長を超える長いドキュメントを Claude に渡して処理するのは非常に便利です。

これにより、Claude は ChatGPT より劣る選択肢ではなく、機能面で ChatGPT を補完するもう 1 つの強力なツールになります。

そのため、Claude 2.1 がリリースされるとすぐに、ネットユーザーは公式に主張されている「200K」コンテキスト機能がどれほど強力であるかをテストし始めました。

クロード 2.1 200K コンテキスト テスト: 最初と最後は最も明確ですが、中間はほとんど記憶に残りません

今月初め、OpenAIがGPT-4 turboをリリースしたとき、技術の第一人者であるGreg Kamradt氏がOpenAIの新しいモデルをさまざまな側面からテストしました。

彼は、YC 創設者ポール・グラハムの記事のさまざまな部分にマークされた文章を追加し、それをモデルに入力して、これらの文章を読み取る能力をテストしました。

ほぼ同じ方法を使用して、Claude 2.1 のコンテキスト機能もストレステストしました。

ネット閲覧総数は2日間で110万回を突破

テスト結果は次のとおりです:

公式の公称制限長 200K では、Claude 2.1 はマークされた文を実際に抽出できます。

文書の冒頭でマークされた内容は、ほぼ完全に取得できます。

しかし、GPT-4 Turbo の場合と同様に、このモデルはドキュメントの下部にあるコンテンツほどドキュメントの先頭にあるコンテンツをキャプチャするのに効果的ではありません。

長さが 90K を超えると、ドキュメントの下部にあるマークされたコンテンツをキャプチャするモデルの能力が低下し始めます。

図から、GPT-4 128K のテスト結果と比較すると、Claude 2.1 200K のコンテキスト長は、ちょうど「200K の長さの記事の情報を読み取ることができる」ことがわかります。

GPT-4 128K の場合、「128K の長さを超えると大幅な低下が見られます」。

GPT-4 128K 品質標準に従うと、Claude 2.1 は 90K のコンテキスト長しか主張できない可能性があります。

テストマスターのグレッグによると、これらのテスト結果は次のことを示しています。

コンテキスト検索の精度を測定するには、ユーザーはプロンプト単語を特別に設計するか、複数のテストを行う必要があります。

アプリケーション開発者は、これらのコンテキスト内の情報が取得できると単純に想定することはできません。

一般的に、コンテキストの長さが短いコンテンツは検索能力が高くなります。検索品質に対する要件が高い場合は、モデルに入力されるコンテキストの長さを短くしてみてください。

重要な情報の位置は重要であり、最初と最後の情報のほうが覚えやすくなります。

彼はさらに、なぜこの比較テストを行ったのかを説明しました。

彼は Anthropic を批判するつもりはありません。彼らの製品は本当に素晴らしいですし、彼らは誰にとっても強力な AI ツールを構築しています。

LLM 実践者として、彼はモデルの動作原理、利点、限界をより深く理解する必要があります。

これらのテストには確かに不完全な部分もありますが、モデルのユーザーがモデルベースのサービスをより適切に構築したり、モデルの機能をより効果的に使用したりするのに役立ちます。

テスト中に、彼はいくつかの詳細も発見しました。

モデルが思い出すことができるラベル付き事実の量は重要であり、モデルが複数の事実検索タスクまたは包括的な推論ステップを実行すると、思い出される事実の量は減少します。

思い出すきっかけとなる言葉、質問、事実、背景の文脈を変えると、思い出す質に影響を与える可能性があります。

Anthropic チームもテスト プロセス中に多くの支援と提案を提供しましたが、API へのテスト呼び出しには依然として作者に 1,016 ドルの費用がかかりました (100 万トークンあたりのコストは 8 ドルでした)。

GPT-4 128Kの最初のテストに200ドルを支払いました

今月初め、OpenAI は開発者会議で GPT-4 Turbo をリリースした際に、コンテキスト機能を 128K に拡張したことも発表しました。

当時、Greg Kamradt 氏はテストのために自腹で 200 ドルを支払いました (一度に 128K トークンを入力するコストは 1.28 ドルでした)。

傾向から判断すると、今回の Anthropic の結果と似ています。

コンテキストが 73K トークンを超えると、GPT-4 のメモリ パフォーマンスが低下し始めます。

想起すべき事実が文書の深さの 7% ~ 50% の範囲にある場合、想起率は一般的に低くなります。

事実が文書の先頭にある場合、コンテキストの長さに関係なく、通常は正常に思い出されます。

テスト全体の詳細な手順は次のとおりです。

Paul Graham の記事を「背景」トークンとして使用します。私は彼の記事を 218 件使用し、簡単に 200K トークンに到達しました (一部の記事は再利用されました)。

文書のさまざまな深さに、「サンフランシスコで一番楽しいことは、晴れた日にドロレス パークでサンドイッチを食べることです」という事実を述べたランダムな文を挿入します。

GPT-4 は、提供されたコンテキストのみに基づいてこの質問に答えます。

別のモデル (GPT-4) と @LangChainAI の評価方法を使用して、GPT-4 の回答を評価します。

上記の手順は、15 種類の異なるドキュメント深度 (ドキュメント上部の 0% から下部の 100% まで) と 15 種類の異なるコンテキスト長 (1K トークンから 128K トークンまで) に対して繰り返されます。

<<: 

>>:  LeCun が喧嘩を始めた、LLM は全く理屈が通らない!大規模モデルの出現は、最終的には文脈学習と切り離せないものである。

ブログ    

推薦する

...

...

21 歳の SpaceX インターンが AI を使って大規模な考古学的事件を解決し、4 万ドルを獲得しました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

上位 10 の古典的なソート アルゴリズムの詳細な説明: シェル ソート、マージ ソート、クイック ソート

[[378304]]上位 10 の古典的なソート アルゴリズム - シェル ソート、マージ ソート、...

...

AI医薬品製造はここにあります!新薬開発は「10年間の努力」に別れを告げるかもしれない

[[385336]] AI顔認識技術は人気歌手のコンサートから逃亡した犯人を捕まえるのに役立ち、AI...

Ma Yi と Shen Xiangyang が協力して、最初の CPAL 賞を発表します。 16人がライジングスター賞を受賞、その半数は中国の学者

ちょうど昨日、第 1 回 CPAL ミニマリスト アカデミック カンファレンスで、ライジング スター...

工業情報化部:電話ネットワークアクセスの物理チャネルに肖像マッチング技術を導入

今年12月1日より、物理チャネルでは顔認識技術対策を全面的に導入し、電話ネットワークへのアクセスプロ...

MIT の中国人博士共同執筆者: 確率プログラムモデリングを使用して世界モデルを解明!

言語は思考にどのように影響しますか?人間は言語からどのように意味を引き出すのでしょうか?これら 2 ...

Java プログラミング スキル - データ構造とアルゴリズム「ソート アルゴリズムの分類と紹介」

導入ソートとは、データのセットを指定された順序で並べるプロセスです。分類カテゴリ内部ソート: ソート...

脳コンピューターインターフェース技術は本当に人気がある

[[274622]]参加者は脳波計を装着し、コンピューターの画面を見つめながら、急速に点滅するターゲ...

...

GACの第2世代Trumpchi GS4が発売され、WeChat車載バージョンは安全で効率的な車内通信を実現

11月15日、WeChat車載バージョンを搭載したGACの第2世代Trumpchi GS4が発売され...

...

AI とクラウド コンピューティングが出会うとき、サービスとしての AI は神でしょうか、それとも悪魔でしょうか?

最先端技術の継続的な発展とクラウドコンピューティングサービスの普及により、AI as a servi...