1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能

1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能

大きなモデルはすべてコンテキスト ウィンドウをロールアップしました。Llama -1 のときは、標準構成はまだ 2k でしたが、今では 100k を超えないと外出するのが恥ずかしくなります。

しかし、極端なテストを行ったところ、ほとんどの人が AI を誤って使用しており、 AI の潜在能力を十分に引き出せていないことが判明しました。

AI は何十万もの単語から重要な事実を本当に正確に見つけることができるのでしょうか?色が赤くなるほど、AI が犯した間違いが多くなります。

デフォルトでは、 GPT-4-128k と新しくリリースされた Claude2.1-200k のパフォーマンスは低下します。

しかし、状況を理解した後、クロード氏のチームは非常にシンプルな解決策を思いつきました。1 つの文を追加するだけで、スコアが 27% から 98% に直接上昇したのです。

ただし、この文章はユーザーの質問に追加されるのではなく、回答の冒頭で AI に言わせるようになっています。

「この文脈で最も関連のある文は次のとおりです。」

(これは文脈上最も関連のある文です:)

大型モデルで干し草の山から針を探す

著者のグレッグ・カムラッド氏は、このテストを実施するために少なくとも150ドルを自費で費やしました。

幸運なことに、Claude2.1 をテストしていたとき、Anthropic が彼に連絡し、無料のクレジットを提供してくれました。そうでなければ、彼はさらに 1,016 ドルを支払わなければなりませんでした。

実際、テスト方法は複雑ではありません。YC の創設者 Paul Graham による 218 件のブログ投稿がテストデータとして使用されました。

ドキュメント内のさまざまな場所に具体的な文を追加します。サンフランシスコで一番楽しいことは、晴れた日にドロレス パークに座ってサンドイッチを食べることです。

GPT-4 と Claude2.1 に、提供されたコンテキストのみを使用して質問に答えるように依頼し、コンテキストの長さが異なり、異なる位置に追加されたドキュメントを繰り返しテストします。

最後に、Langchain Evals ライブラリを使用して結果を評価します。

作者はこの一連のテストを「干し草の山から針を探す」と名付け、GitHub でコードをオープンソース化した。このコードには 200 以上のスターが付けられている。作者はまた、ある企業が次の大規模モデルのテストを後援していることも明らかにした。

AI企業は自ら解決策を見つける

数週間後、Claude の開発元であるAnthropic社がデータを慎重に分析したところ、AI は文書内の一文に基づいた質問に答えようとしないことが分かりました。特に、その文が後から挿入されたもので、記事全体とほとんど関係がない場合はそうでした。

つまり、AIはこの文が記事の主題とは無関係であると判断したため、怠けて文ごとに調べなかったことになります。

このとき、AI を騙すにはいくつかのトリックを使用する必要があります。クロードに、回答の冒頭に「文脈で最も関連性の高い文は次のとおりです」と追加するように依頼することができます。

この方法を使用すると、後から追加されたのではなく、元々元のテキストにあった文を見つける際の Claude のパフォーマンスも向上します。

アントロピック社は、クロードがこのような作業にうまく適応できるよう、今後も訓練を継続していくと述べた。

API を呼び出すときに、指定された始まりで応答するように AI に要求することができ、これには他の用途もあります。

この計画を見た起業家のマット・シューマー氏は、いくつかのヒントを付け加えた。

AI に純粋な JSON 形式を出力させたい場合は、プロンプト ワードを「{」で終わらせます。同様に、AI にローマ数字をリストさせたい場合は、プロンプトを「I:」で終わらせます。

しかし、まだ終わりではありません…

国内の大手模型メーカーもこの試験に注目し、自社の大型模型がこの試験に合格できるかどうか試し始めた。

同じく超ロングコンテキストを持つDark Side of the Moon Kimi 大型モデルチームもこの問題を検出しましたが、異なる解決策を提示し、良好な結果を達成しました。

このように、特に API を呼び出すのではなくチャットボット製品を直接使用する場合は、AI に回答に文章を追加するように依頼するよりも、ユーザーの質問プロンプトを変更する方が簡単です。

Dark Side of the Moon は、新しい方法を使用して GPT-4 と Claude2.1 もテストしました。結果は、GPT-4 が大幅に改善されたのに対し、Claude2.1 はわずかな改善にとどまったことを示しました。

この実験自体には一定の制限があるようです。Claude にも独自の特殊性があり、これは独自の調整方法である Constituional AI に関連している可能性があります。Anthropic 自体が提供する方法を使用する方がよいでしょう。

その後、ダークサイド・オブ・ザ・ムーンのエンジニアたちはさらに実験を重ね、そのうちの 1 つが次のような結果になりました...

壊れました、テストデータになりました。

<<:  誇張する! EMNLPには約5,000本の論文が提出され、賞が発表されました。北京大学とテンセントが最優秀長編論文賞を受賞しました。

>>: 

ブログ    
ブログ    

推薦する

アメリカのAI企業の優位性を打ち破り、AI数学オープンソースモデルでアベルが1位に

ChatGPTに代表される大型モデル製品は新たな産業革命を先導し、国内外の機関が関連技術研究に積極的...

OpenAIのSora、中国は追いつけないのか?

春節の時期にOpenAIのSoraが大人気でした。私も見てみましたが、正直GPT4が出た時ほどの衝撃...

...

...

ザッカーバーグ氏がCharacter.AIの1:1レプリカである仮想チャットAIをリリース?ユーザーの不満: 設定が古すぎる

ユーザーがTikTokにどんどん奪われ、毎日のアクティブユーザー数が減り続けているという現実に直面し...

メディア業界の自動化をリードする10のAI分野

データ爆発の時代では、データの収集だけでは不十分です。ビジネスを運営し、成長させるための洞察を得るに...

人工知能時代のITサービスを変える8つのテクノロジー

サービスは人間が行う仕事だということを否定する人はいないでしょう。しかし、テクノロジーはサービスを強...

...

壁を登る毛虫のように、上海交通大学の新しいソフトロボットは水平にも垂直にも動くことができる

今日のロボットは、次のようなさまざまな形やサイズのものがあります。こんなのもあります:一見奇妙に見え...

...

顔認識の背後にあるセキュリティリスクを誰が負担するのでしょうか?

近年、科学技術の発展に伴い、顔認識技術は人々の日常生活で頻繁に使用されるようになりました。たとえば、...

すべての画像が16x16ワードの価値があるわけではない。清華大学とファーウェイは動的ViTを提案した

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習を拡張するための5つのポイント

Facebook は効果的な人工知能について私たちに多くのことを教えてくれます。最近のガートナー社の...

...