1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能

1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能

大きなモデルはすべてコンテキスト ウィンドウをロールアップしました。Llama -1 のときは、標準構成はまだ 2k でしたが、今では 100k を超えないと外出するのが恥ずかしくなります。

しかし、極端なテストを行ったところ、ほとんどの人が AI を誤って使用しており、 AI の潜在能力を十分に引き出せていないことが判明しました。

AI は何十万もの単語から重要な事実を本当に正確に見つけることができるのでしょうか?色が赤くなるほど、AI が犯した間違いが多くなります。

デフォルトでは、 GPT-4-128k と新しくリリースされた Claude2.1-200k のパフォーマンスは低下します。

しかし、状況を理解した後、クロード氏のチームは非常にシンプルな解決策を思いつきました。1 つの文を追加するだけで、スコアが 27% から 98% に直接上昇したのです。

ただし、この文章はユーザーの質問に追加されるのではなく、回答の冒頭で AI に言わせるようになっています。

「この文脈で最も関連のある文は次のとおりです。」

(これは文脈上最も関連のある文です:)

大型モデルで干し草の山から針を探す

著者のグレッグ・カムラッド氏は、このテストを実施するために少なくとも150ドルを自費で費やしました。

幸運なことに、Claude2.1 をテストしていたとき、Anthropic が彼に連絡し、無料のクレジットを提供してくれました。そうでなければ、彼はさらに 1,016 ドルを支払わなければなりませんでした。

実際、テスト方法は複雑ではありません。YC の創設者 Paul Graham による 218 件のブログ投稿がテストデータとして使用されました。

ドキュメント内のさまざまな場所に具体的な文を追加します。サンフランシスコで一番楽しいことは、晴れた日にドロレス パークに座ってサンドイッチを食べることです。

GPT-4 と Claude2.1 に、提供されたコンテキストのみを使用して質問に答えるように依頼し、コンテキストの長さが異なり、異なる位置に追加されたドキュメントを繰り返しテストします。

最後に、Langchain Evals ライブラリを使用して結果を評価します。

作者はこの一連のテストを「干し草の山から針を探す」と名付け、GitHub でコードをオープンソース化した。このコードには 200 以上のスターが付けられている。作者はまた、ある企業が次の大規模モデルのテストを後援していることも明らかにした。

AI企業は自ら解決策を見つける

数週間後、Claude の開発元であるAnthropic社がデータを慎重に分析したところ、AI は文書内の一文に基づいた質問に答えようとしないことが分かりました。特に、その文が後から挿入されたもので、記事全体とほとんど関係がない場合はそうでした。

つまり、AIはこの文が記事の主題とは無関係であると判断したため、怠けて文ごとに調べなかったことになります。

このとき、AI を騙すにはいくつかのトリックを使用する必要があります。クロードに、回答の冒頭に「文脈で最も関連性の高い文は次のとおりです」と追加するように依頼することができます。

この方法を使用すると、後から追加されたのではなく、元々元のテキストにあった文を見つける際の Claude のパフォーマンスも向上します。

アントロピック社は、クロードがこのような作業にうまく適応できるよう、今後も訓練を継続していくと述べた。

API を呼び出すときに、指定された始まりで応答するように AI に要求することができ、これには他の用途もあります。

この計画を見た起業家のマット・シューマー氏は、いくつかのヒントを付け加えた。

AI に純粋な JSON 形式を出力させたい場合は、プロンプト ワードを「{」で終わらせます。同様に、AI にローマ数字をリストさせたい場合は、プロンプトを「I:」で終わらせます。

しかし、まだ終わりではありません…

国内の大手模型メーカーもこの試験に注目し、自社の大型模型がこの試験に合格できるかどうか試し始めた。

同じく超ロングコンテキストを持つDark Side of the Moon Kimi 大型モデルチームもこの問題を検出しましたが、異なる解決策を提示し、良好な結果を達成しました。

このように、特に API を呼び出すのではなくチャットボット製品を直接使用する場合は、AI に回答に文章を追加するように依頼するよりも、ユーザーの質問プロンプトを変更する方が簡単です。

Dark Side of the Moon は、新しい方法を使用して GPT-4 と Claude2.1 もテストしました。結果は、GPT-4 が大幅に改善されたのに対し、Claude2.1 はわずかな改善にとどまったことを示しました。

この実験自体には一定の制限があるようです。Claude にも独自の特殊性があり、これは独自の調整方法である Constituional AI に関連している可能性があります。Anthropic 自体が提供する方法を使用する方がよいでしょう。

その後、ダークサイド・オブ・ザ・ムーンのエンジニアたちはさらに実験を重ね、そのうちの 1 つが次のような結果になりました...

壊れました、テストデータになりました。

<<:  誇張する! EMNLPには約5,000本の論文が提出され、賞が発表されました。北京大学とテンセントが最優秀長編論文賞を受賞しました。

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

生成AIスタートアップにとっての大きな問題は、資金不足ではなくトレーニングデータの不足だ

6月16日、生成型人工知能のスタートアップ企業数社が数十億ドルの資金を調達したが、適切なデータを入手...

人工知能技術は、インターホンを構築する主流の技術の1つになると期待されています

現在、人工知能、ビッグデータ、顔認識技術、クラウドコンピューティングなどの新技術が急速に発展し、産業...

ハードコア科学: たった一文で、話題の「ニューラル ネットワーク」とは何なのか説明できますか?

私の誠意を示すために、この短くて鋭い真実をここに述べます。ニューラル ネットワークは、 相互接続され...

AIはITに顧客体験の向上における優位性を与える

パンデミックにより、IT 部門がデジタル顧客体験を向上させる必要性がさらに高まりました。 IT リー...

赤ちゃんのように学習するディープマインド社の新モデルは、28時間で物理世界のルールを学習します

Deepmind は、直感的な物理学を学習できるモデルを構築し、モデルがなぜこの能力を実現するのか...

10億件の速達配送のピークを迎える中、Baidu OCRが物流企業のスピードアップにどのように貢献しているかをご覧ください。

ダブル11の大割引が戻ってきました。新規のお客様が最初に購入できる厳選商品...速達便のビジネスプロ...

AIのマインドリーディングがサミットであなたを驚かせる!モデルが脳波を翻訳し、人間の思考がスクリーンに映し出される|NeurIPS 2023

今日、私たちの AI は何ができるでしょうか? AI による描画、AI による作曲、AI による動画...

中国と米国の差を縮め、人工知能開発の主導権を徐々に握る

60年以上の発展を経て、人工知能は人々の仕事や日常生活に入り込み、影響を与えており、新たな一般技術と...

...

マイクロソフト、AIを活用してがんの放射線治療時間を短縮:スキャン速度が2.5倍に向上、精度は90%に

6月28日、BBCによると、英国はNHS(国民保健サービス)の全トラストに新しい人工知能技術を原価で...

...

機械学習の変革: 多分野にわたる問題に立ち向かい、新しい機械学習エコシステムを構築する

機械学習の手法は、生命、物理学、社会経済などの複雑なシステムにますます応用されています。特定のタスク...

...

...