GPT-4はますます愚かになり、過去の返信をキャッシュしていることが明らかになりました。ジョークが800回言われても、新しい返信は聞きません。

一部のネットユーザーは、GPT-4 が「愚か」になったことを示す別の証拠を発見しました。

彼はこう質問した。

OpenAI は過去の応答をキャッシュし、GPT-4 が以前に生成された回答を直接繰り返すことを可能にします。

写真

最もわかりやすい例はジョークを言うことです。

証拠によれば、モデルの温度を上げても、GPT-4 は依然として同じ「科学者と原子」という答えを繰り返した。

それは、あのひどいジョークです。「なぜ科学者は原子を信用しないのか？すべては原子でできているからだ。」

写真

ここで、温度の値が大きいほど、モデルが予期しない単語を生成しやすくなり、同じジョークを繰り返す可能性が低くなるのは当然です。

それだけでなく、パラメータを変更せずに言葉を変え、新しい異なるジョークを語るべきだと強調したとしても、役に立ちません。

写真

発見者は次のように述べた。

これは、GPT-4 がキャッシュを使用するだけでなく、質問を正確に一致させるのではなく、クエリをクラスター化することを示しています。

そのメリットは明らかで、応答速度が速くなります。

しかし、高額な会員費を払ったのに、このようなキャッシュ検索サービスしか得られないのであれば、誰も満足しないでしょう。

写真

他の人は視聴後に次のように感じました。

もしこれが本当なら、他の大規模モデルの答えを評価するために常に GPT-4 を使用するのは不公平ではないでしょうか?

写真

もちろん、これが外部キャッシュの結果ではないと考える人もいますし、モデル自体の答えは非常に再現性が高いのかもしれません。

これまでの研究では、ChatGPT がジョークを言うとき、90% の確率で同じ 25 個のジョークを繰り返すことが示されています。

写真

具体的にはどう言えばいいでしょうか？

GPT-4がキャッシュされたレスポンスを使用していることを証明する証拠

温度値が無視されるだけでなく、このネットユーザーは次のことも発見しました:

モデルの top_p 値を変更しても機能しません。GPT-4 は単にそのジョークに従います。

(top_p: モデルによって返される結果の信頼性を制御するために使用されます。より正確で事実に基づいた回答が必要な場合は値を下げ、より多様な回答が必要な場合は値を上げます)

写真

唯一の方法は、ランダム性パラメータ n を増やして、「キャッシュされていない」回答を取得し、新しいジョークを取得することです。

写真

しかし、その「代償」は応答速度が遅くなることです。結局のところ、新しいコンテンツを生成すると、一定の遅延が発生します。

ローカルモデルで同様の現象を発見した人もいるようですが、これは言及する価値があります。

写真

誰かが言った: スクリーンショットの「プレフィックス一致ヒット」は、キャッシュが実際に使用されていることを証明しているようです。

そこで疑問になるのが、ビッグモデルはどうやってチャット情報をキャッシュするのかということです。

いい質問ですね。冒頭で示した 2 番目の例から判断すると、何らかの「クラスタリング」操作が実行されていることは明らかですが、それが具体的にどのようにディープマルチラウンド会話に適用されるかはわかりません。

写真

この問題はさておき、これを見て、ChatGPT の「あなたのデータは当社で保管されますが、チャットが終了すると会話の内容は削除されます」という声明を思い出し、突然気づく人もいるかもしれません。

写真

これにより、データセキュリティの問題について心配する人が出てくるのは避けられません。

これは、私たちが開始したチャットがまだデータベースに保存されていることを意味しますか?

写真

もちろん、この心配は誇張されているかもしれないと考える人もいます。

おそらく、クエリの埋め込みと回答のキャッシュだけが保存されているのでしょう。

写真

それで、発見者自身が言ったように:

キャッシュ操作自体についてはあまり心配していません。

私が心配しているのは、OpenAI が温度などの設定に注意を払わずに、質問に答えるために質問を単純かつ大雑把に要約し、明らかに意味の異なるプロンプトを直接集約することです。これは非常に悪い影響を及ぼし、多くの (GPT-4 ベースの) アプリケーションを「台無しにする」可能性があります。

写真

もちろん、上記の調査結果が OpenAI が実際にキャッシュされた応答を使用していることを証明していると誰もが同意するわけではありません。

その理由は、著者が使用した例がたまたまジョークだったからである。

結局、今年6月に2人のドイツ人学者がテストを行い、ChatGPTにランダムにジョークを言うように依頼したところ、1,008件の結果のうち90%が同じ25個のジョークのバリエーションであったことがわかった。

写真

最も頻繁に登場するのは「科学者と原子」で、119 回言及されています。

したがって、以前の回答がキャッシュされているように見えるのは当然です。

そのため、一部のネットユーザーは、他の種類の質問でテストすることを提案しました。

しかし、著者は問題を変更する必要はないと主張しています。遅延時間を測定すれば、キャッシュの問題かどうかは簡単にわかります。

写真

最後に、この問題を別の角度から見てみましょう。

GPT-4 がいつも同じジョークを言うのは何が問題なのでしょうか?

大規模モデルは一貫性があり信頼性の高い回答を出力する必要があると常に強調してきませんでしたか?見て、なんて従順なんだ（犬の頭）。

写真

では、GPT-4 にはキャッシュがあるのでしょうか? 同様の現象を観察したことがありますか?

参考リンク: https://twitter.com/hammer_mt/status/1719150885559812379

<<:

>>:

GPT-4はますます愚かになり、過去の返信をキャッシュしていることが明らかになりました。ジョークが800回言われても、新しい返信は聞きません。

GPT-4がキャッシュされたレスポンスを使用していることを証明する証拠

日常生活におけるAIの応用

AIはIoTベースのDDoS攻撃を阻止できる

5分でトップ10の機械学習アルゴリズムを学ぶ

ドローン時代の到来により、人工知能航空機が有人戦闘機に取って代わり、パイロットは失業することになるのでしょうか？

TensorFlow を使用してリカレントニューラルネットワークを構築、トレーニング、改善する方法

IDC FutureScape: 人工知能がIT業界とビジネス運営を変革する

カスタマーサービスで AI ボットを使用する 5 つのメリット

個人情報保護を強力に強化

「機械による人代替」が雇用問題を引き起こす。第一線で働く人々の未来はどうなるのか？

推薦する

機械学習が交通と物流に革命を起こす4つの方法

ボストン・ダイナミクスが伝染病と戦うために犬を派遣：頭にはiPad、背中にはトランシーバー、価格性能比は本当に大丈夫なのか？

ホーキング博士：人工知能の脅威は核兵器のようなもので、世界には10の大きな変化が起こるでしょう！

アリババ副社長兼DAMOアカデミー副会長の金容氏が辞任したことが明らかになった！ AI科学者は大企業から集団で「逃げる」...

エラー分析を正しく行う方法、NLP研究者は学ぶ必要がある

顔認識技術が明らかに、未来はもうすぐ「手の届くところ」に！

自然言語処理におけるディープラーニングの応用

アリババ、AI研究所、清華大学が共同でAIに認知能力を与える新しいAIモデルを発表

PHPソートアルゴリズムの完全実装

3つの大きな弱点がAIスタートアップへの扉を閉ざしている

機械学習では自然言語理解を解決できない

人工知能とモノのインターネット：自然災害への新たな対応アプローチ

7兆のブルーオーシャンが呼んでいる、ケータリングロボットの商業利用を加速させるには？

人工知能はどれくらい怖いのでしょうか？ホーキング博士はなぜ人々に慎重になってほしいのでしょうか?本当に40%の雇用が失われるのでしょうか？