GPT-4はますます愚かになり、過去の返信をキャッシュしていることが明らかになりました。ジョークが800回言われても、新しい返信は聞きません。

GPT-4はますます愚かになり、過去の返信をキャッシュしていることが明らかになりました。ジョークが800回言われても、新しい返信は聞きません。

一部のネットユーザーは、GPT-4 が「愚か」になったことを示す別の証拠を発見しました。

彼はこう質問した。

OpenAI は過去の応答をキャッシュし、GPT-4 が以前に生成された回答を直接繰り返すことを可能にします。

写真

最もわかりやすい例はジョークを言うことです。

証拠によれば、モデルの温度を上げても、GPT-4 は依然として同じ「科学者と原子」という答えを繰り返した。

それは、あのひどいジョークです。「なぜ科学者は原子を信用しないのか?すべては原子でできているからだ。」

写真

ここで、温度の値が大きいほど、モデルが予期しない単語を生成しやすくなり、同じジョークを繰り返す可能性が低くなるのは当然です。

それだけでなく、パラメータを変更せずに言葉を変え、新しい異なるジョークを語るべきだと強調したとしても、役に立ちません。

写真

発見者は次のように述べた。

これは、GPT-4 がキャッシュを使用するだけでなく、質問を正確に一致させるのではなく、クエリをクラスター化することを示しています。

そのメリットは明らかで、応答速度が速くなります。

しかし、高額な会員費を払ったのに、このようなキャッシュ検索サービスしか得られないのであれば、誰も満足しないでしょう。

写真

他の人は視聴後に次のように感じました。

もしこれが本当なら、他の大規模モデルの答えを評価するために常に GPT-4 を使用するのは不公平ではないでしょうか?

写真

もちろん、これが外部キャッシュの結果ではないと考える人もいますし、モデル自体の答えは非常に再現性が高いのかもしれません。

これまでの研究では、ChatGPT がジョークを言うとき、90% の確率で同じ 25 個のジョークを繰り返すことが示されています。

写真

具体的にはどう言えばいいでしょうか?

GPT-4がキャッシュされたレスポンスを使用していることを証明する証拠

温度値が無視されるだけでなく、このネットユーザーは次のことも発見しました:

モデルの top_p 値を変更しても機能しません。GPT-4 は単にそのジョークに従います。

(top_p: モデルによって返される結果の信頼性を制御するために使用されます。より正確で事実に基づいた回答が必要な場合は値を下げ、より多様な回答が必要な場合は値を上げます)

写真

唯一の方法は、ランダム性パラメータ n を増やして、「キャッシュされていない」回答を取得し、新しいジョークを取得することです。

写真

しかし、その「代償」は応答速度が遅くなることです。結局のところ、新しいコンテンツを生成すると、一定の遅延が発生します。

ローカル モデルで同様の現象を発見した人もいるようですが、これは言及する価値があります。

写真

誰かが言った: スクリーンショットの「プレフィックス一致ヒット」は、キャッシュが実際に使用されていることを証明しているようです。

そこで疑問になるのが、ビッグモデルはどうやってチャット情報をキャッシュするのかということです。

いい質問ですね。冒頭で示した 2 番目の例から判断すると、何らかの「クラスタリング」操作が実行されていることは明らかですが、それが具体的にどのようにディープ マルチラウンド会話に適用されるかはわかりません。

写真

この問題はさておき、これを見て、ChatGPT の「あなたのデータは当社で保管されますが、チャットが終了すると会話の内容は削除されます」という声明を思い出し、突然気づく人もいるかもしれません。

写真

これにより、データ セキュリティの問題について心配する人が出てくるのは避けられません。

これは、私たちが開始したチャットがまだデータベースに保存されていることを意味しますか?

写真

もちろん、この心配は誇張されているかもしれないと考える人もいます。

おそらく、クエリの埋め込みと回答のキャッシュだけが保存されているのでしょう。

写真

それで、発見者自身が言ったように:

キャッシュ操作自体についてはあまり心配していません。

私が心配しているのは、OpenAI が温度などの設定に注意を払わずに、質問に答えるために質問を単純かつ大雑把に要約し、明らかに意味の異なるプロンプトを直接集約することです。これは非常に悪い影響を及ぼし、多くの (GPT-4 ベースの) アプリケーションを「台無しにする」可能性があります。

写真

もちろん、上記の調査結果が OpenAI が実際にキャッシュされた応答を使用していることを証明していると誰もが同意するわけではありません。

その理由は、著者が使用した例がたまたまジョークだったからである。

結局、今年6月に2人のドイツ人学者がテストを行い、ChatGPTにランダムにジョークを言うように依頼したところ、1,008件の結果のうち90%が同じ25個のジョークのバリエーションであったことがわかった。

写真

最も頻繁に登場するのは「科学者と原子」で、119 回言及されています。

したがって、以前の回答がキャッシュされているように見えるのは当然です。

そのため、一部のネットユーザーは、他の種類の質問でテストすることを提案しました。

しかし、著者は問題を変更する必要はないと主張しています。遅延時間を測定すれば、キャッシュの問題かどうかは簡単にわかります。

写真

最後に、この問題を別の角度から見てみましょう。

GPT-4 がいつも同じジョークを言うのは何が問題なのでしょうか?

大規模モデルは一貫性があり信頼性の高い回答を出力する必要があると常に強調してきませんでしたか?見て、なんて従順なんだ(犬の頭)。

写真

では、GPT-4 にはキャッシュがあるのでしょうか? 同様の現象を観察したことがありますか?

参考リンク: https://twitter.com/hammer_mt/status/1719150885559812379

<<: 

>>: 

ブログ    

推薦する

...

チップ大手は、写真を撮ることよりも面白くないこれらの新しいAI技術を秘密裏に開発している

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

モノのインターネットを支援するAI搭載量子コンピューティング

量子コンピューティングはまだ開発段階にありますが、人工知能とモノのインターネットの開発を加速させる新...

スマートな薬箱が登場したが、その背後にあるAIの能力を過小評価してはならない

薬を買うとき、自動販売機のように、セルフサービス機で直接注文して、必要なときにすぐに受け取ることはで...

デジタル時代のパフォーマンス管理:現実と未来

デジタルパフォーマンス管理の変革デジタル目標設定パフォーマンス計画は、企業の繁栄戦略と業務を結び付け...

ディープラーニングを活用してネットワークセキュリティを実現する方法

[[240276]]著者: ゲストブログ翻訳:張玲校正:丁南雅この論文では、ディープラーニングとそれ...

EleutherAIが200億パラメータのGPT風モデルを発表: GPT-3とは異なり、無料でオープン

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

機械学習プロジェクトが失敗する9つの理由

この記事では、データ サイエンス プロジェクトが失敗する最も一般的な理由をまとめ、落とし穴を回避する...

データ サイエンティストが 95% の時間使用する 11 の基本分布

前回のレビュー「データ サイエンティストが 95% の時間に使用する 11 個の基本チャート」に続き...

ニューラルネットワークの動作原理を1つの記事で理解する

この記事では、ディープ ニューラル ネットワークの一般的な概要を説明します。今日では、人工知能につい...

...

Metaが人工知能チャットボット「Meta AI」をリリース

Meta は、Meta AI と呼ばれる人工知能チャットボットをリリースしました。ザッカーバーグ氏は...

人工知能はどのように農業の発展を促進できるのでしょうか?

古代より、農業は人類の生存の基盤であり、国家経済の基盤となってきました。しかし、人口の急速な増加、耕...

バイナリ検索アルゴリズムと時間計算量について簡単に説明し、バイナリ検索アルゴリズムを実装する

[[432404]]バイナリ検索は、バイナリ検索アルゴリズムとも呼ばれ、シンプルで理解しやすい高速検...