GPT-4はますます愚かになり、過去の返信をキャッシュしていることが明らかになりました。ジョークが800回言われても、新しい返信は聞きません。

GPT-4はますます愚かになり、過去の返信をキャッシュしていることが明らかになりました。ジョークが800回言われても、新しい返信は聞きません。

一部のネットユーザーは、GPT-4 が「愚か」になったことを示す別の証拠を発見しました。

彼はこう質問した。

OpenAI は過去の応答をキャッシュし、GPT-4 が以前に生成された回答を直接繰り返すことを可能にします。

写真

最もわかりやすい例はジョークを言うことです。

証拠によれば、モデルの温度を上げても、GPT-4 は依然として同じ「科学者と原子」という答えを繰り返した。

それは、あのひどいジョークです。「なぜ科学者は原子を信用しないのか?すべては原子でできているからだ。」

写真

ここで、温度の値が大きいほど、モデルが予期しない単語を生成しやすくなり、同じジョークを繰り返す可能性が低くなるのは当然です。

それだけでなく、パラメータを変更せずに言葉を変え、新しい異なるジョークを語るべきだと強調したとしても、役に立ちません。

写真

発見者は次のように述べた。

これは、GPT-4 がキャッシュを使用するだけでなく、質問を正確に一致させるのではなく、クエリをクラスター化することを示しています。

そのメリットは明らかで、応答速度が速くなります。

しかし、高額な会員費を払ったのに、このようなキャッシュ検索サービスしか得られないのであれば、誰も満足しないでしょう。

写真

他の人は視聴後に次のように感じました。

もしこれが本当なら、他の大規模モデルの答えを評価するために常に GPT-4 を使用するのは不公平ではないでしょうか?

写真

もちろん、これが外部キャッシュの結果ではないと考える人もいますし、モデル自体の答えは非常に再現性が高いのかもしれません。

これまでの研究では、ChatGPT がジョークを言うとき、90% の確率で同じ 25 個のジョークを繰り返すことが示されています。

写真

具体的にはどう言えばいいでしょうか?

GPT-4がキャッシュされたレスポンスを使用していることを証明する証拠

温度値が無視されるだけでなく、このネットユーザーは次のことも発見しました:

モデルの top_p 値を変更しても機能しません。GPT-4 は単にそのジョークに従います。

(top_p: モデルによって返される結果の信頼性を制御するために使用されます。より正確で事実に基づいた回答が必要な場合は値を下げ、より多様な回答が必要な場合は値を上げます)

写真

唯一の方法は、ランダム性パラメータ n を増やして、「キャッシュされていない」回答を取得し、新しいジョークを取得することです。

写真

しかし、その「代償」は応答速度が遅くなることです。結局のところ、新しいコンテンツを生成すると、一定の遅延が発生します。

ローカル モデルで同様の現象を発見した人もいるようですが、これは言及する価値があります。

写真

誰かが言った: スクリーンショットの「プレフィックス一致ヒット」は、キャッシュが実際に使用されていることを証明しているようです。

そこで疑問になるのが、ビッグモデルはどうやってチャット情報をキャッシュするのかということです。

いい質問ですね。冒頭で示した 2 番目の例から判断すると、何らかの「クラスタリング」操作が実行されていることは明らかですが、それが具体的にどのようにディープ マルチラウンド会話に適用されるかはわかりません。

写真

この問題はさておき、これを見て、ChatGPT の「あなたのデータは当社で保管されますが、チャットが終了すると会話の内容は削除されます」という声明を思い出し、突然気づく人もいるかもしれません。

写真

これにより、データ セキュリティの問題について心配する人が出てくるのは避けられません。

これは、私たちが開始したチャットがまだデータベースに保存されていることを意味しますか?

写真

もちろん、この心配は誇張されているかもしれないと考える人もいます。

おそらく、クエリの埋め込みと回答のキャッシュだけが保存されているのでしょう。

写真

それで、発見者自身が言ったように:

キャッシュ操作自体についてはあまり心配していません。

私が心配しているのは、OpenAI が温度などの設定に注意を払わずに、質問に答えるために質問を単純かつ大雑把に要約し、明らかに意味の異なるプロンプトを直接集約することです。これは非常に悪い影響を及ぼし、多くの (GPT-4 ベースの) アプリケーションを「台無しにする」可能性があります。

写真

もちろん、上記の調査結果が OpenAI が実際にキャッシュされた応答を使用していることを証明していると誰もが同意するわけではありません。

その理由は、著者が使用した例がたまたまジョークだったからである。

結局、今年6月に2人のドイツ人学者がテストを行い、ChatGPTにランダムにジョークを言うように依頼したところ、1,008件の結果のうち90%が同じ25個のジョークのバリエーションであったことがわかった。

写真

最も頻繁に登場するのは「科学者と原子」で、119 回言及されています。

したがって、以前の回答がキャッシュされているように見えるのは当然です。

そのため、一部のネットユーザーは、他の種類の質問でテストすることを提案しました。

しかし、著者は問題を変更する必要はないと主張しています。遅延時間を測定すれば、キャッシュの問題かどうかは簡単にわかります。

写真

最後に、この問題を別の角度から見てみましょう。

GPT-4 がいつも同じジョークを言うのは何が問題なのでしょうか?

大規模モデルは一貫性があり信頼性の高い回答を出力する必要があると常に強調してきませんでしたか?見て、なんて従順なんだ(犬の頭)。

写真

では、GPT-4 にはキャッシュがあるのでしょうか? 同様の現象を観察したことがありますか?

参考リンク: https://twitter.com/hammer_mt/status/1719150885559812379

<<: 

>>: 

ブログ    
ブログ    
ブログ    

推薦する

ML プロジェクトを実行するときに、タスクが多数あり、些細な場合はどうすればよいでしょうか?このセルフチェックリストはあなたの心を整理するのに役立ちます

機械学習プロジェクトには、データ処理、モデルの最適化など、多くの要素が関係します。開発者は混乱したり...

OpenAIのスーパーアライメントチームの取り組み

今年11月17日、OpenAIのCEOサム・アルトマン氏は主任科学者イリヤ・スツケヴァー氏によるクー...

機械学習を使って純粋数学を新たな方法で探求する

1 世紀以上前、インドの伝説的な数学者シュリニヴァーサ・ラマヌジャンは、その比類のない数学的才能で数...

ビッグデータと人工知能のために生まれた新しい職業:アルゴリズム専門家

[[69076]]映画「マトリックス」でレオが銃弾の雨をかわす難しい動きを誰もが覚えているはずだ。こ...

...

2021年にAIスマートカメラがもたらす新たな市場

[[393303]] 2020年から2021年にかけて、ほぼすべてのビジネス分野の組織が多くの予期せ...

プログラマーにとって「朗報」:AI が人間のコード作成を支援することは信頼できるのか?

[[264055]]データマップ:ゲーム会社のプログラマー。写真提供:ユー・チン、中国新聞社午前9...

機械学習を活用して人事部門の時間を節約する方法

導入履歴書データベースに「ソフトウェア エンジニア」という名前の履歴書が 10,000 件あるとしま...

...

いくつかの単純な負荷分散アルゴリズムとそのJavaコード実装

1. 負荷分散とは何ですか?負荷分散(英語名は Load Balance)とは、複数のサーバーを対称...

...

ディープラーニングにおける8種類の畳み込みを視覚的に理解する

この記事では、ディープラーニングでよく使用される 8 種類の畳み込みについてまとめ、非常に鮮明な方法...

これら10機関からの24の調査データはAIのトレンドを理解するのに役立ちます

[[256519]] 2019年1月現在の人工知能の現状は?最近の調査では、AI の人気、測定可能な...

スマートメーター: スマートなエネルギー管理への道

新型コロナウイルス感染症のパンデミックにより、配電事業者はメーターの読み取りとその後の請求という基本...