とても驚きました! GPT-4V錯視チャレンジ記録: 間違っているはずのものは間違っていない、間違っているはずのないものも間違っている

とても驚きました! GPT-4V錯視チャレンジ記録: 間違っているはずのものは間違っていない、間違っているはずのないものも間違っている

GPT-4V は視覚エラーマップに挑戦し、その結果は「衝撃的」でした。

「どちらの側が明るいですか」のような質問には正しく答えられません。

写真に隠された情報を読んでいる人たちも混乱していて、理解できません。いくら聞いても「いいえ」としか言いません。

しかし、人間が一目見れば間違いなく間違えるであろうこの図に、見事に答えました。

そして、このような見当違いの絵は、正しいのですが、完全に正しいわけではありません。 。

(GPT-4Vは、ヘルメットが男性の太ももにあり、女性がいないことを直接確認できますが、それでも写真には2人の人物がいて、もう1人は男性の後ろに隠れてヘルメットをかぶっていることがわかります==)。

これを読んで、混乱したと感じますか?

それは「正しいはずのことが間違っていて、間違っているはずのことが正しい」というものです。


テスターたちはこう語った。

テスト前は、GPT-4V がこの課題に問題なく対処できると考えていましたが、結果は次のようになりました。

彼だけでなく、ネットユーザーも、非常に知能が高いはずの「正確な」AIシステムであるGPT-4Vが、なぜ人間と同じ錯覚を起こすのか理解できないのでしょうか?

それで、何が起こっているのでしょうか?

GPT-4V 5つの錯覚チャレンジ

以下はネットユーザーからのさらなるテストケースです。

まず最初は色の錯覚に関する質問ですが、私は毎回間違えていました。

冒頭の 2 枚の小さな木の写真に加えて、次の写真もあります。

どちらの側の緑が明るいかと聞かれると、左側が明るく右側が暗いように見えますが、実際は同じです。

次はもう少し複雑な例です:

両目とも実際には灰色ですが、GPT-4Vに画像の説明を依頼したところ、片方の目は青色で、もう片方はグレースケールで処理されているため色は判別できないと回答しました。

言うまでもなく、私は完全に騙されました。

もちろん、これは難しいことであり、ほとんどの人間はすべてのボールが茶色であることを認識することはできません。

2つ目は、ダイナミックな錯覚を生み出す写真です。

GPT-4Vに「何が見えましたか?詳細を説明してください」と尋ねたところ、これは長時間見ていると目がくらむような錯覚画像だと直接指摘されたのには少し驚きました。本質的には単なる波線でした。

これも彼を悩ませませんでした。

しかし不思議なことに、絵には何色あるかと尋ねると、黄色と青しか認識できず、白と黒は認識できないのです。

次は、比較的平坦な別のタイプの錯覚です。

冒頭で示したように:

普通の人間なら本当に混乱するでしょうが、GPT-4V は実際に正しかったのです。

でも、焦らないでください! !誰かがテスターの写真を撮り、「自分の」GPT-4V にもう一度確認するように依頼したところ、実際に答えが変わりました。

しかし、まだ終わりではありません。コメント欄に驚きの入れ子人形作戦があり、この二人の会話写真を撮ってGPT-4Vに再度質問する人がいたのですが、どうなったと思いますか?元に戻されました。 。

みんなこのゲームに夢中になって、何度も何度もマトリョーシカを遊んでいました。幸いなことに、GPT-4V は最終的に独自の意見を貫きました。

全体的に、この錯覚トラップにはまったく問題はありません。

私たち自身も長さの錯覚に関する質問をテストしました。

結果はとても簡単です~

ここに隠された情報を見つけるための別の写真セットがあります。

残念ながら、GPT-4V は人間にとっては非常に簡単なこの種の問題を処理できません。

まずこの写真を見てください。遠くから見ると、大文字の「NYC」が3つ見えます。しかし、そこには意味不明なことが書かれており、隠された情報は見つからなかったことになります。

戸別配達サービスが少しわかりにくい場合は、見えなくても問題ありません。しかし、この種のグラフィックの非表示には、これも機能しません。

それは、中にいる小さな女の子についてのみ描写しており、たとえテスターが「さらに遠くを見ても何も新しいものは見つからない」と指示したとしても、何の役にも立たなかった。

ただし、手動で画像を縮小して入力すると、機能して頭蓋骨が表示されます。

最後に、現実世界のずれ画像のセットを示します。

冒頭に写っているバイクに乗っている人物のほか、この「浮いている」猫の写真も実は正解です。

このホラー絵もOKです。

しかし、これは失敗しました。なぜなら、実際には後ろに犬と赤ちゃんがいたのに、フレンチブルドッグの子犬だと思ったからです。

これに関しては、靴については全く触れられておらず、意味のない言葉がいくつか書かれているだけです。

なぜこのようなことが起こるのでしょうか?

では、なぜ一部の錯覚は認識できるのに、他の錯覚ではうまく機能しないのでしょうか?

まず、色彩錯覚の写真に関して、ネットユーザーはまずプロンプト語の問題だと考えた。

2 本の小さな木の写真のように、「どちらが明るいですか」と尋ねると、実際には GPT-4V にヒントやバイアスを与えており、GPT-4V は私たちのバイアスに応じて答えます。

私たち自身のテストでも同様の結果が出ました。

しかし、偏見なく尋ねてみると、写真の2つの色は同じでしょうか?全然大丈夫ですよ。

しかし、一部のネットユーザーは、どの木がより明るいかを尋ねたところ、すべてのピクセルを厳密に平均化した場合、GPT-4Vの答えには何の問題もないと指摘しました。

ネットユーザーの中には、測色計を使って測った人もいる。


しかし!一部だけを見せれば、2つは明らかに同じものだと指摘する人もいました。

この問題については今は議論しないでおこう。確かなのは、「手がかりとなる言葉」の使い方が判断に影響を与えるという問題はないということだ。

さらに、ネットユーザーは次のことを発見しました。

GPT-4V に再度確認を依頼すると、回答を修正することもできます。

遠くの画像を認識できない理由については、GPT-4V が画像を左から右にしか読み取れないためではないかと考えるネットユーザーもいる。

「なぜ人間のようにめまいを起こしたり錯覚に陥ったりして、全然知的なAIらしくない行動をしてしまうのか」という疑問については、これは驚くことではなく、訓練の問題だと答える人が多かったです。

つまり、大規模なモデルは人間のデータ、人間のフィードバック、人間の注釈に基づいてトレーニングされるため、当然人間と同じ間違いを犯します。

そのため、一部の人々は冗談を言いました。

私たち人間は、AI がいかにクールで完璧であるかを描いた SF 作品を数多く生み出してきたようですが、実際に AI が実現すると、それは特別なことではないことがわかります。

(手動犬頭)

GPT-4V の錯覚認識能力をさらに強化するにはどうすればいいと思いますか?

もう一つ

これらのケースのいくつかもテストしたことを言及する価値があります。

GPT-4V のパフォーマンスはかなり異なることがわかりました。「ここ」のいくつかの質問については問題ありませんでした。

たとえば、これはボールの色を判断します:

そしてこれ:

大きな像は骸骨ではなく老婆として認識されているが、それでも「遠くから」見ることができることを示している。

参考リンク:
[1] https://twitter.com/fabianstelzer/status/1717131235644875024.

[2] https://twitter.com/BeyondTodAI/status/1713279431681118557.

[3]https://twitter.com/janbobrowicz/status/1717229335076393350.

<<:  マスク氏のChatGPTバージョンが急成長中! Pythonなしで11人が2か月間懸命に働いた

>>:  Red Hat は Ansible の自動化に IBM Watsonx コード生成を採用

推薦する

製造業における人工知能の8つの応用シナリオ

人工知能の概念は、60年以上前の1950年代に初めて提案されました。しかし、モノのインターネット、ビ...

AIのトップ研究者からのアドバイス:あなたもAIに取り組んでいると聞きましたが、この4つの落とし穴にはまらないように!

人工知能の人気が高まってきており、人工知能分野でビジネスを始めたい人も増えてきています。しかし、人工...

Google の 10 秒動画生成モデルが世界記録を更新しました。 LLMは拡散モデルを終わらせ、その影響は第2世代のトップを圧倒する

AI ビデオ生成は、2024 年には次の最先端分野になる可能性があります。過去数ヶ月を振り返ると、R...

45年前のマイクロソフトの予測が現実になりました!シャム:将来、AIの数は人類の人口を上回るだろう

本日開催された第8世代XiaoIce発表会で、XiaoIce会長で元マイクロソフトのグローバルエグゼ...

人工知能は人間の精神的健康を評価できる

学際的な共同プロジェクトによる研究によると、人工知能は専門家の評価を必要とせずに、アンケートや脳スキ...

...

モデルの一般化にはSGDに匹敵するフルバッチGDのランダムトレーニングは必要ない、ネットユーザー:計算コストは​​手頃ではない

[[431688]]最近、機械学習モデルは、モデルパラメータが増えながらも一般化性能が良好な大規模モ...

2024年のAIソフトウェアテストの主なトレンド

AI ソフトウェア テストの分野では、将来的に複数の開発トレンドに直面する可能性があり、そのいくつか...

...

アプリオリアルゴリズム原理の要約

[[182123]]関連付けアルゴリズムは、データ マイニングにおける重要なタイプのアルゴリズムです...

スマートグリッドディスパッチ自動化の詳細な説明

インテリジェントディスパッチ自動化は、スマートグリッドの運用に不可欠なインテリジェントシステムです。...

...