とても驚きました！ GPT-4V錯視チャレンジ記録: 間違っているはずのものは間違っていない、間違っているはずのないものも間違っている

GPT-4V は視覚エラーマップに挑戦し、その結果は「衝撃的」でした。

「どちらの側が明るいですか」のような質問には正しく答えられません。

写真に隠された情報を読んでいる人たちも混乱していて、理解できません。いくら聞いても「いいえ」としか言いません。

しかし、人間が一目見れば間違いなく間違えるであろうこの図に、見事に答えました。

そして、このような見当違いの絵は、正しいのですが、完全に正しいわけではありません。。

（GPT-4Vは、ヘルメットが男性の太ももにあり、女性がいないことを直接確認できますが、それでも写真には2人の人物がいて、もう1人は男性の後ろに隠れてヘルメットをかぶっていることがわかります==）。

これを読んで、混乱したと感じますか?

それは「正しいはずのことが間違っていて、間違っているはずのことが正しい」というものです。

テスターたちはこう語った。

テスト前は、GPT-4V がこの課題に問題なく対処できると考えていましたが、結果は次のようになりました。

彼だけでなく、ネットユーザーも、非常に知能が高いはずの「正確な」AIシステムであるGPT-4Vが、なぜ人間と同じ錯覚を起こすのか理解できないのでしょうか?

それで、何が起こっているのでしょうか?

GPT-4V 5つの錯覚チャレンジ

以下はネットユーザーからのさらなるテストケースです。

まず最初は色の錯覚に関する質問ですが、私は毎回間違えていました。

冒頭の 2 枚の小さな木の写真に加えて、次の写真もあります。

どちらの側の緑が明るいかと聞かれると、左側が明るく右側が暗いように見えますが、実際は同じです。

次はもう少し複雑な例です:

両目とも実際には灰色ですが、GPT-4Vに画像の説明を依頼したところ、片方の目は青色で、もう片方はグレースケールで処理されているため色は判別できないと回答しました。

言うまでもなく、私は完全に騙されました。

もちろん、これは難しいことであり、ほとんどの人間はすべてのボールが茶色であることを認識することはできません。

2つ目は、ダイナミックな錯覚を生み出す写真です。

GPT-4Vに「何が見えましたか？詳細を説明してください」と尋ねたところ、これは長時間見ていると目がくらむような錯覚画像だと直接指摘されたのには少し驚きました。本質的には単なる波線でした。

これも彼を悩ませませんでした。

しかし不思議なことに、絵には何色あるかと尋ねると、黄色と青しか認識できず、白と黒は認識できないのです。

次は、比較的平坦な別のタイプの錯覚です。

冒頭で示したように:

普通の人間なら本当に混乱するでしょうが、GPT-4V は実際に正しかったのです。

でも、焦らないでください！！誰かがテスターの写真を撮り、「自分の」GPT-4V にもう一度確認するように依頼したところ、実際に答えが変わりました。

しかし、まだ終わりではありません。コメント欄に驚きの入れ子人形作戦があり、この二人の会話写真を撮ってGPT-4Vに再度質問する人がいたのですが、どうなったと思いますか？元に戻されました。。

みんなこのゲームに夢中になって、何度も何度もマトリョーシカを遊んでいました。幸いなことに、GPT-4V は最終的に独自の意見を貫きました。

全体的に、この錯覚トラップにはまったく問題はありません。

私たち自身も長さの錯覚に関する質問をテストしました。

結果はとても簡単です～

ここに隠された情報を見つけるための別の写真セットがあります。

残念ながら、GPT-4V は人間にとっては非常に簡単なこの種の問題を処理できません。

まずこの写真を見てください。遠くから見ると、大文字の「NYC」が3つ見えます。しかし、そこには意味不明なことが書かれており、隠された情報は見つからなかったことになります。

戸別配達サービスが少しわかりにくい場合は、見えなくても問題ありません。しかし、この種のグラフィックの非表示には、これも機能しません。

それは、中にいる小さな女の子についてのみ描写しており、たとえテスターが「さらに遠くを見ても何も新しいものは見つからない」と指示したとしても、何の役にも立たなかった。

ただし、手動で画像を縮小して入力すると、機能して頭蓋骨が表示されます。

最後に、現実世界のずれ画像のセットを示します。

冒頭に写っているバイクに乗っている人物のほか、この「浮いている」猫の写真も実は正解です。

このホラー絵もOKです。

しかし、これは失敗しました。なぜなら、実際には後ろに犬と赤ちゃんがいたのに、フレンチブルドッグの子犬だと思ったからです。

これに関しては、靴については全く触れられておらず、意味のない言葉がいくつか書かれているだけです。

なぜこのようなことが起こるのでしょうか?

では、なぜ一部の錯覚は認識できるのに、他の錯覚ではうまく機能しないのでしょうか?

まず、色彩錯覚の写真に関して、ネットユーザーはまずプロンプト語の問題だと考えた。

2 本の小さな木の写真のように、「どちらが明るいですか」と尋ねると、実際には GPT-4V にヒントやバイアスを与えており、GPT-4V は私たちのバイアスに応じて答えます。

私たち自身のテストでも同様の結果が出ました。

しかし、偏見なく尋ねてみると、写真の2つの色は同じでしょうか?全然大丈夫ですよ。

しかし、一部のネットユーザーは、どの木がより明るいかを尋ねたところ、すべてのピクセルを厳密に平均化した場合、GPT-4Vの答えには何の問題もないと指摘しました。

ネットユーザーの中には、測色計を使って測った人もいる。

しかし！一部だけを見せれば、2つは明らかに同じものだと指摘する人もいました。

この問題については今は議論しないでおこう。確かなのは、「手がかりとなる言葉」の使い方が判断に影響を与えるという問題はないということだ。

さらに、ネットユーザーは次のことを発見しました。

GPT-4V に再度確認を依頼すると、回答を修正することもできます。

遠くの画像を認識できない理由については、GPT-4V が画像を左から右にしか読み取れないためではないかと考えるネットユーザーもいる。

「なぜ人間のようにめまいを起こしたり錯覚に陥ったりして、全然知的なAIらしくない行動をしてしまうのか」という疑問については、これは驚くことではなく、訓練の問題だと答える人が多かったです。

つまり、大規模なモデルは人間のデータ、人間のフィードバック、人間の注釈に基づいてトレーニングされるため、当然人間と同じ間違いを犯します。

そのため、一部の人々は冗談を言いました。

私たち人間は、AI がいかにクールで完璧であるかを描いた SF 作品を数多く生み出してきたようですが、実際に AI が実現すると、それは特別なことではないことがわかります。

（手動犬頭）

GPT-4V の錯覚認識能力をさらに強化するにはどうすればいいと思いますか?

もう一つ

これらのケースのいくつかもテストしたことを言及する価値があります。

GPT-4V のパフォーマンスはかなり異なることがわかりました。「ここ」のいくつかの質問については問題ありませんでした。

たとえば、これはボールの色を判断します:

そしてこれ:

大きな像は骸骨ではなく老婆として認識されているが、それでも「遠くから」見ることができることを示している。

参考リンク:
[1] https://twitter.com/fabianstelzer/status/1717131235644875024.

[2] https://twitter.com/BeyondTodAI/status/1713279431681118557.

[3]https://twitter.com/janbobrowicz/status/1717229335076393350.

<<: マスク氏のChatGPTバージョンが急成長中！ Pythonなしで11人が2か月間懸命に働いた

>>: Red Hat は Ansible の自動化に IBM Watsonx コード生成を採用

DeepMindの長い記事によると、AlphaZeroのブラックボックスニューラルネットワークが学習した知識は基本的に人間の知識と似ているという。

ブログ

AutoGPTオープンソースAIエージェントを理解する

ブログ

Androidスマートフォンを使用してターゲット検出モデルYOLOv5のロックを解除すると、認識速度はわずか数十ミリ秒です

ブログ

速報 | SmartOneがAIショッピングガイドロボットを発表、マイクロソフトと戦略的提携を強化

ブログ

Fast.ai の 10,000 ワードの記事: AI の安全性と光の終焉

ブログ

調査によると、AIはデータ文化に大きな影響を与えている

ブログ

移動ロボットの分野に新たな大手企業が参入し、業界の人気は高まり続けている。

ブログ

ChatGPTという独立系ゲームがSteamから削除されました。開発者は「貯金と3年半の人生が消えてしまいました」と語っています。

ブログ

ソフトウェアとハードウェアを組み合わせたCDS Shouyun AIクラウドサービスの技術実践

ブログ

速報、劉強東が核爆弾を投げる！宅配便は早く消えます!

ブログ

とても驚きました！ GPT-4V錯視チャレンジ記録: 間違っているはずのものは間違っていない、間違っているはずのないものも間違っている

GPT-4V 5つの錯覚チャレンジ

なぜこのようなことが起こるのでしょうか?

もう一つ

DeepMindの長い記事によると、AlphaZeroのブラックボックスニューラルネットワークが学習した知識は基本的に人間の知識と似ているという。

AutoGPTオープンソースAIエージェントを理解する

Androidスマートフォンを使用してターゲット検出モデルYOLOv5のロックを解除すると、認識速度はわずか数十ミリ秒です

速報 | SmartOneがAIショッピングガイドロボットを発表、マイクロソフトと戦略的提携を強化

Fast.ai の 10,000 ワードの記事: AI の安全性と光の終焉

調査によると、AIはデータ文化に大きな影響を与えている

移動ロボットの分野に新たな大手企業が参入し、業界の人気は高まり続けている。

ChatGPTという独立系ゲームがSteamから削除されました。開発者は「貯金と3年半の人生が消えてしまいました」と語っています。

ソフトウェアとハードウェアを組み合わせたCDS Shouyun AIクラウドサービスの技術実践

速報、劉強東が核爆弾を投げる！宅配便は早く消えます!

推薦する

国内初の大規模模造品対策訴訟：アリババクラウドが偽造同義千聞アプリを提訴、一審で勝訴

4分！ OpenAIのロボットハンドは、プログラミングなしで完全に独学で、片手でルービックキューブを解くことを学習しました。

人工知能を活用して生物多様性を保護する

人工知能は教育にどのように活用されていますか?ここに実際の例をいくつか示しますので、ぜひご覧ください。

OpenAI は ChatGPT 機能のアップデートを多数リリースする予定ですが、そのうちいくつご存知ですか?

2021 年の AI サイバーセキュリティ開発の動向

壁につかまることを学んだロボット：私を落とすことはできない

AIネットワークはこれまで考えられていたよりも攻撃に対して脆弱である

LLM の成功に欠かせない基礎: RLHF とその代替技術

信号解析の観点から畳み込みニューラルネットワークの複雑なメカニズムを理解するにはどうすればよいでしょうか?

この記事を読んで人工知能を始めましょう!