とても驚きました! GPT-4V錯視チャレンジ記録: 間違っているはずのものは間違っていない、間違っているはずのないものも間違っている

とても驚きました! GPT-4V錯視チャレンジ記録: 間違っているはずのものは間違っていない、間違っているはずのないものも間違っている

GPT-4V は視覚エラーマップに挑戦し、その結果は「衝撃的」でした。

「どちらの側が明るいですか」のような質問には正しく答えられません。

写真に隠された情報を読んでいる人たちも混乱していて、理解できません。いくら聞いても「いいえ」としか言いません。

しかし、人間が一目見れば間違いなく間違えるであろうこの図に、見事に答えました。

そして、このような見当違いの絵は、正しいのですが、完全に正しいわけではありません。 。

(GPT-4Vは、ヘルメットが男性の太ももにあり、女性がいないことを直接確認できますが、それでも写真には2人の人物がいて、もう1人は男性の後ろに隠れてヘルメットをかぶっていることがわかります==)。

これを読んで、混乱したと感じますか?

それは「正しいはずのことが間違っていて、間違っているはずのことが正しい」というものです。


テスターたちはこう語った。

テスト前は、GPT-4V がこの課題に問題なく対処できると考えていましたが、結果は次のようになりました。

彼だけでなく、ネットユーザーも、非常に知能が高いはずの「正確な」AIシステムであるGPT-4Vが、なぜ人間と同じ錯覚を起こすのか理解できないのでしょうか?

それで、何が起こっているのでしょうか?

GPT-4V 5つの錯覚チャレンジ

以下はネットユーザーからのさらなるテストケースです。

まず最初は色の錯覚に関する質問ですが、私は毎回間違えていました。

冒頭の 2 枚の小さな木の写真に加えて、次の写真もあります。

どちらの側の緑が明るいかと聞かれると、左側が明るく右側が暗いように見えますが、実際は同じです。

次はもう少し複雑な例です:

両目とも実際には灰色ですが、GPT-4Vに画像の説明を依頼したところ、片方の目は青色で、もう片方はグレースケールで処理されているため色は判別できないと回答しました。

言うまでもなく、私は完全に騙されました。

もちろん、これは難しいことであり、ほとんどの人間はすべてのボールが茶色であることを認識することはできません。

2つ目は、ダイナミックな錯覚を生み出す写真です。

GPT-4Vに「何が見えましたか?詳細を説明してください」と尋ねたところ、これは長時間見ていると目がくらむような錯覚画像だと直接指摘されたのには少し驚きました。本質的には単なる波線でした。

これも彼を悩ませませんでした。

しかし不思議なことに、絵には何色あるかと尋ねると、黄色と青しか認識できず、白と黒は認識できないのです。

次は、比較的平坦な別のタイプの錯覚です。

冒頭で示したように:

普通の人間なら本当に混乱するでしょうが、GPT-4V は実際に正しかったのです。

でも、焦らないでください! !誰かがテスターの写真を撮り、「自分の」GPT-4V にもう一度確認するように依頼したところ、実際に答えが変わりました。

しかし、まだ終わりではありません。コメント欄に驚きの入れ子人形作戦があり、この二人の会話写真を撮ってGPT-4Vに再度質問する人がいたのですが、どうなったと思いますか?元に戻されました。 。

みんなこのゲームに夢中になって、何度も何度もマトリョーシカを遊んでいました。幸いなことに、GPT-4V は最終的に独自の意見を貫きました。

全体的に、この錯覚トラップにはまったく問題はありません。

私たち自身も長さの錯覚に関する質問をテストしました。

結果はとても簡単です~

ここに隠された情報を見つけるための別の写真セットがあります。

残念ながら、GPT-4V は人間にとっては非常に簡単なこの種の問題を処理できません。

まずこの写真を見てください。遠くから見ると、大文字の「NYC」が3つ見えます。しかし、そこには意味不明なことが書かれており、隠された情報は見つからなかったことになります。

戸別配達サービスが少しわかりにくい場合は、見えなくても問題ありません。しかし、この種のグラフィックの非表示には、これも機能しません。

それは、中にいる小さな女の子についてのみ描写しており、たとえテスターが「さらに遠くを見ても何も新しいものは見つからない」と指示したとしても、何の役にも立たなかった。

ただし、手動で画像を縮小して入力すると、機能して頭蓋骨が表示されます。

最後に、現実世界のずれ画像のセットを示します。

冒頭に写っているバイクに乗っている人物のほか、この「浮いている」猫の写真も実は正解です。

このホラー絵もOKです。

しかし、これは失敗しました。なぜなら、実際には後ろに犬と赤ちゃんがいたのに、フレンチブルドッグの子犬だと思ったからです。

これに関しては、靴については全く触れられておらず、意味のない言葉がいくつか書かれているだけです。

なぜこのようなことが起こるのでしょうか?

では、なぜ一部の錯覚は認識できるのに、他の錯覚ではうまく機能しないのでしょうか?

まず、色彩錯覚の写真に関して、ネットユーザーはまずプロンプト語の問題だと考えた。

2 本の小さな木の写真のように、「どちらが明るいですか」と尋ねると、実際には GPT-4V にヒントやバイアスを与えており、GPT-4V は私たちのバイアスに応じて答えます。

私たち自身のテストでも同様の結果が出ました。

しかし、偏見なく尋ねてみると、写真の2つの色は同じでしょうか?全然大丈夫ですよ。

しかし、一部のネットユーザーは、どの木がより明るいかを尋ねたところ、すべてのピクセルを厳密に平均化した場合、GPT-4Vの答えには何の問題もないと指摘しました。

ネットユーザーの中には、測色計を使って測った人もいる。


しかし!一部だけを見せれば、2つは明らかに同じものだと指摘する人もいました。

この問題については今は議論しないでおこう。確かなのは、「手がかりとなる言葉」の使い方が判断に影響を与えるという問題はないということだ。

さらに、ネットユーザーは次のことを発見しました。

GPT-4V に再度確認を依頼すると、回答を修正することもできます。

遠くの画像を認識できない理由については、GPT-4V が画像を左から右にしか読み取れないためではないかと考えるネットユーザーもいる。

「なぜ人間のようにめまいを起こしたり錯覚に陥ったりして、全然知的なAIらしくない行動をしてしまうのか」という疑問については、これは驚くことではなく、訓練の問題だと答える人が多かったです。

つまり、大規模なモデルは人間のデータ、人間のフィードバック、人間の注釈に基づいてトレーニングされるため、当然人間と同じ間違いを犯します。

そのため、一部の人々は冗談を言いました。

私たち人間は、AI がいかにクールで完璧であるかを描いた SF 作品を数多く生み出してきたようですが、実際に AI が実現すると、それは特別なことではないことがわかります。

(手動犬頭)

GPT-4V の錯覚認識能力をさらに強化するにはどうすればいいと思いますか?

もう一つ

これらのケースのいくつかもテストしたことを言及する価値があります。

GPT-4V のパフォーマンスはかなり異なることがわかりました。「ここ」のいくつかの質問については問題ありませんでした。

たとえば、これはボールの色を判断します:

そしてこれ:

大きな像は骸骨ではなく老婆として認識されているが、それでも「遠くから」見ることができることを示している。

参考リンク:
[1] https://twitter.com/fabianstelzer/status/1717131235644875024.

[2] https://twitter.com/BeyondTodAI/status/1713279431681118557.

[3]https://twitter.com/janbobrowicz/status/1717229335076393350.

<<:  マスク氏のChatGPTバージョンが急成長中! Pythonなしで11人が2か月間懸命に働いた

>>:  Red Hat は Ansible の自動化に IBM Watsonx コード生成を採用

ブログ    

推薦する

たった2時間で7元以下で3Dロボットが作れます

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

スーパードライグッズ: データサイエンスの全体像を概観する記事: 法則、アルゴリズム、問題の種類...

Pradeep Menon 氏は、ビッグデータ、データ サイエンス、データ アーキテクチャの分野で...

世界の顔認識技術応用地域分布マップ

世界中の多くの規制当局は、公開ビデオフィード上の人物を識別するなどのアプリケーションに顔認識を使用し...

大企業に必須の、偉大な神からのオープンソースアルゴリズムツールブック

近年、大企業への入社要件はますます高くなり、アルゴリズムに対する要求も徐々に高まっています。アルゴリ...

近年の機械学習の奇妙な状況

翻訳者注:人工知能分野の発展は学者の貢献と切り離せないものです。しかし、研究が進むにつれて、「クリッ...

...

2022年までのビッグモデルの未来を展望し、周志華、唐潔、楊紅霞といったビッグネームはどう考えているのだろうか?

年末から年始にかけて、ビッグモデルの過去を振り返り、ビッグモデルの未来に期待してみましょう。 28日...

ハイテク:米国は1キロメートル以内のターゲット認識を実現する長距離顔認識システムを開発

海外メディアの報道によると、最近「ニューサイエンス」誌に次のような記事が掲載された。 「米軍は1キロ...

...

世界はとても広い。AIがあなたと一緒に世界を旅します

[オリジナル記事は51CTO.comより] 私の周りには、「世界は広いから、外に出て旅をしたい」と言...

機械学習の実践: Spark と Python を組み合わせるには?

Apache Sparkはビッグデータの処理や活用に最も広く使われているフレームワークの一つであり...

中間レビュー: 2021 年注目のデータサイエンスおよび機械学習スタートアップ 10 社

今日の企業は、競争上の優位性を獲得するために、増え続けるデータを活用し、データ サイエンス、人工知能...

...

ベンチャー投資における機械学習の活用方法

過去 20 年間にわたり、Veronica Wu は多くの大きな技術的変化の始まりを目撃してきました...

顔認識技術を乱用しないでください

[[415783]]最高人民法院は最近、「顔認識技術を用いた個人情報処理に関する民事訴訟における法律...