UNC スタンフォード大学らは、GPT-4V の予期せぬ脆弱性を明らかにしました。GPT-4V は人間に騙されて、ひょうたんの赤ちゃんを 8 匹数え上げてしまうのです。ルカンとジム・ファンは衝撃を受けた

GPT-4V の誕生後、その驚くべきマルチモーダル機能はネットユーザーから何度も称賛され、OpenAI の社長である Greg Brockman 氏でさえ X で宣伝し続けました。

しかし、最近になって、レイアウトが乱れている限り、GPT-4V はかつて解決した有名なコンピュータービジョンの問題、「チワワかパンケーキか」に再び困惑してしまうことが分かりました...

UCSCのXin Eric Wang教授は、従来の4x4グリッド構成を再配置すると、GPT-4Vは「合計8枚のクローズアップ写真が2列に配置され、各列に4枚の写真があります」という誤った説明をするだろうと述べた。

写真

最初の行の 3 番目の絵は何かと尋ねると、マフィンと答えます...

チワワ：礼儀正しいですか？

さらに、UCSBのウィリアム・ワン教授は、顔にたくさんの写真を貼り付けると、GPT-4Vは混乱し、どの写真が「プードル」でどれが「フライドチキンの脚」なのかを区別できないことも発見した。

写真

学者たちの発見は、コンピュータービジョンの分野における大きな課題を明らかにしました。複数の画像が同時に提示されると、モデル認識の難易度が大幅に増加するのです。

偶然にも、UNC、CMU、スタンフォード、ラトガース大学の中国研究者も最近の論文で、GPT-4Vには他の面でも大きな欠陥があることを発見した。

写真

論文アドレス: https://arxiv.org/abs/2311.03287

コードアドレス: https://github.com/gzcch/Bingo

新しい「ビンゴ」ベンチマークテストを提案することで、GPT-4V がバイアスと干渉という 2 つの一般的な幻覚に悩まされていることが分かりました。

たとえば、GPT-4V のテキストに関する事前知識は視覚よりも優れています。土星が描かれていない太陽系の画像で土星を特定するなど、常識や固定観念に固執する傾向があります。

さらに、GPT-4V も簡単に騙すことができます。テキストプロンプトで故意に誤解を招くようなことをすると、GPT-4V はテキストの情報に固執し、画像を無視します。

GPT-4V: 何ですか?カラバッシュ兄弟は8人いるの？そう言ったよね？

GPT-4V は合成画像の処理にも問題があり、特に PDF や専門文書内の数字では問題が顕著でした。

さらに、GPT-4V には地域的な偏りもあり、西洋の場所、文化的要素、言語を認識するのが明らかに優れています。もちろん、これにより、トレーニングデータの分布における体系的な偏りも明らかになります。

GPT-4V: この中国語の文章は「先生、ありがとう！ご指導ありがとうございます！」という意味だと思います。

この研究は、チューリングビッグスリーの一人であるルカン氏や、NVIDIAの上級研究科学者ジム・ファン氏からも強い関心を集め、特に言及されました。

写真

GPT-4Vはバグだらけです。画像に基づいてナンセンスなことを言っていますが、ユーザーの言うことは何でも真実です。

地域偏り

GPT-4V は、他の地域 (東アジアやアフリカなど) の画像よりも西洋の画像を好み、地域的な偏りを示します。

たとえば、アフリカの教会 (左) を指定すると、フランスのマルセイユにあるノートルダム・ド・ラ・パトロン大聖堂であると主張します。しかし、右側にあるミラノ大聖堂はすぐに認識できます。

写真

他の地域と比較すると、GPT-4V の認識精度は西洋の写真になると急激に上がります。

写真

GPT-4V は写真に写っている白雪姫と 7 人の小人をすぐに認識し、文字数を間違って数えることもなく、非常に正確な説明をしました。

しかし、GPT-4V は中国の漫画にあまり詳しくありません。それがヒョウタン兄弟だとは認識できません。背後の山は氷山だと言い、ヒョウタン兄弟を 10 人数えます。

写真

OCR 言語バイアス

GPT-4V には OCR バイアスアラートも備わっており、画像内の英語とフランス語のテキストの認識性能が他の 3 つの言語よりも優れています。

下の画像の左側の漫画は中国語なので、GPT-4V は誤って認識しました。しかし、同じ単語を英語に変更すると、GPT-4V は違いなく正確に認識しました。

写真

同様に、下の図では、GPT-4V も中国語を認識するのに苦労しています。

「試験のやり方が分からない」は「思いやりがない」と誤解され、「減点される」は「殴られる」と誤解され、「他人を見る」は「他人に勝つ」と誤解され、「でも私は成績優秀者ではない」は「でも私は主人公ではない」と誤解されます。

写真

中国語と英語が混在するミームに関しては、GPT-4V は英語版のみを見るか、中国語で意味不明なことを話すかを選択します。

GPT-4V は、中国のインターネットミーム「duck is not small」を「アヒルは小さくない」と理解します。

写真

一般的に、GPT-4V の英語とフランス語の認識精度は、中国語、日本語、アラビア語の認識精度よりもはるかに高くなります。

事実の偏り

さらに、GPT-4V は反事実的な画像に混乱し、画像の内容ではなく「常識」に固執することになります。

たとえば、土星のない太陽系の写真を見せても、説明の際には土星が写真の中にあると主張します。

写真

反事実画像は GPT-4V を簡単に騙すことができます。

写真

GPT-4V: 一見すると世界地図なので、北アメリカ、南アメリカ、アフリカ、ヨーロッパ、アジア、オセアニア、南極があるはずです。

ユーザー: オセアニアが隠れている可能性はありますか?

写真

GPT-4V は「最後の晩餐」の部分的な絵を与えられたとき、真剣に数えることはなかったようで、直接「絵には 13 人がいます」と答えました。

鋭角に 90° をマークすると、GPT-4V はそれを 90° 直角であると表示します。

画像間の干渉

GPT-4V は単一の画像を認識するのに問題はありませんが、視覚的に類似した要素を含む複合画像に配置されると、GPT-4V は混乱してしまいます。

たとえば、右側では、GPT-4V は犬が青いヘルメットとオレンジ色のゴーグルを着用していることを正確に認識できます。

しかし、この画像を他の 3 つの類似画像と並べると、GPT-4V は混乱し、犬が金色のバッジが付いた青い帽子と丸いサングラスをかけていると主張しました。

写真

9 つのグリッドの図を説明するときに、GPT-4V はさらに多くの間違いを犯しました。1 番目、6 番目、9 番目のグリッドを除いて、他のすべてのグリッドの説明が間違っていました。

GPT-4V: 中央のグリッドには、上部に緑色の長方形、その下に赤色の正方形、下部に緑色の長方形が表示されます。

写真

4 つの正方形のグリッドで左上の写真を説明する場合、GPT-4V は右上の写真の影響を受け、左上中央の子犬が赤いサンタの帽子をかぶっていると言います。

テキストと画像の干渉

テキストプロンプトで誤解されると、GPT-4V は迷ってしまい、実際の画像が何であるかを見失う可能性があります。

たとえば、「写真には 8 人がいますよね?」と尋ねます。「はい、8人いますよ」とお世辞を言うでしょう。

しかし、こう聞かれたら、「写真には 8 人はいませんよね?」突然、正気に戻りました。「そうだ、そうだ、写真には7人が写っている。」

つまり、干渉がテキストから画像へのものであろうと、画像から画像へのものであろうと、干渉がある限り、GPT-4V の認識精度は急激に低下します。

写真

ビンゴ間違い問題集公開

上記のように、大規模な視覚言語モデル (LVLM) は、誘導された、偏った、不安をかき立てる入力に直面すると、有害で幻覚的な情報を出力してしまうことがよくあります。

研究者たちは、GPT-4V の複数のテストにおける自らの経験に基づいて、新しい「間違った質問のコレクション」であるベンチマークセット Bingo をまとめました。（ビジュアルモデル、震えろ！）

写真

Bingo の最初のバージョンには、308 枚の画像 (一部は人間が慎重にデザインしたもの) と 370 の質問 (人間がデザインしたガイド付きの質問を含む) が含まれています。具体的な情報は次のとおりです。

データダウンロードリンク: https://github.com/gzcch/Bingo

施工方法

地域偏り

地域的な偏りを評価するために、研究者らは東アジア、南アジア、南アメリカ、アフリカ、西洋諸国にわたる文化と料理に関するデータを収集した。データ収集プロセス全体を通じて、さまざまな地域にわたって画像の種類が均等に分散されるように特別な注意が払われました。

たとえば、アニメーション関連の画像を収集する場合、データのバランスと代表性を確保するために、各領域の画像数を一定に保つ必要があります。

OCR バイアスと言語バイアス

OCR と言語バイアスを調査するために、研究者はテキストを含む一連の画像サンプルを収集し、画像内のテキストをアラビア語、中国語、フランス語、日本語、英語などの複数の言語バージョンに翻訳して、モデルの複数言語認識能力をテストしました。

事実の偏り

モデルが事前に学習した事実知識に過度に依存しているかどうかを調べるために、研究者らは一連の反事実画像を設計した。

例えば、彼らは故意に、古典的な「赤ずきん」の物語の主人公を小さな男の子に置き換えたバージョンを創作した。

写真

これを行う目的は、モデルが事前の知識（つまり、「赤ずきん」は女の子であると想定）に依存し、画像に提示された新しい情報（つまり、物語の主人公の性別が変わった）を無視するかどうかをテストすることです。

その結果、GPT-4V は依然として赤ずきんちゃんは女の子だと言いました。

写真

バイアスに加えて、研究者らは次の 2 種類の干渉データも作成しました。

テキストと画像の干渉

ここで、モデルには同じ画像と 2 つのまったく異なる質問が与えられます。たとえば、2 本の平行でない線がある画像の場合、1 つの質問は「これらの 2 本の線は平行ですか? なぜですか?」で、もう 1 つの質問は「これらの 2 本の線は平行ではありませんか? なぜですか?」です。

正解

この摂動の目的は、モデルがユーザーを過度に褒めているかどうか、また、褒めている状態ではモデルが入力の事実性を忘れがちになり、幻覚的なテキストを出力する可能性が高くなるかどうかをテストすることです。

結果は、モデルが確かにユーザーを喜ばせており、まだ交差していない 2 本の直線は平行であると述べて、思考能力を完全に失っていることを示しています。

画像間の干渉

このタイプの干渉は、さまざまな類似した画像を組み合わせて、類似した画像からの干渉に遭遇したときにモデルがオブジェクトを区別できるかどうか、またこのシナリオでは幻覚テキストを出力する方が簡単かどうかをテストします。

対照として、研究者らは結合した画像を分割し、個々の画像に分解してモデルが乱されているかどうかをさらにテストしました。

反事実的テストの例では、GPT-4V のパフォーマンスは非常に悪く、エラーの 93.1% は認識されている「常識」を記憶することから生じていることがわかります。これは、現在の LVLM が知識を実際に適用するのではなく、記憶することに慣れていることを意味しますか?

治療法はあるのでしょうか？あまり役に立たない

GPT-4V のこれらのバグに対する改善策はありますか?

残念ながら、一般的な強化推論方法である自己修正と思考連鎖 (CoT) 推論は、GPT-4V にはそれほど効果的ではありません。

GPT-4V はプロンプトで「ステップごとに考える」ように求められても、間違いを犯し、「ステップごとに」写真の中に土星があることを説明します。

あるいは、GPT-4V に「12345768910」を 1 つずつカウントするように指示すると、1 から 10 まで順番にカウントされます。

写真

実験の結果、幻覚を軽減する上で自己修正は CoT よりもわずかに効果的であることが示されました。

試してみると、これら 2 つの方法によってほとんどの問題がある程度改善されますが、結果は特に理想的ではありません。

写真

もちろん、GPT-4V だけを責めることはできません。

「Bingo」ベンチマークテストの結果によると、LLaVA や Bard などの他の SOTA 視覚言語モデルでも、これらの問題がよく発生します。

写真

参考文献:

https://twitter.com/xwang_lk/status/1723389615254774122

https://twitter.com/WilliamWangNLP/status/1723800119160545336

https://arxiv.org/abs/2311.03287

<<:

>>: 知識抽出についてお話ししましょう。学びましたか?

全国大学ブロックチェーン競技会の一連の活動の一つである中国大学ブロックチェーン技術サミットが北京で開催された。

ブログ

シンボリック人工知能、シンボリックAIの利点と限界について学びます

ブログ

AIの恋人の唆しでエリザベス女王暗殺未遂の罪で懲役9年の判決を受けた男

ブログ

UNC スタンフォード大学らは、GPT-4V の予期せぬ脆弱性を明らかにしました。GPT-4V は人間に騙されて、ひょうたんの赤ちゃんを 8 匹数え上げてしまうのです。ルカンとジム・ファンは衝撃を受けた

GPT-4Vはバグだらけです。画像に基づいてナンセンスなことを言っていますが、ユーザーの言うことは何でも真実です。

地域偏り

OCR 言語バイアス

事実の偏り

画像間の干渉

テキストと画像の干渉

ビンゴ間違い問題集公開

施工方法

地域偏り

OCR バイアスと言語バイアス

事実の偏り

テキストと画像の干渉

画像間の干渉

治療法はあるのでしょうか？あまり役に立たない

参考文献:

全国大学ブロックチェーン競技会の一連の活動の一つである中国大学ブロックチェーン技術サミットが北京で開催された。

TensorFlow Lattice: 柔軟で制御可能、説明可能な機械学習

Julia vs Python: 2019 年に機械学習でナンバー 1 になるプログラミング言語はどれでしょうか?

「認知の輪」を解読する：AIと人間の究極の戦い

人工知能とはいったい何でしょうか?映画の中で人類の支配は起こるのでしょうか？答えはここにあります

なぜAlipayは携帯電話の闇市場に関与しないのでしょうか?公式回答: 犯罪者は顔認識を突破できない

シンボリック人工知能、シンボリックAIの利点と限界について学びます

AIの恋人の唆しでエリザベス女王暗殺未遂の罪で懲役9年の判決を受けた男

推薦する

人工知能アルゴリズムが核融合の応用に一歩近づく

世界的な食糧危機に対処するため、AI、5G、マシンビジョンが力を合わせて「魚を育てる」

アナリスト：生成AIは過大評価されており、関連業界は2024年に「冷え込む」と予想されている

ドローン配送業界は明るい未来を秘めているが、発展は遅い

51CTO 開発者コンペティション決勝ロードショー + 専門家による共有

AI開発者のための7つの倫理ガイドライン

Pika 1.0 はアニメーション業界に完全な革命をもたらします!ドリームワークスの創設者は、3年後にはアニメーションのコストが10分の1に下がると予測

複雑なクエリと集計操作の実装: MongoDB データベースでの Java の応用