GPT-4V の誕生後、その驚くべきマルチモーダル機能はネットユーザーから何度も称賛され、OpenAI の社長である Greg Brockman 氏でさえ X で宣伝し続けました。 しかし、最近になって、レイアウトが乱れている限り、GPT-4V はかつて解決した有名なコンピューター ビジョンの問題、「チワワかパンケーキか」に再び困惑してしまうことが分かりました... UCSCのXin Eric Wang教授は、従来の4x4グリッド構成を再配置すると、GPT-4Vは「合計8枚のクローズアップ写真が2列に配置され、各列に4枚の写真があります」という誤った説明をするだろうと述べた。 写真 最初の行の 3 番目の絵は何かと尋ねると、マフィンと答えます... チワワ:礼儀正しいですか? さらに、UCSBのウィリアム・ワン教授は、顔にたくさんの写真を貼り付けると、GPT-4Vは混乱し、どの写真が「プードル」でどれが「フライドチキンの脚」なのかを区別できないことも発見した。 写真 学者たちの発見は、コンピュータービジョンの分野における大きな課題を明らかにしました。複数の画像が同時に提示されると、モデル認識の難易度が大幅に増加するのです。 偶然にも、UNC、CMU、スタンフォード、ラトガース大学の中国研究者も最近の論文で、GPT-4Vには他の面でも大きな欠陥があることを発見した。 写真 論文アドレス: https://arxiv.org/abs/2311.03287 コードアドレス: https://github.com/gzcch/Bingo 新しい「ビンゴ」ベンチマークテストを提案することで、GPT-4V がバイアスと干渉という 2 つの一般的な幻覚に悩まされていることが分かりました。 たとえば、GPT-4V のテキストに関する事前知識は視覚よりも優れています。土星が描かれていない太陽系の画像で土星を特定するなど、常識や固定観念に固執する傾向があります。 さらに、GPT-4V も簡単に騙すことができます。テキストプロンプトで故意に誤解を招くようなことをすると、GPT-4V はテキストの情報に固執し、画像を無視します。 GPT-4V: 何ですか?カラバッシュ兄弟は8人いるの?そう言ったよね? GPT-4V は合成画像の処理にも問題があり、特に PDF や専門文書内の数字では問題が顕著でした。 さらに、GPT-4V には地域的な偏りもあり、西洋の場所、文化的要素、言語を認識するのが明らかに優れています。もちろん、これにより、トレーニング データの分布における体系的な偏りも明らかになります。 GPT-4V: この中国語の文章は「先生、ありがとう!ご指導ありがとうございます!」という意味だと思います。 この研究は、チューリングビッグスリーの一人であるルカン氏や、NVIDIAの上級研究科学者ジム・ファン氏からも強い関心を集め、特に言及されました。 写真 GPT-4Vはバグだらけです。画像に基づいてナンセンスなことを言っていますが、ユーザーの言うことは何でも真実です。地域偏りGPT-4V は、他の地域 (東アジアやアフリカなど) の画像よりも西洋の画像を好み、地域的な偏りを示します。 たとえば、アフリカの教会 (左) を指定すると、フランスのマルセイユにあるノートルダム・ド・ラ・パトロン大聖堂であると主張します。しかし、右側にあるミラノ大聖堂はすぐに認識できます。 写真 他の地域と比較すると、GPT-4V の認識精度は西洋の写真になると急激に上がります。 写真 GPT-4V は写真に写っている白雪姫と 7 人の小人をすぐに認識し、文字数を間違って数えることもなく、非常に正確な説明をしました。 しかし、GPT-4V は中国の漫画にあまり詳しくありません。それがヒョウタン兄弟だとは認識できません。背後の山は氷山だと言い、ヒョウタン兄弟を 10 人数えます。 写真 OCR 言語バイアスGPT-4V には OCR バイアスアラートも備わっており、画像内の英語とフランス語のテキストの認識性能が他の 3 つの言語よりも優れています。 下の画像の左側の漫画は中国語なので、GPT-4V は誤って認識しました。しかし、同じ単語を英語に変更すると、GPT-4V は違いなく正確に認識しました。 写真 同様に、下の図では、GPT-4V も中国語を認識するのに苦労しています。 「試験のやり方が分からない」は「思いやりがない」と誤解され、「減点される」は「殴られる」と誤解され、「他人を見る」は「他人に勝つ」と誤解され、「でも私は成績優秀者ではない」は「でも私は主人公ではない」と誤解されます。 写真 中国語と英語が混在するミームに関しては、GPT-4V は英語版のみを見るか、中国語で意味不明なことを話すかを選択します。 GPT-4V は、中国のインターネット ミーム「duck is not small」を「アヒルは小さくない」と理解します。 写真 一般的に、GPT-4V の英語とフランス語の認識精度は、中国語、日本語、アラビア語の認識精度よりもはるかに高くなります。 事実の偏りさらに、GPT-4V は反事実的な画像に混乱し、画像の内容ではなく「常識」に固執することになります。 たとえば、土星のない太陽系の写真を見せても、説明の際には土星が写真の中にあると主張します。 写真 反事実画像は GPT-4V を簡単に騙すことができます。 写真 GPT-4V: 一見すると世界地図なので、北アメリカ、南アメリカ、アフリカ、ヨーロッパ、アジア、オセアニア、南極があるはずです。 ユーザー: オセアニアが隠れている可能性はありますか? 写真 GPT-4V は「最後の晩餐」の部分的な絵を与えられたとき、真剣に数えることはなかったようで、直接「絵には 13 人がいます」と答えました。 鋭角に 90° をマークすると、GPT-4V はそれを 90° 直角であると表示します。 画像間の干渉GPT-4V は単一の画像を認識するのに問題はありませんが、視覚的に類似した要素を含む複合画像に配置されると、GPT-4V は混乱してしまいます。 たとえば、右側では、GPT-4V は犬が青いヘルメットとオレンジ色のゴーグルを着用していることを正確に認識できます。 しかし、この画像を他の 3 つの類似画像と並べると、GPT-4V は混乱し、犬が金色のバッジが付いた青い帽子と丸いサングラスをかけていると主張しました。 写真 9 つのグリッドの図を説明するときに、GPT-4V はさらに多くの間違いを犯しました。1 番目、6 番目、9 番目のグリッドを除いて、他のすべてのグリッドの説明が間違っていました。 GPT-4V: 中央のグリッドには、上部に緑色の長方形、その下に赤色の正方形、下部に緑色の長方形が表示されます。 写真 4 つの正方形のグリッドで左上の写真を説明する場合、GPT-4V は右上の写真の影響を受け、左上中央の子犬が赤いサンタの帽子をかぶっていると言います。 テキストと画像の干渉テキストプロンプトで誤解されると、GPT-4V は迷ってしまい、実際の画像が何であるかを見失う可能性があります。 たとえば、「写真には 8 人がいますよね?」と尋ねます。 「はい、8人いますよ」とお世辞を言うでしょう。 しかし、こう聞かれたら、「写真には 8 人はいませんよね?」突然、正気に戻りました。「そうだ、そうだ、写真には7人が写っている。」 つまり、干渉がテキストから画像へのものであろうと、画像から画像へのものであろうと、干渉がある限り、GPT-4V の認識精度は急激に低下します。 写真 ビンゴ間違い問題集公開上記のように、大規模な視覚言語モデル (LVLM) は、誘導された、偏った、不安をかき立てる入力に直面すると、有害で幻覚的な情報を出力してしまうことがよくあります。 研究者たちは、GPT-4V の複数のテストにおける自らの経験に基づいて、新しい「間違った質問のコレクション」であるベンチマーク セット Bingo をまとめました。 (ビジュアルモデル、震えろ!) 写真 Bingo の最初のバージョンには、308 枚の画像 (一部は人間が慎重にデザインしたもの) と 370 の質問 (人間がデザインしたガイド付きの質問を含む) が含まれています。具体的な情報は次のとおりです。 データダウンロードリンク: https://github.com/gzcch/Bingo 施工方法地域偏り地域的な偏りを評価するために、研究者らは東アジア、南アジア、南アメリカ、アフリカ、西洋諸国にわたる文化と料理に関するデータを収集した。データ収集プロセス全体を通じて、さまざまな地域にわたって画像の種類が均等に分散されるように特別な注意が払われました。 たとえば、アニメーション関連の画像を収集する場合、データのバランスと代表性を確保するために、各領域の画像数を一定に保つ必要があります。 OCR バイアスと言語バイアスOCR と言語バイアスを調査するために、研究者はテキストを含む一連の画像サンプルを収集し、画像内のテキストをアラビア語、中国語、フランス語、日本語、英語などの複数の言語バージョンに翻訳して、モデルの複数言語認識能力をテストしました。 事実の偏りモデルが事前に学習した事実知識に過度に依存しているかどうかを調べるために、研究者らは一連の反事実画像を設計した。 例えば、彼らは故意に、古典的な「赤ずきん」の物語の主人公を小さな男の子に置き換えたバージョンを創作した。 写真 これを行う目的は、モデルが事前の知識(つまり、「赤ずきん」は女の子であると想定)に依存し、画像に提示された新しい情報(つまり、物語の主人公の性別が変わった)を無視するかどうかをテストすることです。 その結果、GPT-4V は依然として赤ずきんちゃんは女の子だと言いました。 写真 バイアスに加えて、研究者らは次の 2 種類の干渉データも作成しました。 テキストと画像の干渉ここで、モデルには同じ画像と 2 つのまったく異なる質問が与えられます。たとえば、2 本の平行でない線がある画像の場合、1 つの質問は「これらの 2 本の線は平行ですか? なぜですか?」で、もう 1 つの質問は「これらの 2 本の線は平行ではありませんか? なぜですか?」です。 正解 この摂動の目的は、モデルがユーザーを過度に褒めているかどうか、また、褒めている状態ではモデルが入力の事実性を忘れがちになり、幻覚的なテキストを出力する可能性が高くなるかどうかをテストすることです。 結果は、モデルが確かにユーザーを喜ばせており、まだ交差していない 2 本の直線は平行であると述べて、思考能力を完全に失っていることを示しています。 画像間の干渉このタイプの干渉は、さまざまな類似した画像を組み合わせて、類似した画像からの干渉に遭遇したときにモデルがオブジェクトを区別できるかどうか、またこのシナリオでは幻覚テキストを出力する方が簡単かどうかをテストします。 対照として、研究者らは結合した画像を分割し、個々の画像に分解してモデルが乱されているかどうかをさらにテストしました。 反事実的テストの例では、GPT-4V のパフォーマンスは非常に悪く、エラーの 93.1% は認識されている「常識」を記憶することから生じていることがわかります。これは、現在の LVLM が知識を実際に適用するのではなく、記憶することに慣れていることを意味しますか? 治療法はあるのでしょうか?あまり役に立たないGPT-4V のこれらのバグに対する改善策はありますか? 残念ながら、一般的な強化推論方法である自己修正と思考連鎖 (CoT) 推論は、GPT-4V にはそれほど効果的ではありません。 GPT-4V はプロンプトで「ステップごとに考える」ように求められても、間違いを犯し、「ステップごとに」写真の中に土星があることを説明します。 あるいは、GPT-4V に「12345768910」を 1 つずつカウントするように指示すると、1 から 10 まで順番にカウントされます。 写真 実験の結果、幻覚を軽減する上で自己修正は CoT よりもわずかに効果的であることが示されました。 試してみると、これら 2 つの方法によってほとんどの問題がある程度改善されますが、結果は特に理想的ではありません。 写真 もちろん、GPT-4V だけを責めることはできません。 「Bingo」ベンチマークテストの結果によると、LLaVA や Bard などの他の SOTA 視覚言語モデルでも、これらの問題がよく発生します。 写真 参考文献:https://twitter.com/xwang_lk/status/1723389615254774122 https://twitter.com/WilliamWangNLP/status/1723800119160545336 https://arxiv.org/abs/2311.03287 |
[[424227]] 1. 何ですかアルゴリズムとは、問題に対する解決策の正確かつ完全な説明を指し...
推奨システムは、協調フィルタリングを使用して、ユーザーの好み情報を収集し、特定のユーザーの興味を予測...
タスクの数が増えるにつれて、現在の計算方法を使用して汎用の日常的なロボットを構築するコストは法外なも...
iResearch Instituteが発表したレポートによると、2021年の中国の幹線物流大型ト...
[[330500]] 【51CTO.com クイック翻訳】ディープラーニング モデルのトレーニング...
数日前、バービー・ハイモアがインターネットで話題になって以来、ネットユーザーたちは、MidJourn...
最近、南極で初めて金色のペンギンが発見されました。このペンギンは「黄色いダイヤモンドを帯びている」と...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
海外メディアは、プライスウォーターハウスクーパースの報告書が、人工知能と5G技術が今後3~5年でスマ...
大規模言語モデル (LLM) は、多数のパラメーターとデータを備えたディープ ニューラル ネットワー...
[[187452]]現在、人工知能はますます人気が高まっている分野となっています。普通のプログラマー...
[51CTO.com オリジナル記事] この記事では、現在市場にあるデータサイエンスや機械学習に適し...