マルチモーダルな大型モデルの幻覚が 30% 減少しました。 USTCらが初の錯視補正フレームワーク「Woodpecker」を提案

マルチモーダルな大型モデルの幻覚が 30% 減少しました。 USTCらが初の錯視補正フレームワーク「Woodpecker」を提案

視覚幻覚は、マルチモーダル大規模言語モデル (MLLM) でよく見られる典型的な問題です。

簡単に言えば、モデルによって出力された説明が画像の内容と一致しません。

下の画像には 2 つの錯視が示されています。赤い部分は犬の色を誤って表現しており (属性錯視)、青い部分は画像内に実際には存在しないものを表現しています (対象錯視)。

幻覚はモデルの信頼性に重​​大な悪影響を及ぼすため、多くの研究者の注目を集めています。

これまでの方法では、トレーニング データとアーキテクチャを改善し、微調整して新しい MLLM をトレーニングすることで、主に MLLM 自体に重点が置かれていました。

ただし、このアプローチでは、データ構築とトレーニングのオーバーヘッドが大きくなり、さまざまな既存の MLLM に拡張することが困難になります。

最近、USTC やその他の機関の研究者は、MLLM 出力幻覚の問題を修正によって解決するために、 「Woodpecker」と呼ばれるトレーニング不要のプラグアンドプレイの汎用アーキテクチャを提案しました。

論文アドレス: https://arxiv.org/pdf/2310.16045.pdf

プロジェクトアドレス: https://github.com/BradyFU/Woodpecker

エフェクト表示

具体的には、Woodpecker はさまざまなシナリオでモデルが出力した幻覚を修正し、対応するターゲットが存在することを示す証拠として検出ボックスを出力します。

たとえば、説明タスクに直面したとき、Woodpecker は幻覚を修正できます。

MLLM では検出が難しい小さな物体についても、Woodpecker は正確に補正することができます。

Woodpecker は、MLLM では解決が難しい複雑なカウント シナリオも解決できます。

Woopecker は、ターゲット属性クラスの幻覚問題も非常にうまく処理します。

さらに、Woodpecker は読者がテストできるデモも提供しています。

下図のように、画像をアップロードしてリクエストを入力すると、修正前と修正後のモデルレスポンスと、参考検証用の新しい画像を取得できます。

方法

Woodpecker のアーキテクチャは次の通りで、キーコンセプトの抽出、質問の構築、視覚的な知識の検証、視覚的なアサーションの生成、幻覚の修正という 5 つの主要なステップで構成されています。

- キーコンセプトの抽出

重要な概念は、上記の説明にある「自転車、ゴミ箱、人」など、MLLM の出力に最も幻覚の可能性が高いターゲットが存在することを指します。

Prompt 言語モデルを使用すると、後続のステップの基礎となるこれらの重要な概念を抽出できます。

- 疑問文の構成

前のステップで抽出された主要な概念に基づいて、Prompt 大規模言語モデルは、「写真には何台の自転車がありますか?」、「ゴミ箱の隣には何がありますか?」など、画像の説明の信憑性を検証するのに役立ついくつかの質問をします。

- 視覚的知識テスト

質問は、画像と説明文に関連する情報を取得するために、視覚的根拠モデルを使用してテストされます。

たとえば、GroundingDINO を使用してオブジェクト検出を実行し、キー オブジェクトが存在するかどうか、およびキー オブジェクトの数を判断できます。 GroundingDINO などの Visual Basic モデルは、MLLM 自体よりも強力な画像認識機能を備えているためです。

ターゲットカラーなどの属性に関する質問には、BLIP-2 を使用して回答できます。 BLIP-2 などの従来の VQA モデルでは、出力される回答の長さが制限されており、幻覚に関する質問も少なくなっています。

- 視覚的なアサーションの生成

最初の 2 つのステップで得られた質問と対応する視覚情報に基づいて、構造化された「視覚的アサーション」を統合します。これらの視覚的なアサーションは、元の MLLM の回答と入力画像に関連する視覚的な知識ベースとして見ることができます。

- 幻覚の修正

これまでの結果を踏まえ、大規模言語モデルを用いてMLLMのテキスト出力を一つずつ修正し、対象に対応する検出ボックス情報を目視検査の参考として提供します。

実験結果

この実験では、LLaVA、mPLUG-Owl、Otter、MiniGPT-4 など、いくつかの典型的な MLLM をベースラインとして選択しました。

この論文では、まず Woodpecker のターゲット幻覚を修正する能力をテストしました。POPE 検証セットでの実験結果を次の表に示します。

結果は、異なる MLLM に Woodpecker 補正を適用すると、異なる程度の改善が達成できることを示しています。

ランダム設定では、Woodpecker は精度指標において MiniGPT-4 と mPLUG-Owl にそれぞれ 30.66% と 24.33% の改善をもたらします。

さらに、研究者らは、より包括的な検証セットである MME を適用して、Woodpecker の属性幻覚を修正する能力をさらにテストしました。結果は次の表に示されています。

表から、Woodpecker はターゲット錯覚に対処するのに効果的であるだけでなく、色などの属性錯覚の修正にも優れていることがわかります。 LLaVAのカラースコアは78.33ポイントから155ポイントに大幅に向上しました!

Woodpecker 補正後、4 つのテスト サブセット上の 4 つのベースライン モデルの合計スコアはすべて 500 ポイントを超え、全体的な認識能力が大幅に向上しました。

修正のパフォーマンスをより直接的に測定するには、オープン評価を使用するのがより直接的なアプローチです。

画像を翻訳してプレーンテキストの GPT-4 に取り込むというこれまでの方法とは異なり、この記事では、OpenAI が最近公開したビジュアル インターフェイスを使用し、GPT-4 (Vision) を使用して、修正前と修正後の画像の説明の次の 2 つの次元を直接スコアリングすることを提案しています。

- 精度: 画像の内容に対するモデルの応答はどの程度正確ですか?

- 詳細レベル: モデルの応答の詳細の豊富さ

実験条件下での実験結果は次の表に示されています。

結果は、Woodpecker 補正後に画像の説明の精度が向上したことを示しており、フレームワークが説明の幻覚部分を効果的に修正できることを示しています。

一方、Woodpecker 補正によって導入された位置情報は、テキストの説明を充実させ、さらなる位置情報を提供するため、詳細の豊富さが向上します。

GPT-4V を活用した評価サンプルを下図に示します。

興味のある読者は、論文を読んで詳細を知ることができます。

<<:  ワークスペースデザインの未来: AI、3Dウォークスルー、リアルタイムコラボレーション

>>:  海外のJavaエンジニアがGPT-4が論理パズルを解くことはできないが推論能力はあることを証明

ブログ    

推薦する

ロボットは「赤ちゃんを作る」こともできる:世界初の生きたロボットが生命の新たな繁殖方法を生み出す

[[437620]]彼らは何百もの自由細胞を集めて、「パックマン」の形をした「口」の中に「次世代」を...

AI体温測定:仕事再開の波の中で構築された最初の防疫「障壁」

[51CTO.comより] 業務を再開する企業が相次ぐ中、新型コロナウイルス肺炎の流行は「輸入症例...

人工知能の時代では、機械学習とAIアルゴリズムが「80/20ルール」を変えるだろう

[[186517]]ハーバード・ビジネス・レビューは、機械学習と AI アルゴリズムの進歩により、私...

...

ByteDance、最大6.9倍のパフォーマンス向上を実現した大規模モデルトレーニングフレームワークveGiantModelをオープンソース化

背景近年、NLPの応用分野では大きな進歩がありました。Bert、GPT、GPT-3などの超大規模モデ...

...

目標駆動型システムモデルは、人工汎用知能 (AGI) を実現するための鍵となるでしょうか?

人工知能の登場以来、研究者たちはロボットに人間とゲームをさせることで機械システムの知能をテストしよう...

最高年収は約56万! 2023年の最新のAIGC雇用動向レポートが発表されました

言うまでもなく、ChatGPT が過去 6 か月間でどれほど人気が​​あったかは誰もが知っています。...

...

会話型AIが顧客体験を向上させる方法

[[380661]] [51CTO.com クイック翻訳] 会話型 AI により、アプリケーションは...

AI 生成コードを使ってみませんか?人気のコパイロットの「リスク評価」を実施した人がいた

[[412069]]最近、GitHub は、人工知能を使用してコードを合成するモデルを生成する Co...

ボストンダイナミクス「人間と犬のダンス」:PK韓国ボーイズバンド、ロボットダンスの神グループが登場

[[408381]]ロボット犬とボーイズバンドが一緒に「ダンス」すると、どんな火花が散るのでしょうか...

本物そっくりの「人工顔」は顔認識を騙せるのか?

[[360561]]過去数年間に自分の写真をオンラインに投稿したことがあれば、Clearview ...

過剰に防御的?モスクワのバス運転手は中国人乗客の身元を手動で確認し、顔認識システムの使用も許可されている。

最近、モスクワのバス運転手たちは少々パニックになっている。チャットグループでは、「バスの中でアジア人...

機械学習: TensorFlow 2.0 の 10 のヒント

この記事では、TensorFlow 2.0 の 10 の機能について説明します。 [[326673]...