マルチモーダル LLM 幻覚問題が 30% 減少しました!業界初の「キツツキ」無重力トレーニング法が誕生

大規模なマルチモーダルモデルの「幻覚」問題を解決するために、まだ命令の微調整を使用していますか?

例えば、下の写真では、モデルはオレンジ色のコーギーを「赤い犬」と勘違いし、周囲に他にも数匹いることを指摘しています。

写真

現在、USTC による調査で新たなアプローチが提案されています。

再トレーニングを必要とせず、プラグアンドプレイのユニバーサルアーキテクチャ。モデルによって与えられた誤ったテキストから直接開始し、可能性のある「幻覚」を「逆転」させてから、画像で事実を確認し、最終的に直接修正を完了します。

彼らはこの方法を「ウッドペッカー」と名付けました。

写真

最初に木のワームホールを見つけて、その中のワームを食べる、いわゆる「森の医者」と同じように、この記事で提案されている「キツツキ」も、マルチモーダルな大規模モデルの「幻覚」医者であり、最初に問題を診断し、次にそれらを一つずつ修正することができます。

結果は「医療技術は確かに優れている」であり、成功すれば次のようになります。

（１）MiniGPT-4の精度は54.67％から85.33％に向上した。

（２）mPLUG Owの精度は62％から86.33％に向上した。

下の図に示すように、検出が難しいさまざまな小さな物体や複雑なカウントのシナリオに対応できます。

写真

それで、具体的にはどのように診断されるのでしょうか?

マルチモーダル LLM 幻覚の治療のための「ウッドペッカー法」

現在、大規模モデルの幻覚問題に対する業界の解決策は、基本的に特定のデータを使用して指示を微調整することです。

たとえば、一部の大規模マルチモーダルモデル (MLLM) は、質問に答えるときに常に肯定的な回答を出す傾向があります (たとえば、ハゲの人の写真を見せられて、その人の髪の色を尋ねられた場合、即座に「黒」と答えます)。モデルに否定的なサンプルを含むデータを入力すると、「何もないところから何かを作り出す」という錯覚を解消し、存在しないものに遭遇したときに「いいえ」と言うようにすることができます。

指示を微調整するだけでなく、アーキテクチャの調整も行われます。いずれにしても、新しいモデルを再トレーニングする必要があります。

この記事で提案する「Woodpecker」フレームワークは、この操作なしで「幻覚」を解決する業界初の新しい方法です。

5つのステップに分かれており、それぞれが明確かつ透明性のある方法で設計されているため、説明性に優れています。

写真

具体的には：

最初のステップは、重要な概念を抽出することです。

これは、モデルによって与えられた回答に記載されている主な対象、つまり「幻想」を払拭する可能性が最も高い要素を見つけることを指します。

たとえば、下の写真の場合、マルチモーダル大規模モデルは、最初に写真のゴミ箱の横に自転車が停まっていることを説明し、さらに写真のゴミ箱の前を数人の人が歩いていることも説明します。

写真

つまり、自転車、ゴミ箱、そして人という 3 つの主要な概念が得られます。

2 番目のステップは問題の構築です。

つまり、重要な概念を習得した後、それに関していくつかの質問をすることで、「幻想」がどこにあるのかをテストするのに役立ちます。

主にオブジェクトレベルと属性レベルに分けられます。前者は「写真には自転車が何台ありますか？」と尋ねることができ、後者は「ゴミ箱はどこにありますか？」と尋ねることができます。

ここでは、属性に関する質問はコンテキストに大きく依存するため、著者はコンテキストのあるいくつかの例を使用してモデルを促し、質問がより意味のあるものになるようにしました。

3番目のステップは視覚的な検証です。

ガイドはエキスパートモデルを使用して、前のステップで提起されたすべての質問に答え、後続の修正を容易にします。

たとえば、オブジェクトレベルの問題の場合、GroundingDINO を使用してターゲット検出を実行し、主要なターゲットが存在するかどうか、および主要なターゲットの数を判断します。

属性問題の場合、BLIP-2 が使用されます。このタイプの従来の VQA モデルは、長さが制限された回答を出力し、「幻覚」の質問が少なくなります。

4 番目のステップは、視覚的なアサーションの生成です。

簡単に言えば、最初の 2 つのステップで得られた質問とそれに対応する視覚情報に基づいて、構造化された「視覚的アサーション」を合成することです。

形式は次のとおりです。

写真

ついに「幻想」が修正される。

つまり、前のステップの要約に基づいてモデルの元の出力を比較し、新しい答えを取得します。

具体的な実装フェーズでは、「Woodpecker」は GPT-3.5-turbo を使用して、主要な概念の抽出、質問、修正の最終ステップを完了します。

一部のマルチモーダルモデルはコマンド追従機能が弱いため、出力は無関係なテキスト (絵文字、特殊記号など) になる場合があります。また、一部のモデルでは「はい」または「いいえ」のみを出力する場合があり、実際の修正プロセスが困難になります。

ただし、次の 2 つの簡単な対策でこの問題を解決できます。

（１）モデルの「はい」または「いいえ」の回答と、キツツキの回答（「はい、画像には犬がいます」など）を組み合わせます。こうすることで、モデルが単に「はい」または「いいえ」を答えて訂正を逃れる心配がなくなります。

（２）校正の過程で、LLMがテキストと課題の要件をよりよく把握できるように、元の質問がLLMに追加されます。

効果検証：幻覚が30％減少

方法全体は非常にわかりやすいようですが、効果はどうでしょうか?

ここでは、POPE、MME、LLaVA-QA90 データセットに対して包括的な定量的および定性的な実験を実施します。

ベースラインモデルでは、次の 4 つの主流のマルチモーダル大規模モデルを使用します。

MiniGPT-4、mPLUG Owl、LLaVA、Otter。

最後に、POPE データセットの結果は次のとおりです。

(w/Ours は「Woodpecker」によって修正された MLLM 応答を示し、x は採用されていないこと、チェックマークは採用されていることを意味します)

「Woodpecker」は、モデルが「はい」と答える確率を大幅に減らしながら、これらのモデルにさまざまな程度の改善をもたらすことができることがわかります。

ランダム設定では、MiniGPT-4 と mPLUG-Owl の精度指標がそれぞれ 30.66% と 24.33% 向上しました。

写真

より包括的な MME データセットでは、Woodpecker は、オブジェクトおよび属性レベル、つまり何かが存在するかどうか、いくつあるか、その位置と色における大規模なマルチモーダルモデルの「幻覚」も効果的に削減します。

たとえば、LLaVA カラースコアは 78.33 ポイントから 155 ポイントに大幅に増加しました。

写真

しかし、位置の「錯覚」の改善はそれほど大きくありません。著者は、これはVQAモデルBLIP-2の位置推論能力が比較的弱いことが原因ではないかと推測しています。

修正のパフォーマンスをより直接的に測定するには、オープン評価を使用するのがより直接的なアプローチです。

画像を翻訳してプレーンテキストの GPT-4 に取り込むという従来の方法とは異なり、著者らは OpenAI が最近公開したビジュアルインターフェイスを使用し、GPT-4V を使用して、修正前と修正後の画像の説明の次の 2 つの次元を直接スコアリングすることを提案しています。

（１）正確性：モデルの応答が画像の内容に対して正確であるかどうか。

（２）詳細レベル：モデルの応答の詳細の豊富さ。

この実験条件下での実験結果は次の表に示されています（満点は 10 です）。

写真

結果は、「Woodpecker」によって修正された後、画像の説明の精度が向上したことを示しており、これはフレームワークが説明の幻覚部分を効果的に修正できることを意味します。

一方、「Woodpecker」修正によって導入された位置情報は、テキストの説明を充実させ、さらなる位置情報を提供することで、詳細の豊かさを向上させます。

GPT-4V を活用した評価サンプルを下図に示します。

写真

試してみる

誰でもテストできるデモもあります。

下図のように、画像をアップロードしてリクエストを入力すると、修正前と修正後のモデルレスポンスと、参考検証用の新しい画像を取得できます。

Woopecker 紙の住所:
https://arxiv.org/abs/2310.16045 Woopecker コードアドレス: https://github.com/BradyFU/Woodpecker

<<: 新しい研究：ハトは人工知能と同様の方法で問題を解決する

>>: 英国の消費者団体が警告：AIチャットボットがオンライン詐欺をよりプロフェッショナル化

電子商取引用に作成されたナレッジグラフは、ユーザーのニーズをどのように感知するのでしょうか?

マルチモーダル LLM 幻覚問題が 30% 減少しました!業界初の「キツツキ」無重力トレーニング法が誕生

マルチモーダル LLM 幻覚の治療のための「ウッドペッカー法」

効果検証：幻覚が30％減少

試してみる

電子商取引用に作成されたナレッジグラフは、ユーザーのニーズをどのように感知するのでしょうか?

AIが別のAIに命令する、GAN+CLIPの組み合わせで「CGアーティスト」に

顔認識システムに関するよくある質問8つ

人工知能が再び大学入試に挑戦：AIはエッセイの書き手と比べて何点取れるのか？

ドローンによる空中撮影は野生の人々に迷惑をかけている、問題解決の鍵はここにある

2022 年に AI が組織のランサムウェア防御を強化する方法

機械学習クラウドプラットフォームにはどのような機能が必要ですか?

Baidu Brainのインテリジェント会話エンジンが9つのコア機能のリリースで「警笛を鳴らす」

Google、AIの地位強化のためデータサイエンスコミュニティKaggleの買収を発表

推薦する

AIGC教育産業パノラマレポート：AIティーチングアシスタントと家庭教師が現実のものとなり、学習マシンが新たな機会をもたらす

Nvidiaが自動運転AIアルゴリズムをオープンソース化、チップ性能をXavierの7倍にアップグレード

自動運転のスケールアップ問題

エントロピーを理解する: 機械学習のゴールドスタンダード

最新の電子皮膚が本物の痛みを与え、切断者の触覚回復を助ける

韓国メディア：中国の技術発展は速すぎて米国を脅かしており、米国から制裁を受けるだろう

5つのリソースカテゴリー：大規模言語モデルのリソース効率を向上させる方法、超詳細なレビューはこちら

ディープラーニングとツリー探索によるゼロからの高速学習と低速学習

ガートナー：2021年までに70%の組織が従業員の生産性向上にAIを活用する

2022年の7つの最先端技術：量子シミュレーションと標的遺伝子治療