大規模なマルチモーダル モデルの「幻覚」問題を解決するために、まだ命令の微調整を使用していますか? 例えば、下の写真では、モデルはオレンジ色のコーギーを「赤い犬」と勘違いし、周囲に他にも数匹いることを指摘しています。 写真 現在、USTC による調査で新たなアプローチが提案されています。 再トレーニングを必要とせず、プラグアンドプレイのユニバーサルアーキテクチャ。モデルによって与えられた誤ったテキストから直接開始し、可能性のある「幻覚」を「逆転」させてから、画像で事実を確認し、最終的に直接修正を完了します。 彼らはこの方法を「ウッドペッカー」と名付けました。 写真 最初に木のワームホールを見つけて、その中のワームを食べる、いわゆる「森の医者」と同じように、この記事で提案されている「キツツキ」も、マルチモーダルな大規模モデルの「幻覚」医者であり、最初に問題を診断し、次にそれらを一つずつ修正することができます。 結果は「医療技術は確かに優れている」であり、成功すれば次のようになります。 (1)MiniGPT-4の精度は54.67%から85.33%に向上した。 (2)mPLUG Owの精度は62%から86.33%に向上した。 下の図に示すように、検出が難しいさまざまな小さな物体や複雑なカウントのシナリオに対応できます。 写真 それで、具体的にはどのように診断されるのでしょうか? マルチモーダル LLM 幻覚の治療のための「ウッドペッカー法」現在、大規模モデルの幻覚問題に対する業界の解決策は、基本的に特定のデータを使用して指示を微調整することです。 たとえば、一部の大規模マルチモーダル モデル (MLLM) は、質問に答えるときに常に肯定的な回答を出す傾向があります (たとえば、ハゲの人の写真を見せられて、その人の髪の色を尋ねられた場合、即座に「黒」と答えます)。モデルに否定的なサンプルを含むデータを入力すると、「何もないところから何かを作り出す」という錯覚を解消し、存在しないものに遭遇したときに「いいえ」と言うようにすることができます。 指示を微調整するだけでなく、アーキテクチャの調整も行われます。いずれにしても、新しいモデルを再トレーニングする必要があります。 この記事で提案する「Woodpecker」フレームワークは、この操作なしで「幻覚」を解決する業界初の新しい方法です。 5つのステップに分かれており、それぞれが明確かつ透明性のある方法で設計されているため、説明性に優れています。 写真 具体的には: 最初のステップは、重要な概念を抽出することです。 これは、モデルによって与えられた回答に記載されている主な対象、つまり「幻想」を払拭する可能性が最も高い要素を見つけることを指します。 たとえば、下の写真の場合、マルチモーダル大規模モデルは、最初に写真のゴミ箱の横に自転車が停まっていることを説明し、さらに写真のゴミ箱の前を数人の人が歩いていることも説明します。 写真 つまり、自転車、ゴミ箱、そして人という 3 つの主要な概念が得られます。 2 番目のステップは問題の構築です。 つまり、重要な概念を習得した後、それに関していくつかの質問をすることで、「幻想」がどこにあるのかをテストするのに役立ちます。 主にオブジェクトレベルと属性レベルに分けられます。前者は「写真には自転車が何台ありますか?」と尋ねることができ、後者は「ゴミ箱はどこにありますか?」と尋ねることができます。 ここでは、属性に関する質問はコンテキストに大きく依存するため、著者はコンテキストのあるいくつかの例を使用してモデルを促し、質問がより意味のあるものになるようにしました。 3番目のステップは視覚的な検証です。 ガイドはエキスパート モデルを使用して、前のステップで提起されたすべての質問に答え、後続の修正を容易にします。 たとえば、オブジェクト レベルの問題の場合、GroundingDINO を使用してターゲット検出を実行し、主要なターゲットが存在するかどうか、および主要なターゲットの数を判断します。 属性問題の場合、BLIP-2 が使用されます。このタイプの従来の VQA モデルは、長さが制限された回答を出力し、「幻覚」の質問が少なくなります。 4 番目のステップは、視覚的なアサーションの生成です。 簡単に言えば、最初の 2 つのステップで得られた質問とそれに対応する視覚情報に基づいて、構造化された「視覚的アサーション」を合成することです。 形式は次のとおりです。 写真 ついに「幻想」が修正される。 つまり、前のステップの要約に基づいてモデルの元の出力を比較し、新しい答えを取得します。 具体的な実装フェーズでは、「Woodpecker」は GPT-3.5-turbo を使用して、主要な概念の抽出、質問、修正の最終ステップを完了します。 一部のマルチモーダル モデルはコマンド追従機能が弱いため、出力は無関係なテキスト (絵文字、特殊記号など) になる場合があります。また、一部のモデルでは「はい」または「いいえ」のみを出力する場合があり、実際の修正プロセスが困難になります。 ただし、次の 2 つの簡単な対策でこの問題を解決できます。 (1)モデルの「はい」または「いいえ」の回答と、キツツキの回答(「はい、画像には犬がいます」など)を組み合わせます。こうすることで、モデルが単に「はい」または「いいえ」を答えて訂正を逃れる心配がなくなります。 (2)校正の過程で、LLMがテキストと課題の要件をよりよく把握できるように、元の質問がLLMに追加されます。 効果検証:幻覚が30%減少方法全体は非常にわかりやすいようですが、効果はどうでしょうか? ここでは、POPE、MME、LLaVA-QA90 データセットに対して包括的な定量的および定性的な実験を実施します。 ベースライン モデルでは、次の 4 つの主流のマルチモーダル大規模モデルを使用します。 MiniGPT-4、mPLUG Owl、LLaVA、Otter。 最後に、POPE データセットの結果は次のとおりです。 (w/Ours は「Woodpecker」によって修正された MLLM 応答を示し、x は採用されていないこと、チェック マークは採用されていることを意味します) 「Woodpecker」は、モデルが「はい」と答える確率を大幅に減らしながら、これらのモデルにさまざまな程度の改善をもたらすことができることがわかります。 ランダム設定では、MiniGPT-4 と mPLUG-Owl の精度指標がそれぞれ 30.66% と 24.33% 向上しました。 写真 より包括的な MME データセットでは、Woodpecker は、オブジェクトおよび属性レベル、つまり何かが存在するかどうか、いくつあるか、その位置と色における大規模なマルチモーダル モデルの「幻覚」も効果的に削減します。 たとえば、LLaVA カラー スコアは 78.33 ポイントから 155 ポイントに大幅に増加しました。 写真 しかし、位置の「錯覚」の改善はそれほど大きくありません。著者は、これはVQAモデルBLIP-2の位置推論能力が比較的弱いことが原因ではないかと推測しています。 修正のパフォーマンスをより直接的に測定するには、オープン評価を使用するのがより直接的なアプローチです。 画像を翻訳してプレーンテキストの GPT-4 に取り込むという従来の方法とは異なり、著者らは OpenAI が最近公開したビジュアル インターフェイスを使用し、GPT-4V を使用して、修正前と修正後の画像の説明の次の 2 つの次元を直接スコアリングすることを提案しています。 (1)正確性:モデルの応答が画像の内容に対して正確であるかどうか。 (2)詳細レベル:モデルの応答の詳細の豊富さ。 この実験条件下での実験結果は次の表に示されています(満点は 10 です)。 写真 結果は、「Woodpecker」によって修正された後、画像の説明の精度が向上したことを示しており、これはフレームワークが説明の幻覚部分を効果的に修正できることを意味します。 一方、「Woodpecker」修正によって導入された位置情報は、テキストの説明を充実させ、さらなる位置情報を提供することで、詳細の豊かさを向上させます。 GPT-4V を活用した評価サンプルを下図に示します。 写真 試してみる誰でもテストできるデモもあります。 下図のように、画像をアップロードしてリクエストを入力すると、修正前と修正後のモデルレスポンスと、参考検証用の新しい画像を取得できます。 Woopecker 紙の住所: |
<<: 新しい研究:ハトは人工知能と同様の方法で問題を解決する
>>: 英国の消費者団体が警告:AIチャットボットがオンライン詐欺をよりプロフェッショナル化
[[252981]]ビッグデータダイジェスト制作編纂者:李磊、大潔瓊、雲周過去数年間にブラウザを開い...
OpenAIは2022年11月にChatGPTをリリースし、その後Microsoftから100億ド...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[440972]] 「秋名山には人が少なく、ドライバー同士が競争することが多い。今は自動運転車が...
GMIリサーチの最新分析によると、人工知能市場は2019年から2026年の予測期間中に年平均成長率(...
近年、人工肉は急速に発展していますが、本物の肉と比較すると、味や食感にはまだ明らかな差があります。最...
新しいテクノロジー、特に人工知能 (AI) の急速な台頭により、教育と指導は大きな変化の瀬戸際にあり...
[[279803]] △『小林さんちのメイドラゴン』よりこの記事はAI新メディアQuantum Bi...
Web3.0 の最も特別な点は、ユーザーが作成したデジタル コンテンツの所有権と管理権がユーザーに...
映画鑑賞の夜に快適なアームチェアに腰を下ろすと、プロジェクターが起動し、スマートライトが自動的に暗く...
「教育は人材を育成する長期的な取り組みなので、将来を見据えたものであるべきだ。」先日開催された人工...
[[264418]]職場で機械が人間の労働に取って代わるようになるにつれ、私たち全員が機械から利益...