人間の日常的なコミュニケーションでは、場面内のさまざまな領域や物体に焦点が当てられることが多く、これらの領域を話したり指さしたりすることで効率的に情報を交換することができます。この対話モードは参照対話と呼ばれます。 MLLM がこのスキルに優れていれば、多くのエキサイティングなアプリケーションが生まれるでしょう。例えば、Apple Vision Proなどの複合現実(XR)グラスに適用すると、ユーザーは視線を使って何かを指したり、AIに話しかけたりできるようになります。同時に、AI はハイライト表示などの形式を通じて特定の領域を指し示し、ユーザーとの効率的なコミュニケーションを実現することもできます。 本論文で提案されている Shikra モデルは、位置入力を理解し、位置出力を生成できる参照対話機能を MLLM に提供します。 写真
主なハイライトShikra は、ユーザーが入力したポイント/バウンディングボックスを理解し、ポイント/バウンディングボックスの出力をサポートし、人間との参照対話をシームレスに行うことができます。 Shikra は、追加の位置エンコーダ、前面/背面オブジェクト検出器、外部プラグイン モジュール、さらには追加の語彙さえも必要としない、シンプルでステッチのない設計です。 写真 上図のように、Shikraはユーザーの入力の位置づけ領域を正確に把握し、出力では入力時とは異なる領域を参照してコミュニケーションできるため、人間と同じように会話や位置づけを通じて効率的にコミュニケーションを行うことができます。 写真 上図に示すように、Shikra は LLM の基本的な常識をすべて備えているだけでなく、位置情報に基づいて推論を行うこともできます。 写真 上の画像に示すように、Shikra は画像内で何が起こっているかの詳細な説明を生成し、参照オブジェクトの正確な配置を作成できます。 Shikra は OCR データセットについて特別にトレーニングされているわけではありませんが、基本的な OCR 機能も備えています。 その他の例 写真 その他の伝統的な作業 方法モデルアーキテクチャは、ビジュアルバックボーンとしてCLIP ViT-L/14を使用し、基本言語モデルとしてVicuna-7/13Bを使用し、線形マッピングのレイヤーを使用してCLIPとVicunaの特徴空間を接続します。 Shikra は、自然言語の数字を直接使用してオブジェクトの位置を表し、[xmin、ymin、xmax、ymax] を使用して境界ボックスを表し、[xcenter、ycenter] を使用して領域の中心点を表します。領域の xy 座標は、画像サイズに応じて正規化されます。デフォルトでは、各数値の小数点以下は 3 桁になります。これらの座標は、モデルの入力シーケンスと出力シーケンスのどこにでも出現する可能性があります。座標を記録するための角括弧も文章中に自然に現れます。 実験結果Shikra は、従来の REC、VQA、キャプション タスクで優れたパフォーマンスを実現できます。同時に、位置入力の理解を必要とする PointQA-Twice や Point-V7W などの VQA タスクでも SOTA 結果が達成されました。 写真 この論文では、POPE ベンチマークを使用して、Shikra が幻覚を引き起こす程度を評価します。 Shikra は InstrcutBLIP と同等の結果を達成し、他の最近の MLLM をはるかに上回ります。 Chain of Thought (CoT) は、最終的な回答の前に推論プロセスを追加することで、LLM が複雑な QA の質問に答えられるように設計されています。この技術は、自然言語処理のさまざまなタスクで広く使用されています。ただし、マルチモーダルシナリオで CoT をどのように適用するかについては、まだ研究が必要です。特に、現在の MLLM では視覚幻覚に関する深刻な問題が依然として残っているため、CoT では幻覚を頻繁に経験し、最終的な答えの正確性に影響を及ぼします。合成データセット CLEVR での実験を通じて、この研究では、位置情報を備えた CoT を使用すると、モデルの幻覚を効果的に減らし、モデルのパフォーマンスを向上できることがわかりました。 結論はこの論文では、自然言語で空間座標を理解して出力する、Shikra と呼ばれるシンプルで統一されたモデルを紹介します。これにより、追加の語彙、位置エンコーダー、または外部プラグインを導入することなく、MLLM に人間のような参照会話機能が追加されます。 |
<<: Appleは、インダストリー4.0の発展を加速するために韓国で初の中小企業スマート製造フォーラムを開催した。
>>: マイクロソフト、AIを活用してがんの放射線治療時間を短縮:スキャン速度が2.5倍に向上、精度は90%に
顔認識技術はAI時代に利便性をもたらすだけでなく、効率も向上させます。 8月21日、百度ブレインオー...
著者 | 崔昊レビュー | Chonglouまとめこの記事の著者は、海外のブロガーに触発され、大規模...
アメリカのテクノロジーブログ「TechCrunch」の主要寄稿者であるMG Siegler氏によると...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
山東省寿光市は中国の有名な野菜生産地です。そこには野菜温室がいくつあるのでしょうか? 機械で数えてみ...
[[400873]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
ロボットは大学のキャンパスに食べ物を配達したり、ゴルフコースでホールインワンを達成したりすることがで...
[[346697]] 2012年、インキュベーター企業のHatch Labsは、IACとXtrem...
1か月以上前、貴州省出身の21歳の少女、シャオ・ウーさんは、自分が夢見ていた、ちょっと「高級」な仕...
大規模言語モデル (LLM) は、学界や産業界から幅広い注目を集めています。有用な LLM を開発す...
今日、企業や IT プロフェッショナルは、これまで以上にデータベースに高い期待を寄せています。データ...
[[401318]]人工知能はリアルタイムで意思決定を行う能力があり、事前にプログラムされたアルゴリ...
[[211376]]機械学習とデータサイエンスの作業は、単にデータを Python ライブラリに渡し...