方向を理解し、座標を伝える、Shikraはマルチモーダルな大規模モデル参照ダイアログの新しい次元を開きます

方向を理解し、座標を伝える、Shikraはマルチモーダルな大規模モデル参照ダイアログの新しい次元を開きます

人間の日常的なコミュニケーションでは、場面内のさまざまな領域や物体に焦点が当てられることが多く、これらの領域を話したり指さしたりすることで効率的に情報を交換することができます。この対話モードは参照対話と呼ばれます。

MLLM がこのスキルに優れていれば、多くのエキサイティングなアプリケーションが生まれるでしょう。例えば、Apple Vision Proなどの複合現実(XR)グラスに適用すると、ユーザーは視線を使って何かを指したり、AIに話しかけたりできるようになります。同時に、AI はハイライト表示などの形式を通じて特定の領域を指し示し、ユーザーとの効率的なコミュニケーションを実現することもできます。

本論文で提案されている Shikra モデルは、位置入力を理解し、位置出力を生成できる参照対話機能を MLLM に提供します。

写真

  • 論文アドレス: http://arxiv.org/abs/2306.15195
  • コードアドレス: https://github.com/shikras/shikra

主なハイライト

Shikra は、ユーザーが入力したポイント/バウンディングボックスを理解し、ポイント/バウンディングボックスの出力をサポートし、人間との参照対話をシームレスに行うことができます

Shikra は、追加の位置エンコーダ、前面/背面オブジェクト検出器、外部プラグイン モジュール、さらには追加の語彙さえも必要としない、シンプルでステッチのない設計です

写真

上図のように、Shikraはユーザーの入力の位置づけ領域を正確に把握し、出力では入力時とは異なる領域を参照してコミュニケーションできるため、人間と同じように会話や位置づけを通じて効率的にコミュニケーションを行うことができます

写真

上図に示すように、Shikra は LLM の基本的な常識をすべて備えているだけでなく、位置情報に基づいて推論を行うこともできます。

写真

上の画像に示すように、Shikra は画像内で何が起こっているかの詳細な説明を生成し、参照オブジェクトの正確な配置を作成できます。

Shikra は OCR データセットについて特別にトレーニングされているわけではありませんが、基本的な OCR 機能も備えています。

その他の例

写真

その他の伝統的な作業


方法

モデルアーキテクチャは、ビジュアルバックボーンとしてCLIP ViT-L/14を使用し、基本言語モデルとしてVicuna-7/13Bを使用し、線形マッピングのレイヤーを使用してCLIPとVicunaの特徴空間を接続します。

Shikra は、自然言語の数字を直接使用してオブジェクトの位置を表し、[xmin、ymin、xmax、ymax] を使用して境界ボックスを表し、[xcenter、ycenter] を使用して領域の中心点を表します。領域の xy 座標は、画像サイズに応じて正規化されます。デフォルトでは、各数値の小数点以下は 3 桁になります。これらの座標は、モデルの入力シーケンスと出力シーケンスのどこにでも出現する可能性があります。座標を記録するための角括弧も文章中に自然に現れます。

実験結果

Shikra は、従来の REC、VQA、キャプション タスクで優れたパフォーマンスを実現できます。同時に、位置入力の理解を必要とする PointQA-Twice や Point-V7W などの VQA タスクでも SOTA 結果が達成されました。

写真

この論文では、POPE ベンチマークを使用して、Shikra が幻覚を引き起こす程度を評価します。 Shikra は InstrcutBLIP と同等の結果を達成し、他の最近の MLLM をはるかに上回ります。

Chain of Thought (CoT) は、最終的な回答の前に推論プロセスを追加することで、LLM が複雑な QA の質問に答えられるように設計されています。この技術は、自然言語処理のさまざまなタスクで広く使用されています。ただし、マルチモーダルシナリオで CoT をどのように適用するかについては、まだ研究が必要です。特に、現在の MLLM では視覚幻覚に関する深刻な問題が依然として残っているため、CoT では幻覚を頻繁に経験し、最終的な答えの正確性に影響を及ぼします。合成データセット CLEVR での実験を通じて、この研究では、位置情報を備えた CoT を使用すると、モデルの幻覚を効果的に減らし、モデルのパフォーマンスを向上できることがわかりました。

結論は

この論文では、自然言語で空間座標を理解して出力する、Shikra と呼ばれるシンプルで統一されたモデルを紹介します。これにより、追加の語彙、位置エンコーダー、または外部プラグインを導入することなく、MLLM に人間のような参照会話機能が追加されます。

<<:  Appleは、インダストリー4.0の発展を加速するために韓国で初の中小企業スマート製造フォーラムを開催した。

>>:  マイクロソフト、AIを活用してがんの放射線治療時間を短縮:スキャン速度が2.5倍に向上、精度は90%に

推薦する

OpenAI の公式チュートリアル: GPT-4 で議事録生成 AI を作成する方法

このチュートリアルでは、OpenAI の Whisper と GPT-4 モデルを使用して自動会議議...

...

LangGraphの無限の可能性を発見

著者 | 崔昊レビュー | Chonglouまとめこの記事では、LangChain をベースにした新...

ByteDance によって否定された中国版 Sora の何がそんなに素晴らしいのでしょうか?

執筆者 | Yun Zhao制作:51CTO テクノロジースタック(WeChat ID:blog)最...

アイティ族テクニカルクリニック第6回

【51CTO.comオリジナル記事】 [51CTO オリジナル記事、パートナーサイトに転載する場合は...

AI が台頭して 9 年目を迎えた今、どんな大きな可能性があるのでしょうか?

2012年以来、人工知能の復活は9年目に入りました。「人工知能とは何か」に対する人々の認識は、当初...

効率的な運用分析システムを構築するために3つのステップを使用します

これは、実際の仕事でデータを扱う学生にとって最大の問題点です。今日は、オペレーションを例に、行き詰ま...

...

15億パラメータのモデルを2日間でトレーニングし、国内オープンソースプロジェクトがNvidiaのMegatron-LMを上回った

AIの現在の動向において、その徹底的な発展に影響を与える矛盾は何でしょうか?一方では、大型モデルが大...

郭光昌:医療人工知能支援システムの構築を加速

医療人工知能支援システムの構築加速に関する提案中国人民政治協商会議第12期全国委員会委員 郭光昌【提...

500億のパラメータ、103の言語をサポート: Googleが「グローバルテキスト翻訳」モデルを発表

並列データが不足しているため、小規模言語の翻訳は常に大きな問題となっていました。 Google の研...

CPUのみを使用して1000FPSで実行できます。これはオープンソースのC++クロスプラットフォーム顔検出プロジェクトです。

さまざまな依存環境によって常に荒廃していますか?コンピューターと携帯電話の両方で実行できる、C++ ...

Google: パフォーマンスの低い微調整モデルを捨てず、平均重量を計算してパフォーマンスを向上させる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...