バイトビッグモデルの新たな進歩：きめ細かなマルチモーダル共同理解を実現するために視覚的ポジショニングが初めて導入され、オープンソース化され、デモが利用可能になりました。

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

バイトビッグモデル、BuboGPTが登場。

テキスト、画像、音声の 3 つのモダリティをサポートし、きめ細かいマルチモーダル共同理解を実現します。

答えは、何が言われて何が言われていないかを指し示しており、それは一目瞭然です。

私たちは「賢い目」を持っているだけでなく、「賢い耳」も持っています。 BuboGPT は人間が気づかない細部まで聞き取ることができます。

オーディオ-1-チャイム-鳥のそよ風、量子ビット、20 秒

これから高エネルギーが待っています！

三峰性の共同理解、テキスト説明+画像配置+音配置、ワンクリックソリューション、音源の正確な判断：

オーディオ-7-dork-bark 、Quantum Bit、6秒

心配しないでください、まだ終わっていません！

音声と画像の間に直接的な関係がない場合でも、画像を見て音を識別することで、両者の関係を合理的に説明し、ストーリーを伝えることができます。

オーディオ-11-6時、Quantum Bit、1分

この観点から見ると、BuboGPT の作業は非常に「詳細」です。

研究者らは次のように述べた。

MiniGPT-4、LLaVA、X-LLM などの最近人気の大規模マルチモーダルモデルは、入力の特定の部分への基本的な接続を行わず、粗粒度のマッピングのみを構築します。

BuboGPT は、豊富な情報とテキストと他のモダリティ間の明確な対応を利用して、視覚オブジェクトと特定のモダリティを詳細に理解できるようにします。

したがって、BuboGPT は画像を記述する際に、画像内のオブジェクトの特定の位置を指摘することができます。

BuboGPT: LLM に初めて視覚的なつながりを導入

上記の著者が YouTube で共有した例に加えて、研究チームは論文の中で BuboGPT が実行できるさまざまなトリックも実演しました。

カエルがピアノを弾いているのを見たのは初めてです！ BuboGPT はこのような画像も正確に描写できるのでしょうか?

カン・カンがどう答えたか見てみましょう:

彼はカエルの姿勢を正確に説明できるだけでなく、自分の手がバンジョーに触れていることも知っています。

写真の何が面白いのか尋ねると、写真の背景に何があるのかを要約することができます。

BuboGPT「視力+聴力+表情テスト」は、研究者がこのようにプレイします。まずはこの音声を聞いてみましょう。

オーディオ-9-ヘアドライヤー、量子ビット、5秒

BuboGPT の説明を見てみましょう。

BuboGPT は、写真に写っている人物の性別、音源、写真の中で何が起こっているかを正確に理解できます。

効果が非常に良いのは、ByteDance が LLM に視覚的な配置を導入する方法を使用したためです。

具体的な方法を以下で見ていきましょう。

BuboGPT のアーキテクチャは、共有された意味空間を学習し、さまざまな視覚オブジェクトとさまざまなモダリティ間のきめ細かい関係をさらに探索することで、マルチモーダル理解を実現します。

さまざまな視覚オブジェクトと複数のモダリティ間のきめ細かい関係を調査するために、研究者はまず SAM に基づく既製の視覚ローカリゼーションパイプラインを構築しました。

このパイプラインは、タグ付けモジュール、グラウンディングモジュール、エンティティマッチングモジュールの 3 つのモジュールで構成されています。

プロセスはおそらく次のようになります:

まず、ラベリングモジュールは、入力画像に関連付けられた複数のテキストラベルを生成できる事前トレーニング済みモデルです。

SAM ベースのローカリゼーションモジュールは、画像上の各テキストラベルに関連付けられたセマンティックマスクまたは境界ボックスをさらにローカライズします。

次に、エンティティマッチングモジュールは LLM の推論機能を活用して、タグと画像の説明から一致するエンティティを取得します。

これは、研究者が視覚的なオブジェクトを他のモダリティと結び付けるための橋渡しとして言語を使用する方法です。

3 つのモーダル入力のあらゆる組み合わせで良好な結果を達成するために、研究者は Mini-GTP4 に似た 2 段階のトレーニングスキームを採用しました。

ユニモーダル事前トレーニングとマルチモーダル指示適応。

具体的には、BuboGPT はオーディオエンコーダーとして ImageBind を使用し、ビジュアルエンコーダーとして BLIP-2 を使用し、事前トレーニング済み LLM として Vicuna を使用します。

ユニモーダル事前トレーニング段階では、対応するモダリティ Q-Former および線形投影層が、大量のモダリティとテキストのペアリングデータでトレーニングされます。

視覚認識に関しては、研究者は画像キャプション生成部分の投影層のみをトレーニングし、BLIP2 の Q-Former を固定したままにします。

音声理解については、Q-Former と音声キャプション生成部分を同時にトレーニングしました。

どちらの設定でもプロンプトは使用されず、モデルは対応する画像または音声のみを入力として受け取り、対応するキャプションを予測します。

△ 異なる入力に対する指示の例

マルチモーダル指示調整フェーズでは、線形投影レイヤーを微調整するために、次の項目を含む高品質のマルチモーダル指示データセットが構築されます。

画像テキスト: MiniGPT-4 と LLaVa の 2 つのデータセットを使用した視覚指示の微調整。
オーディオテキスト: Clotho データセットに基づいて、一連の表現力豊かな説明データが構築されます。
音声・画像・テキスト: VGGSS データセットに基づいて、<音声、画像、テキスト> の 3 モーダルガイド付きチューニングデータペアを構築し、さらにネガティブサンプルを導入してモデルを強化しました。

注目すべきは、意味マッチングのためにネガティブサンプルの「画像と音声のペア」を導入することで、BuboGPT はより優れたアライメントとより強力なマルチモーダル共同理解機能を実現できることです。

現在、BuboGPTのコードとデータセットがオープンソース化され、デモも公開されています。早速試してみました。

デモプレイ体験

BuboGPT デモページには明確な機能領域があり、操作が非常に簡単です。右側では写真や音声をアップロードでき、左側には BuboGPT の回答ウィンドウとユーザーの質問ウィンドウがあります。

写真をアップロードしたら、下の最初のボタンをクリックして分割された写真をアップロードします。

たとえば、万里の長城の写真を見てみましょう。BuboGPT は、山、観光名所、そして壁を識別しながら、次のように分類します。

絵を説明するように頼んだところ、その答えは比較的具体的で、ほぼ正確でした。

回答のテキストコンテンツに応じて、分割ボックスの内容も変更されていることがわかります。

ここにオーディオクリップ付きの別の画像があります。BuboGPT は音源も正しく一致させました。

Audio-8-bicycle_bell 、量子ビット、22秒

もちろん、認識できなかったり、間違った発言をしたりすることもあります。例えば、下の写真には人は写っておらず、音声はベルの音だけですが、その説明は写真と一致していないようです。

興味のあるご家族は急いで試してみてください〜〜

ポータル:
[1] https://bubo-gpt.github.io/
[2] https://huggingface.co/spaces/magicr/BuboGPT（デモ）

<<: AIはキーボードの音を聞いてパスワードを盗むことができ、その精度は最大95%

>>:

ブログ

マイクロソフトCEOナデラ氏との対談：AIは雇用を奪うよりも多くを創出する

ブログ

顔認識の時代の準備はできていますか?

ブログ

アルトマン氏は、GPT-5 が加速トレーニングを受けていることを初めて明らかにしました。 GPT-4よりも複雑であることが示唆されており、真の能力は予測できない

ブログ

データサイエンスと機械学習のためのトップ 16 プラットフォーム

ブログ

AIはどんどん強くなってきていますが、人間は恐れるべきでしょうか？実は、ロボットに置き換えられるよりも大きな危機があるのです。

ブログ

目に見えないAI技術は、知的な世界の秘密を理解するのに役立ちます

ブログ

Nature の調査: AI が「必需品」になったと考える科学者はわずか 4%

ブログ

医療AIの将来に注目すべき3つのトレンド

ブログ

バイトビッグモデルの新たな進歩：きめ細かなマルチモーダル共同理解を実現するために視覚的ポジショニングが初めて導入され、オープンソース化され、デモが利用可能になりました。

BuboGPT: LLM に初めて視覚的なつながりを導入

△ 異なる入力に対する指示の例

デモプレイ体験

マイクロソフトCEOナデラ氏との対談：AIは雇用を奪うよりも多くを創出する

顔認識の時代の準備はできていますか?

アルトマン氏は、GPT-5 が加速トレーニングを受けていることを初めて明らかにしました。 GPT-4よりも複雑であることが示唆されており、真の能力は予測できない

データサイエンスと機械学習のためのトップ 16 プラットフォーム

AIはどんどん強くなってきていますが、人間は恐れるべきでしょうか？実は、ロボットに置き換えられるよりも大きな危機があるのです。

目に見えないAI技術は、知的な世界の秘密を理解するのに役立ちます

Nature の調査: AI が「必需品」になったと考える科学者はわずか 4%

医療AIの将来に注目すべき3つのトレンド

推薦する

Zooxロボットタクシーが半プライベートルートでテストを開始

機械学習は「原子幾何学」の秘密を明らかにし、数学の発展を促進した

AIが復活！ GPT-3を使用して亡くなった婚約者を複製し、アメリカ人男性は愛する人をデジタル形式で永遠に生きさせました

無人タクシーが登場します。準備はできていますか?

NeuRAD: 自動運転のためのニューラルレンダリング (複数のデータセットでの SOTA)

ガートナーの予測: 2019 年の 7 つの主要な AI テクノロジーのトレンドが数百万の業界に混乱をもたらす!

もうひとつ：なぜ消費者向けロボット企業は失敗しているのか？

AIの次の大きな課題：言語のニュアンスを理解すること