この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 バイトビッグモデル、BuboGPTが登場。 テキスト、画像、音声の 3 つのモダリティをサポートし、きめ細かいマルチモーダル共同理解を実現します。 答えは、何が言われて何が言われていないかを指し示しており、それは一目瞭然です。 私たちは「賢い目」を持っているだけでなく、「賢い耳」も持っています。 BuboGPT は人間が気づかない細部まで聞き取ることができます。 オーディオ-1-チャイム-鳥のそよ風、量子ビット、20 秒 これから高エネルギーが待っています! 三峰性の共同理解、テキスト説明+画像配置+音配置、ワンクリックソリューション、音源の正確な判断: オーディオ-7-dork-bark 、Quantum Bit、6秒 心配しないでください、まだ終わっていません! 音声と画像の間に直接的な関係がない場合でも、画像を見て音を識別することで、両者の関係を合理的に説明し、ストーリーを伝えることができます。 オーディオ-11-6時、Quantum Bit、1分 この観点から見ると、BuboGPT の作業は非常に「詳細」です。 研究者らは次のように述べた。 MiniGPT-4、LLaVA、X-LLM などの最近人気の大規模マルチモーダル モデルは、入力の特定の部分への基本的な接続を行わず、粗粒度のマッピングのみを構築します。 BuboGPT は、豊富な情報とテキストと他のモダリティ間の明確な対応を利用して、視覚オブジェクトと特定のモダリティを詳細に理解できるようにします。 したがって、BuboGPT は画像を記述する際に、画像内のオブジェクトの特定の位置を指摘することができます。 BuboGPT: LLM に初めて視覚的なつながりを導入上記の著者が YouTube で共有した例に加えて、研究チームは論文の中で BuboGPT が実行できるさまざまなトリックも実演しました。 カエルがピアノを弾いているのを見たのは初めてです! BuboGPT はこのような画像も正確に描写できるのでしょうか? カン・カンがどう答えたか見てみましょう: 彼はカエルの姿勢を正確に説明できるだけでなく、自分の手がバンジョーに触れていることも知っています。 写真の何が面白いのか尋ねると、写真の背景に何があるのかを要約することができます。 BuboGPT「視力+聴力+表情テスト」は、研究者がこのようにプレイします。まずはこの音声を聞いてみましょう。 オーディオ-9-ヘアドライヤー、量子ビット、5秒 BuboGPT の説明を見てみましょう。 BuboGPT は、写真に写っている人物の性別、音源、写真の中で何が起こっているかを正確に理解できます。 効果が非常に良いのは、ByteDance が LLM に視覚的な配置を導入する方法を使用したためです。 具体的な方法を以下で見ていきましょう。 BuboGPT のアーキテクチャは、共有された意味空間を学習し、さまざまな視覚オブジェクトとさまざまなモダリティ間のきめ細かい関係をさらに探索することで、マルチモーダル理解を実現します。 さまざまな視覚オブジェクトと複数のモダリティ間のきめ細かい関係を調査するために、研究者はまず SAM に基づく既製の視覚ローカリゼーション パイプラインを構築しました。 このパイプラインは、タグ付けモジュール、グラウンディングモジュール、エンティティマッチングモジュールの 3 つのモジュールで構成されています。 プロセスはおそらく次のようになります: まず、ラベリング モジュールは、入力画像に関連付けられた複数のテキスト ラベルを生成できる事前トレーニング済みモデルです。 SAM ベースのローカリゼーション モジュールは、画像上の各テキスト ラベルに関連付けられたセマンティック マスクまたは境界ボックスをさらにローカライズします。 次に、エンティティ マッチング モジュールは LLM の推論機能を活用して、タグと画像の説明から一致するエンティティを取得します。 これは、研究者が視覚的なオブジェクトを他のモダリティと結び付けるための橋渡しとして言語を使用する方法です。 3 つのモーダル入力のあらゆる組み合わせで良好な結果を達成するために、研究者は Mini-GTP4 に似た 2 段階のトレーニング スキームを採用しました。 ユニモーダル事前トレーニングとマルチモーダル指示適応。 具体的には、BuboGPT はオーディオ エンコーダーとして ImageBind を使用し、ビジュアル エンコーダーとして BLIP-2 を使用し、事前トレーニング済み LLM として Vicuna を使用します。 ユニモーダル事前トレーニング段階では、対応するモダリティ Q-Former および線形投影層が、大量のモダリティとテキストのペアリング データでトレーニングされます。 視覚認識に関しては、研究者は画像キャプション生成部分の投影層のみをトレーニングし、BLIP2 の Q-Former を固定したままにします。 音声理解については、Q-Former と音声キャプション生成部分を同時にトレーニングしました。 どちらの設定でもプロンプトは使用されず、モデルは対応する画像または音声のみを入力として受け取り、対応するキャプションを予測します。 △ 異なる入力に対する指示の例マルチモーダル指示調整フェーズでは、線形投影レイヤーを微調整するために、次の項目を含む高品質のマルチモーダル指示データセットが構築されます。
注目すべきは、意味マッチングのためにネガティブサンプルの「画像と音声のペア」を導入することで、BuboGPT はより優れたアライメントとより強力なマルチモーダル共同理解機能を実現できることです。 現在、BuboGPTのコードとデータセットがオープンソース化され、デモも公開されています。早速試してみました。 デモプレイ体験BuboGPT デモ ページには明確な機能領域があり、操作が非常に簡単です。右側では写真や音声をアップロードでき、左側には BuboGPT の回答ウィンドウとユーザーの質問ウィンドウがあります。 写真をアップロードしたら、下の最初のボタンをクリックして分割された写真をアップロードします。 たとえば、万里の長城の写真を見てみましょう。BuboGPT は、山、観光名所、そして壁を識別しながら、次のように分類します。 絵を説明するように頼んだところ、その答えは比較的具体的で、ほぼ正確でした。 回答のテキスト コンテンツに応じて、分割ボックスの内容も変更されていることがわかります。 ここにオーディオ クリップ付きの別の画像があります。BuboGPT は音源も正しく一致させました。 Audio-8-bicycle_bell 、量子ビット、22秒 もちろん、認識できなかったり、間違った発言をしたりすることもあります。例えば、下の写真には人は写っておらず、音声はベルの音だけですが、その説明は写真と一致していないようです。 興味のあるご家族は急いで試してみてください〜〜 ポータル: |
<<: AIはキーボードの音を聞いてパスワードを盗むことができ、その精度は最大95%
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
インテリジェントな個別指導システムは、代数や文法などの特定の科目の指導に効果的であることが証明されて...
ロボット革命は、2009年に英国王立工学アカデミーが発表した「自律システム」と題する科学報告書で提唱...
新型コロナウイルス感染者数がほぼ指数関数的に増加し、世界は機能停止状態に陥っている。世界保健機関によ...
[[409851]] 0 はじめにこの記事で議論されている問題は、ICLR 2019の記事「CRI...
ご存知のとおり、コンピューティング パワーの文字通りの意味はコンピューティング能力です。 「コンピュ...
[51CTO.com からのオリジナル記事] ディープラーニングを軸に早くから事業を開始した中国の ...
ChatGPT ネットワーキング モードが正式に復活しました。そして、この波は有料ユーザーだけでなく...
人工知能(AI)は未来の技術ではなく、すでに存在している技術です。機械学習のイノベーションにより A...
人類文明の継続的な発展に伴い、社会の分業は大きな変化を遂げ、さまざまな産業の置き換えと反復において、...
C# 選択ソート アルゴリズムとは何ですか?これはどのように達成されるのでしょうか?この紹介が C#...
ガートナーの 2021 年人工知能ハイプ サイクルの 4 つのトレンドが、短期的な AI イノベーシ...
生成型人工知能技術の急速な発展に伴い、大規模なモデルが人間の価値観(意図)と一致するようにすることが...