ChatGPT に続いて、OpenAI のライブ ブロードキャストでは、視覚入力はまだ広く利用可能ではないものの、視覚入力をサポートする GPT-4 の強力なマルチモーダル機能が実演されました。その後、学界と産業界も大規模なマルチモーダルモデル(主に視覚言語モデル)に注目し、学界ではLLaMA-AdapterやMiniGPT-4、産業界ではGoogleの最も代表的なBardなどが挙げられます。Bardはすでに後進国から参入し、大規模ユーザーに開放されています。しかし、学術界で公開されているモデルのほとんどは、部分的なマルチモーダル機能(いくつかの関連データセット)についてのみ評価されており、実際のユーザーエクスペリエンスでのパフォーマンス比較も欠けています。バードは、視覚入力を開放した後のマルチモーダル機能に関する公式レポートを提供しなかった。 この文脈において、私たちはまず、マルチモーダル大規模モデルのマルチモーダル機能の包括的な評価フレームワークである LVLM-eHub を提案しました。これは、マルチモーダル機能の 6 つの主要カテゴリを統合し、基本的にほとんどのマルチモーダル シナリオをカバーし、47 を超える関連データセットを含みます。同時に、モデルの機能を比較するためのクラウドソーシング ユーザー評価プラットフォームである Multimodal Large Model Arena をリリースし、実際のユーザーが質問したり、どのモデルのパフォーマンスが優れているか投票したりできるようになりました。
これを基に、元のデータセットをそれぞれ 50 サンプル (ランダム サンプリング) に合理化し、迅速なモデル評価と反復を容易にする Tiny LVLM-eHub を立ち上げました。さまざまな評価プロンプトの下で ChatGPT 評価結果 (多数決) を統合し、より正確で堅牢で、人間の評価結果とより一貫性のある評価方法を設計しました。最後に、より大規模なマルチモーダル モデルが追加されましたが、その中で Google の Bard が最も優れたパフォーマンスを発揮しました。
マルチモーダル機能とデータセット私たちは、6 つのカテゴリーのマルチモーダル機能を統合しました。 a. 視覚 b. 視覚的な知識獲得 c. 視覚的推論 d. 視覚的な常識 e. 具現化された知性 f. 幻覚 最初の 2 つのカテゴリは基本的な認識機能に関係し、中間の 2 つのカテゴリは高度な推論にまで昇華され、最後の 2 つのカテゴリは、大規模モデルをロボットに接続した後のより高度な計画および意思決定機能と、大規模言語モデル (LLM) では危険で扱いにくい幻覚の問題に関係します。 具現化された知能は、大規模モデルの能力の応用と拡張であり、将来の発展に大きな可能性を秘めており、学界と産業界で勢いを増しています。幻覚問題は、大規模なモデルを推進および適用するプロセスにおける多くの大きなリスクの 1 つであり、その後の改善と最適化を支援するために多くのテストと評価が必要になります。 6つの主要なマルチモーダル機能構造 マルチモーダル大型モデルアリーナ マルチモーダル ラージ モデル アリーナは、モデルの機能を比較するためのクラウドソーシング ユーザー評価プラットフォームです。前述の従来のデータセットのブラッシングと比較して、モデルのユーザー エクスペリエンスをより正確に反映できます。ユーザーが写真をアップロードし、対応する質問をすると、プラットフォームは背景モデル ライブラリから 2 つのモデルをランダムにサンプリングします。どちらのモデルも回答を出し、ユーザーはどちらのモデルが優れているかを投票で決めることができます。公平性を保つために、各モデルがサンプリングされる可能性が同じになるようにし、ユーザーが投票した後にのみサンプリングされたモデルの名前を表示します。プロセス例を下図に示します。 マルチモーダル大型モデルアリーナの概略図 評価方法評価方法図 デフォルトでは、LVLM-eHub は単語マッチング (モデル出力に真の答えが表示される限り、正しいと判断される) を使用して、高速な自動評価を行います。特に、VCRデータセットでは、モデルのパフォーマンスをより適切に評価するために、マルチターン推論評価方法を採用しました。これは、最小から最大までのプロンプト方法と同様に、最初にサブ質問を提案し、評価対象のモデルがChatGPTの複数ラウンドを通じて回答し、最終的に対象の質問に答えるというものです。さらに、具現化された知能については、現在、完全に手動のアプローチを採用し、物体認識、空間関係、簡潔性、合理性、実行可能性の 5 つの側面から総合的な評価を行っています。 マルチキューワード投票評価法 Tiny LVLM-eHub は、単語マッチング評価方法の欠点を克服するために、マルチプロンプト投票評価方法を設計および採用しています。具体的には、単語マッチングは次の 2 つのシナリオで失敗します: (1) モデル出力に真の答えを含む複数の答えが表示される場合があります。(2) モデル出力と質問に対する参照答えは意味的には同じですが、表現が異なります。 ChatGPTに基づくマルチ命令統合評価法の概略図 さらに、実験を通じて、私たちが提案した評価方法が人間の評価結果とより一致していることがわかりました(下の表の結果を参照)。 CEE評価法と単語マッチング法の一貫性と人間による評価の比較 評価結果従来の標準データセット(具現化された知能のマルチモーダル機能の他の 5 つのカテゴリを除く)の評価結果では、InstructBLIP が最も優れたパフォーマンスを発揮することが示されています。モデルトレーニングデータセット間の違いを比較すると、InstructBLIP は BLIP2 に基づく 13 個の VQA のようなデータセットで微調整されており、これらの微調整されたデータセットは、タスクや具体的なデータ形式や内容の点で、上記の 5 種類のマルチモーダル機能に対応するデータセットと多くの類似点があるためである可能性が高いと推測されます。一方、具現化された知能タスクでは、BLIP2 と InstructBLIP のパフォーマンスは最も悪く、LLaMA-Adapter-v2 と LLaVA のパフォーマンスは最も良かった。これは主に、後者の 2 つのモデルが、指示の微調整のために特殊な視覚言語指示に従うデータセットを使用したためである。つまり、大規模なモデルが多くのタスクで優れた一般化パフォーマンスを発揮する理由は、トレーニングや微調整の段階で対応するタスクや類似のデータを見ているため、ドメインギャップが非常に小さいことが主な理由です。また、高度な推論、計画、さらには意思決定を必要とする具体化された知能などのタスクには、より論理的で計画的かつ実行可能な出力を持つ ChatGPT または GPT-4 が必要です (これは、以下の Bard の評価結果によって確認できます。Bard は最も優れた具体化された知能機能を備えています)。 6 つのマルチモーダル機能に関する LVLM-eHub の 8 つのモデルのパフォーマンス図 これまでに、マルチモーダル ラージ モデル アリーナ プラットフォームで 2,750 件の有効なサンプル (フィルタリング後) を収集しました。最新のモデル スコアとランキングは、以下の表に示されています。実際のユーザー エクスペリエンスの観点から見ると、InstructBLIP は従来の標準データセット (具現化された知能のマルチモーダル機能の他の 5 つのカテゴリを除く) で最高のパフォーマンスを発揮しますが、Elo での順位は低く、BLIP2 はユーザー評価が最悪です。同様に、ChatGPT によって最適化された指示に従うデータセットを微調整した後、モデル出力はユーザーにさらに好まれるようになりました。高品質のデータに基づいて微調整された Otter-Image モデルがリストのトップになり、Otter モデルに基づいて質的な飛躍を達成したことがわかります。 マルチモーダルアリーナモデルランキング Tiny LVLM-eHub では、Bard は多くの能力で優れた成績を収めましたが、物体の形状と色に関する視覚的常識と対象の錯覚の成績は悪かったです。 Bard は 12 のモデルの中で業界で唯一のクローズドソース モデルであるため、モデルの具体的なサイズ、設計、トレーニング データセットは不明です。比較すると、他のモデルには 7B-10B しかありません。もちろん、現在のテストのほとんどは 1 ラウンドの質問と回答ですが、Bard は複数ラウンドの会話をサポートしています。バードの能力はこれ以上のものであり、まだ探求する必要があると私は信じています。 バードデモ バードは、人間のような理解力で、画像の異常な側面を非常によく理解しています。画像に基づいて関連付けを行い、人生と芸術の関係を指摘することもできます。 バードは複雑な食物連鎖を比較的よく理解しており、質問の範囲を超えた食物連鎖のより詳細な説明をしながら、質問(図では青で囲まれている)に答えています。 Bard にはマルチモーダル推論機能があり、図 (青) に基づいて推論を必要とする質問に正しく答えることができますが、画像 (赤) 内の詳細情報を正確に識別することにはまだ問題があります。 Bard は、テキスト形式でオブジェクトの境界ボックスを比較的正確に生成できます。 GPT-4 と同様に、Bard は手描きの Web デザインを HTML コードに変換し、Web ページのレイアウトをより正確に認識する機能を備えており、さらに「写真」セクションを画像をインポートする必要がある領域として正しく識別します。 小学校の算数の問題では、バードは質問を誤解し、その後の計算は正しかったにもかかわらず間違った答えを出した。 バードは依然として幻覚の問題を抱えています。プロンプトに誤ったヒントがいくつか与えられた場合、バードは依然としてそのヒントに基づいてナンセンスな発言を展開することがわかりました。 私たちは画像に赤い斜めの十字を手動で追加しましたが、バードは画像に赤い物体はないと返答しました。また、奇妙なことに、バードは、この質問に答えるときに私たちが追加した赤い十字マークを完全に無視したようです。 今後の仕事(Tiny) LVLM-eHub での評価は包括的でしたが、さまざまな LVLM のマルチモーダル機能の境界のみを評価しました。実際、LVLM の評価では、コンテンツの安全性、偏見、人種差別など、他の重要な要素も考慮する必要があります。これらのモデルによって生成された偏ったコンテンツや有害なコンテンツによって生じる潜在的な危害を考慮すると、有害な固定観念や差別的態度が継続的に広まるのを防ぐために、LVLM が安全で偏りのないコンテンツを生成する能力を徹底的に評価することが重要です。特に、LVLM の開発をさらに進めるには、視覚的常識の理解を高め、幻覚の問題を軽減する方法を検討する必要があります。 |
>>: GoogleのAIチップのアップグレード:大規模モデルと生成AIをターゲットとし、主流のディープラーニングフレームワークを統合
火の使用はホモ・サピエンスの進化における重要な要素であり、より複雑な道具の作成を可能にしただけでなく...
今日から、全国各地の大学入試結果が続々と発表され、出願手続きが始まります。今年、各大学は、専門分野、...
[[260546]]ニューラル ネットワークを使い始めたばかりのときは、ニューラル ネットワーク ア...
ベンチマーク プロジェクト アドレス: https://github.com/google-rese...
研究者は最近、ターゲット検出のための Transformer の使用を熱心に研究していますが、この論...
良いニュースです。生成 AI アプリケーションの敷居が大幅に下がりました。先ほど、Amazon We...
AI ソフトウェア テストの分野では、将来的に複数の開発トレンドに直面する可能性があり、そのいくつか...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
人工知能の導入は製造業に大きな経済的利益をもたらすでしょう。この点に関しては、さまざまな研究機関が関...
10月15日、国家深層学習技術応用工学研究所と百度が共同で開始した第5回AICAチーフAIアーキテ...