3,000以上のデータから200を選択する方が実際にはより効果的であり、MiniGPT-4は同じ構成のモデルよりも優れている。

GPT-4 は、詳細かつ正確な画像の説明を生成する強力で並外れた能力を実証しており、言語と視覚処理における新しい時代の到来を告げています。

そのため、GPT-4 に似たマルチモーダル大規模言語モデル (MLLM) が最近注目の研究分野として浮上しており、その研究の中核は、マルチモーダルタスクを実行するための認知フレームワークとして強力な LLM を使用することです。 MLLM の予想外に優れたパフォーマンスは、従来の方法を上回るだけでなく、汎用人工知能を実現する可能性のある方法の 1 つにもなります。

有用な MLLM を作成するには、固定 LLM (LLaMA や Vicuna など) と視覚表現 (CLIP や BLIP-2 など) 間のコネクタ (MiniGPT-4、LLaVA、LLaMA-Adapter など) をトレーニングするための大規模な画像とテキストのペアのデータと、視覚と言語の微調整データが必要です。

MLLM のトレーニングは通常、事前トレーニング段階と微調整段階の 2 つの段階に分かれています。事前トレーニングの目的は、MLLM が大量の知識を獲得できるようにすることです。一方、微調整は、モデルが人間の意図をよりよく理解し、正確な応答を生成するように教えることです。

MLLM が視覚言語を理解し、指示に従う能力を高めるために、指示チューニングと呼ばれる強力な微調整手法が最近登場しました。このテクノロジーは、モデルを人間の好みに合わせて調整し、さまざまな指示の下で人間が期待する結果を生成するのに役立ちます。指導の微調整技術の開発に関しては、微調整段階で画像注釈、視覚的質問応答 (VQA)、視覚的推論データセットを導入することが建設的な方向性です。 InstructBLIP や Otter などの以前の技術では、さまざまな視覚言語データセットを使用して視覚的な指示を微調整しており、これも有望な結果が得られています。

しかし、一般的に使用されているマルチモーダル指示の微調整データセットには、応答が不正確または無関係な低品質のインスタンスが多数含まれていることが観察されています。このようなデータは誤解を招きやすく、モデルのパフォーマンスに悪影響を及ぼします。

この疑問から、研究者たちは、少量の高品質な指示に従うデータを使用して堅牢なパフォーマンスを実現できるかどうかという可能性を探求するようになりました。

最近のいくつかの研究では有望な結果が得られており、この方向性には可能性があることを示しています。例えば、Zhouらは、人間の専門家によって慎重に選択された高品質のデータを使用して微調整された言語モデルであるLIMAを提案しました。この研究は、大規模な言語モデルが、限られた量の高品質の指示に従うデータでも印象的な結果を達成できることを示しています。そこで研究者たちは、整列に関しては、少ないほうが良いという結論に至った。しかし、これまで、マルチモーダル言語モデルを微調整するために適切な高品質のデータセットを選択する方法に関する明確なガイドラインは存在しませんでした。

上海交通大学清遠研究所とリーハイ大学の研究チームがこのギャップを埋め、堅牢で効果的なデータセレクターを提案しました。このデータセレクターは、低品質の視覚言語データを自動的に識別してフィルタリングし、最も関連性の高い有益なサンプルがモデルのトレーニングに使用されるようにします。

論文アドレス: https://arxiv.org/abs/2308.12067

研究者らは、この研究の焦点は、マルチモーダルな大規模言語モデルを微調整するための、小規模だが高品質の指示微調整データの有効性を探ることであると述べた。さらに、この論文では、マルチモーダル指導データの品質を評価するために特別に設計されたいくつかの新しい指標を紹介します。画像に対してスペクトルクラスタリングを実行した後、データセレクターは、各視覚言語データの CLIP スコア、GPT スコア、報酬スコア、および回答の長さを組み合わせた加重スコアを計算します。

研究者らは、MiniGPT-4 を微調整するために使用された 3,400 件のオリジナルデータにセレクターを適用したところ、これらのデータのほとんどが低品質であることを発見しました。研究者たちはこのデータセレクターを使用して、データのはるかに小さい、厳選されたサブセット (わずか 200 のデータポイント、つまり元のデータセットのわずか 6%) を取得しました。次に、MiniGPT-4 と同じトレーニング構成を使用し、それを微調整して新しいモデル InstructionGPT-4 を作成しました。

研究者らは、これは視覚言語指示を微調整する際にデータの量よりも質の方が重要であることを示唆しており、興味深い発見だと述べている。さらに、データ品質を重視する方向へのシフトにより、MLLM の微調整を改善するための新しい、より効果的なパラダイムが提供されます。

研究者らは厳密な実験を実施し、Flick-30k、ScienceQA、VSR など 7 つの多様で複雑なオープンドメインのマルチモーダルデータセットを対象に、微調整された MLLM の実験的評価に焦点を当てました。彼らは、さまざまなデータセット選択方法（データセレクターの使用、データセットのランダムサンプリング、完全なデータセットの使用）を使用して微調整されたモデルの推論パフォーマンスをさまざまなマルチモーダルタスクで比較し、その結果、InstructionGPT-4 が優れていることが示されました。

また、研究者が評価に使用した評価器は GPT-4 であることにも留意する必要があります。具体的には、研究者は prompt を使用して GPT-4 を評価ツールに変換し、LLaVA-Bench のテストセットを使用して InstructionGPT-4 と元の MiniGPT-4 の応答結果を比較できるようにしました。

InstructionGPT-4 は、MiniGPT-4 が使用した元の命令に従うデータと比較して、微調整されたデータのわずか 6% しか使用しなかったにもかかわらず、後者は 73% のケースで同じかそれ以上の応答を返したことが判明しました。

この論文の主な貢献は次のとおりです。

研究者らは、InstructionGPT-4 をトレーニングするために 200 個 (約 6%) の高品質な指示に従うデータを選択することで、マルチモーダル大規模言語モデルに対してより少ない指示データを使用して、より優れたアライメントを達成できることを示しています。
我々は、シンプルで説明可能な原理を使用して、微調整のためのデータに従って高品質のマルチモーダル指示を選択するデータセレクターを提案します。このアプローチは、データサブセットの評価と適応における妥当性と移転可能性を実現することを目指しています。
研究者たちは、この単純な技術がさまざまなタスクをうまく処理できることを実験的に実証しました。オリジナルの MiniGPT-4 と比較して、フィルタリングされたデータのわずか 6% を使用して微調整された InstructionGPT-4 は、複数のタスクでより優れたパフォーマンスを達成しました。

方法

この研究の目的は、元の微調整データセットからサブセットを自動的に選択できる、シンプルで移植可能なデータセレクターを提案することです。この目的のために、研究者らは、マルチモーダルデータセットの多様性と品質に重点を置いた選択原則を定義しました。以下に簡単な紹介をします。

選択原則

MLLM を効果的にトレーニングするには、有用なマルチモーダル指示データを選択することが重要です。最良の指導データを選択するために、研究者は多様性と品質という 2 つの重要な原則を提案しました。多様性のために、研究者は画像の埋め込みをクラスター化し、データを異なるグループに分けました。研究者らは、品質を評価するために、マルチモーダルデータを効率的に評価するためのいくつかの重要な指標を採用しました。

データセレクター

視覚言語指導データセットと事前トレーニング済みの MLLM (MiniGPT-4 や LLaVA など) が与えられた場合、データセレクターの最終的な目標は、事前トレーニング済みの MLLM を改善できる微調整用のサブセットを特定することです。

このサブセットを選択し、その多様性を確保するために、研究者はまずクラスタリングアルゴリズムを使用して元のデータセットを複数のカテゴリに分割しました。

選択されたマルチモーダル指導データの品質を保証するために、研究者らは、以下の表 1 に示すように、一連の評価指標を開発しました。

表 2 は、最終スコアを計算する際の各スコアの重みを示しています。

アルゴリズム 1 は、データセレクターのワークフロー全体を示しています。

実験

実験評価に使用したデータセットを以下の表3に示します。

ベンチマークスコア

表 4 は、MiniGPT-4 ベースラインモデル、ランダムにサンプリングされたデータを使用して微調整された MiniGPT-4、およびデータセレクタを使用して微調整された InstructionGPT-4 のパフォーマンスを比較しています。

InstructionGPT-4 が平均パフォーマンスが最も優れていることがわかります。具体的には、InstructionGPT-4 は、ScienceQA で 2.12%、OKVQA で 2.49%、VCR-OC で 4.19% ベースラインモデルを上回ります。

さらに、InstructionGPT-4 は、VSR を除く他のすべてのタスクでランダムサンプルを使用してトレーニングされたモデルよりも優れたパフォーマンスを発揮します。さまざまなタスクでこれらのモデルを評価および比較することで、それぞれの機能を識別し、提案されたデータセレクター (高品質のデータを識別するのに効果的なデータセレクター) の有効性を判断できます。

このような包括的な分析により、賢明なデータ選択により、さまざまなタスクにおけるモデルのゼロショットパフォーマンスを向上できることが示されています。

GPT-4 評価

LLM 自体には、固有の位置バイアスがあります。詳細については、Synced の記事「言語モデルは静かに怠けているのか?」を参照してください。新しい研究: コンテキストが長すぎる場合、モデルは中間部分をスキップします。そこで、研究者たちはこの問題を解決するための対策を講じました。具体的には、InstructionGPT-4 によって生成された応答を MiniGPT-4 によって生成された応答の前または後に配置するという 2 つの順序で応答を配置して同時に評価を実行しました。明確な審査基準を策定するために、彼らは Win-Tie-Lose フレームワークを採用しました。

1) 勝利: InstructionGPT-4 は両方のケースで勝利するか、1 勝して 1 引き分けます。

2) 同点: InstructionGPT-4 と MiniGPT-4 は 2 回同点、または 1 回勝って 1 回負けます。

3) 負け: 命令GPT-4 は 2 回負けるか、1 回負けて 1 回引き分けます。

図 1 はこの評価アプローチの結果を示しています。

60 の質問で、InstructionGPT-4 は 29 ゲームに勝ち、16 ゲームに負け、残りの 15 ゲームは引き分けでした。これは、応答品質の点で InstructionGPT-4 が MiniGPT-4 よりも大幅に優れていることを証明するのに十分です。

アブレーション研究

表5はアブレーション実験の分析結果を示しており、クラスタリングアルゴリズムの重要性とさまざまな評価スコアがわかります。

デモ

InstructionGPT-4 の視覚入力を理解し、適切な応答を生成する能力をより深く理解するために、研究者らは InstructionGPT-4 と MiniGPT-4 の画像理解と会話機能の比較評価も実施しました。分析は、画像の説明とさらなる理解を伴う顕著な例に基づいており、結果は表 6 に示されています。

指示GPT-4 は、包括的な画像の説明を提供し、画像の興味深い側面を識別するのに優れています。 MiniGPT-4 と比較すると、InstructionGPT-4 は画像内に存在するテキストを認識する能力が優れています。ここで、InstructionGPT-4 は、画像内に「Monday, just Monday」というフレーズがあることを正しく指摘しています。

詳細については、元の論文を参照してください。

<<: 中国人民大学のウェン・ジロン、ガオ・リンらによる32ページにわたるAI自律エージェントの包括的なレビュー。構築、応用、評価を網羅している。

>>: NVIDIA H100の覇権に挑戦！ IBMは人間の脳をシミュレートしてニューラルネットワークチップを作成し、効率を14倍向上させ、AIモデルの電力消費問題を解決しました