GPT-4 は、詳細かつ正確な画像の説明を生成する強力で並外れた能力を実証しており、言語と視覚処理における新しい時代の到来を告げています。 そのため、GPT-4 に似たマルチモーダル大規模言語モデル (MLLM) が最近注目の研究分野として浮上しており、その研究の中核は、マルチモーダル タスクを実行するための認知フレームワークとして強力な LLM を使用することです。 MLLM の予想外に優れたパフォーマンスは、従来の方法を上回るだけでなく、汎用人工知能を実現する可能性のある方法の 1 つにもなります。 有用な MLLM を作成するには、固定 LLM (LLaMA や Vicuna など) と視覚表現 (CLIP や BLIP-2 など) 間のコネクタ (MiniGPT-4、LLaVA、LLaMA-Adapter など) をトレーニングするための大規模な画像とテキストのペアのデータと、視覚と言語の微調整データが必要です。 MLLM のトレーニングは通常、事前トレーニング段階と微調整段階の 2 つの段階に分かれています。事前トレーニングの目的は、MLLM が大量の知識を獲得できるようにすることです。一方、微調整は、モデルが人間の意図をよりよく理解し、正確な応答を生成するように教えることです。 MLLM が視覚言語を理解し、指示に従う能力を高めるために、指示チューニングと呼ばれる強力な微調整手法が最近登場しました。このテクノロジーは、モデルを人間の好みに合わせて調整し、さまざまな指示の下で人間が期待する結果を生成するのに役立ちます。指導の微調整技術の開発に関しては、微調整段階で画像注釈、視覚的質問応答 (VQA)、視覚的推論データセットを導入することが建設的な方向性です。 InstructBLIP や Otter などの以前の技術では、さまざまな視覚言語データセットを使用して視覚的な指示を微調整しており、これも有望な結果が得られています。 しかし、一般的に使用されているマルチモーダル指示の微調整データセットには、応答が不正確または無関係な低品質のインスタンスが多数含まれていることが観察されています。このようなデータは誤解を招きやすく、モデルのパフォーマンスに悪影響を及ぼします。 この疑問から、研究者たちは、少量の高品質な指示に従うデータを使用して堅牢なパフォーマンスを実現できるかどうかという可能性を探求するようになりました。 最近のいくつかの研究では有望な結果が得られており、この方向性には可能性があることを示しています。例えば、Zhouらは、人間の専門家によって慎重に選択された高品質のデータを使用して微調整された言語モデルであるLIMAを提案しました。この研究は、大規模な言語モデルが、限られた量の高品質の指示に従うデータでも印象的な結果を達成できることを示しています。そこで研究者たちは、整列に関しては、少ないほうが良いという結論に至った。しかし、これまで、マルチモーダル言語モデルを微調整するために適切な高品質のデータセットを選択する方法に関する明確なガイドラインは存在しませんでした。 上海交通大学清遠研究所とリーハイ大学の研究チームがこのギャップを埋め、堅牢で効果的なデータセレクターを提案しました。このデータ セレクターは、低品質の視覚言語データを自動的に識別してフィルタリングし、最も関連性の高い有益なサンプルがモデルのトレーニングに使用されるようにします。 論文アドレス: https://arxiv.org/abs/2308.12067 研究者らは、この研究の焦点は、マルチモーダルな大規模言語モデルを微調整するための、小規模だが高品質の指示微調整データの有効性を探ることであると述べた。さらに、この論文では、マルチモーダル指導データの品質を評価するために特別に設計されたいくつかの新しい指標を紹介します。画像に対してスペクトル クラスタリングを実行した後、データ セレクターは、各視覚言語データの CLIP スコア、GPT スコア、報酬スコア、および回答の長さを組み合わせた加重スコアを計算します。 研究者らは、MiniGPT-4 を微調整するために使用された 3,400 件のオリジナル データにセレクターを適用したところ、これらのデータのほとんどが低品質であることを発見しました。研究者たちはこのデータ セレクターを使用して、データのはるかに小さい、厳選されたサブセット (わずか 200 のデータ ポイント、つまり元のデータセットのわずか 6%) を取得しました。次に、MiniGPT-4 と同じトレーニング構成を使用し、それを微調整して新しいモデル InstructionGPT-4 を作成しました。 研究者らは、これは視覚言語指示を微調整する際にデータの量よりも質の方が重要であることを示唆しており、興味深い発見だと述べている。さらに、データ品質を重視する方向へのシフトにより、MLLM の微調整を改善するための新しい、より効果的なパラダイムが提供されます。 研究者らは厳密な実験を実施し、Flick-30k、ScienceQA、VSR など 7 つの多様で複雑なオープンドメインのマルチモーダル データセットを対象に、微調整された MLLM の実験的評価に焦点を当てました。彼らは、さまざまなデータセット選択方法(データセレクターの使用、データセットのランダムサンプリング、完全なデータセットの使用)を使用して微調整されたモデルの推論パフォーマンスをさまざまなマルチモーダルタスクで比較し、その結果、InstructionGPT-4 が優れていることが示されました。 また、研究者が評価に使用した評価器は GPT-4 であることにも留意する必要があります。具体的には、研究者は prompt を使用して GPT-4 を評価ツールに変換し、LLaVA-Bench のテスト セットを使用して InstructionGPT-4 と元の MiniGPT-4 の応答結果を比較できるようにしました。 InstructionGPT-4 は、MiniGPT-4 が使用した元の命令に従うデータと比較して、微調整されたデータのわずか 6% しか使用しなかったにもかかわらず、後者は 73% のケースで同じかそれ以上の応答を返したことが判明しました。 この論文の主な貢献は次のとおりです。
方法この研究の目的は、元の微調整データセットからサブセットを自動的に選択できる、シンプルで移植可能なデータセレクターを提案することです。この目的のために、研究者らは、マルチモーダルデータセットの多様性と品質に重点を置いた選択原則を定義しました。以下に簡単な紹介をします。 選択原則 MLLM を効果的にトレーニングするには、有用なマルチモーダル指示データを選択することが重要です。最良の指導データを選択するために、研究者は多様性と品質という 2 つの重要な原則を提案しました。多様性のために、研究者は画像の埋め込みをクラスター化し、データを異なるグループに分けました。研究者らは、品質を評価するために、マルチモーダル データを効率的に評価するためのいくつかの重要な指標を採用しました。 データセレクター 視覚言語指導データセットと事前トレーニング済みの MLLM (MiniGPT-4 や LLaVA など) が与えられた場合、データ セレクターの最終的な目標は、事前トレーニング済みの MLLM を改善できる微調整用のサブセットを特定することです。 このサブセットを選択し、その多様性を確保するために、研究者はまずクラスタリング アルゴリズムを使用して元のデータセットを複数のカテゴリに分割しました。 選択されたマルチモーダル指導データの品質を保証するために、研究者らは、以下の表 1 に示すように、一連の評価指標を開発しました。 表 2 は、最終スコアを計算する際の各スコアの重みを示しています。 アルゴリズム 1 は、データ セレクターのワークフロー全体を示しています。 実験実験評価に使用したデータセットを以下の表3に示します。 ベンチマークスコア 表 4 は、MiniGPT-4 ベースライン モデル、ランダムにサンプリングされたデータを使用して微調整された MiniGPT-4、およびデータ セレクタを使用して微調整された InstructionGPT-4 のパフォーマンスを比較しています。 InstructionGPT-4 が平均パフォーマンスが最も優れていることがわかります。具体的には、InstructionGPT-4 は、ScienceQA で 2.12%、OKVQA で 2.49%、VCR-OC で 4.19% ベースライン モデルを上回ります。 さらに、InstructionGPT-4 は、VSR を除く他のすべてのタスクでランダム サンプルを使用してトレーニングされたモデルよりも優れたパフォーマンスを発揮します。さまざまなタスクでこれらのモデルを評価および比較することで、それぞれの機能を識別し、提案されたデータ セレクター (高品質のデータを識別するのに効果的なデータ セレクター) の有効性を判断できます。 このような包括的な分析により、賢明なデータ選択により、さまざまなタスクにおけるモデルのゼロショット パフォーマンスを向上できることが示されています。 GPT-4 評価 LLM 自体には、固有の位置バイアスがあります。詳細については、Synced の記事「言語モデルは静かに怠けているのか?」を参照してください。新しい研究: コンテキストが長すぎる場合、モデルは中間部分をスキップします。そこで、研究者たちはこの問題を解決するための対策を講じました。具体的には、InstructionGPT-4 によって生成された応答を MiniGPT-4 によって生成された応答の前または後に配置するという 2 つの順序で応答を配置して同時に評価を実行しました。明確な審査基準を策定するために、彼らは Win-Tie-Lose フレームワークを採用しました。 1) 勝利: InstructionGPT-4 は両方のケースで勝利するか、1 勝して 1 引き分けます。 2) 同点: InstructionGPT-4 と MiniGPT-4 は 2 回同点、または 1 回勝って 1 回負けます。 3) 負け: 命令GPT-4 は 2 回負けるか、1 回負けて 1 回引き分けます。 図 1 はこの評価アプローチの結果を示しています。 60 の質問で、InstructionGPT-4 は 29 ゲームに勝ち、16 ゲームに負け、残りの 15 ゲームは引き分けでした。これは、応答品質の点で InstructionGPT-4 が MiniGPT-4 よりも大幅に優れていることを証明するのに十分です。 アブレーション研究 表5はアブレーション実験の分析結果を示しており、クラスタリングアルゴリズムの重要性とさまざまな評価スコアがわかります。 デモ InstructionGPT-4 の視覚入力を理解し、適切な応答を生成する能力をより深く理解するために、研究者らは InstructionGPT-4 と MiniGPT-4 の画像理解と会話機能の比較評価も実施しました。分析は、画像の説明とさらなる理解を伴う顕著な例に基づいており、結果は表 6 に示されています。 指示GPT-4 は、包括的な画像の説明を提供し、画像の興味深い側面を識別するのに優れています。 MiniGPT-4 と比較すると、InstructionGPT-4 は画像内に存在するテキストを認識する能力が優れています。ここで、InstructionGPT-4 は、画像内に「Monday, just Monday」というフレーズがあることを正しく指摘しています。 詳細については、元の論文を参照してください。 |
<<: 中国人民大学のウェン・ジロン、ガオ・リンらによる32ページにわたるAI自律エージェントの包括的なレビュー。構築、応用、評価を網羅している。
>>: NVIDIA H100の覇権に挑戦! IBMは人間の脳をシミュレートしてニューラルネットワークチップを作成し、効率を14倍向上させ、AIモデルの電力消費問題を解決しました
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ニューラル ネットワークが優れた画家であることは周知の事実です。スケッチを風景画に変えたり、異なるス...
「Qwen-72Bモデルは11月30日に発売されます。」数日前、Xプラットフォームのネットユーザー...
[51CTO.com オリジナル記事] Baidu は 2019 年第 2 四半期の財務報告を発表し...
人工知能技術の発展に伴い、人工知能はあらゆる分野で広く利用されるようになり、人類社会に広範かつ深遠な...
画像分類を始めたいが、どこから始めればよいか分からない。どの事前トレーニング済みネットワークを使用す...
12月20日、ファーウェイクラウド開発者デーと2023イノベーションシェアリングサミットが成功裏に開...
アルゴリズム面接はマイクロソフトが開発した面接方法かもしれません。現在多くの企業が追随しており、私た...
[[187351]]新しいツールの出現を促すために、機械学習やデータ分析の分野は「オープンソース」の...
2019年中国人工知能産業年次大会で「2019年人工知能発展報告書」が発表されました。唐潔教授は、関...
[[238409]]ソートは、コンピュータ サイエンスにおいて常に最も基本的なアルゴリズムの 1 ...