モデルの壊滅的な忘却は現在重要なホットトピックとなっており、GPT-4 でもそれを回避することはできません。 最近、カリフォルニア大学バークレー校、ニューヨーク大学などの研究者らは、大規模なマルチモーダルモデルを微調整すると壊滅的な忘却が生じる可能性があることを発見した。 論文アドレス: https://arxiv.org/abs/2309.10313 論文では、研究チームは、MLLM の壊滅的な忘却を研究するための最初の評価フレームワークである EMT (Evaluating MulTimodality) を紹介しました。 (古い二次元遺伝子が移動した) 複数のベンチマークで 4 つのモデルを評価した結果、ほとんどのモデルが、基盤となるビジュアル エンコーダー (CLIP) と同様の分類パフォーマンスを維持できないことがわかりました。 一方、1 つのデータセットで LLaVA を微調整すると、他のデータセットで壊滅的な忘却が発生する可能性があります。 MLLM の EMT 評価プロセスは次のとおりです。 これを実現するために、(1)分類タスクから画像を入力して各MLLMに画像分類器として動作するように促し、(2)分類タスクから単一のラベルに明示的に回答するようにMLLMに要求します。そして、別の LLM を使用して各出力の正確性を評価します。 馬怡教授もこの研究について提言し、いくつかの新しいタスクの微調整によって達成されたパフォーマンスの向上は、以前の能力の大幅な低下を犠牲にして達成されたと述べた。 何が起こっているのか見てみましょう。 微調整後、大型モデルはより忘れやすくなりましたGPT-4 の後、マルチモーダル大規模言語モデル (MLLM) に関する一連の研究が登場しました。 業界では、事前にトレーニングされたビジュアル エンコーダーをオープン ソース LLM と統合し、生成されたビジュアル言語モデルに対して命令のチューニングを実行するのが一般的です。 多くの微調整された MLLM は、一般的な視覚言語理解において優れた能力を発揮しますが、これらのモデルは依然として壊滅的な忘却に悩まされています。 つまり、モデルは微調整データセットに過剰適合する傾向があり、事前トレーニングタスクのパフォーマンスが低下します。 画像分類における壊滅的な忘却は、CV および ML コミュニティで広く研究されてきました。 しかし、MLLM の最近の開発は、主に視覚的な質問応答用のマルチモーダル チャットボットの作成に重点を置いており、基本的な画像分類機能の評価はおろか、MLLM における壊滅的な忘却の調査も行われていません。 そうは言っても、これまでの MLLM 評価フレームワークは、主に「認知的推論能力」や「幻覚」の評価に焦点を当てており、MLLM で壊滅的な忘却がどのように発生するかを研究する必要性を無視していました。 要約すると、最新の研究は 2 つの重要な貢献をしています。 - 私たちは、MLLM における壊滅的な忘却現象を評価するために特別に設計されたフレームワークである EMT を提案します。 研究者の知る限り、これは分類を通じて MLLM における壊滅的な忘却を研究する初の評価フレームワークです。 EMT を通じて、研究チームは、テストされたほぼすべてのモデルが視覚エンコーダの分類パフォーマンスを維持できなかったことを発見しました。 - LLaVAの微調整を試みました。 実験結果によると、適度な微調整は微調整を必要としないタスクには有益ですが、過度の微調整は最終的にこれらのタスクで壊滅的な忘却につながることになります。 EMT: オープンソースのマルチモーダル大規模モデルの評価具体的には、EMT の動作原理は次のとおりです。 (1)まず、分類タスクから画像を入力します。 (2)次に、各データセットについて、テストMLLMに入力画像を分類し、提供されたプロンプトを使用してその出力を収集するように依頼する。 (3)次に、MLLMの出力は特定の形式に従わない可能性があるため、研究者はGPT-3.5を使用して分類精度を評価した。 (4)最後に、出力は異なるデータセットに対するMLLMの予測精度をテストします。 オープンソース MLLM 壊滅的な忘却 研究者らはまずEMTを使用して、LLaVA、Otter、LENS、InstructBLIPの4つのモデルを評価しました。 MNIST、CIFAR10、CIFAR100、miniImageNet での分類精度を以下に紹介します。研究チームは、基本的な ViTCLIP モデルに従って、表示される放射状グラフを差別化しました。 テストされた MLLM のほとんどは、基盤となるビジュアル エンコーダーと同様のパフォーマンスを達成できませんが、注目に値するものもいくつかあります。 - InstructBLIP-7bは唯一の例外であり、ビジュアルエンコーダよりも優れています - LENSはテストされたすべてのモデルの中で全体的な分類性能が最も悪い MNIST、CIFAR-10、CIFAR-100、miniImagenet におけるさまざまな MLLM の EMT 評価精度 予測結果をテストする研究者たちは、さまざまなデータセットにおけるさまざまなモデルの出力を分析し、分類の精度に影響を与える 3 つの主要な要因を発見しました。 - 誤った予測: 他の分類タスクと同様に、MLLM は誤った予測を行うことがあります。 次の例では、LLaVA-7B は MNIST 分類で 0 を誤って 8 として分類します。 - 本質的な幻覚: テスト済みの MLLM は、関連性があるように見えても不正確または検証できないコンテンツを生成することがあります。つまり、生成された出力はソース コンテンツと直接矛盾します。 一例として、LENS に CIFAR-10 を分類するよう依頼することが挙げられます。 EMT ヒントは、テスト MLLM にすべてのクラス ラベルにわたって 1 つのオブジェクトのみを認識するように明示的に指示することに注意してください。 これらの明確な指示にもかかわらず、LENS は依然として本質的に幻覚的な出力を生成します。つまり、飛行機、車、鳥、猫、鹿、犬、カエル、馬、複数のラベルを含む回答です。 - 外部の錯覚: 出力には元のソース コンテンツとの検証可能な接続がありません。 以下の例では、生成された出力テキストに「水族館の魚」というラベルが部分的に含まれていますが、検証が難しいだけでなく、プロンプトで概説された元の要求とはまったく関係のない追加の記述子も表示されています。 LLaVAの微調整次に、研究者らは EMT を使用して、LLaVA の微調整中の精度の変化を評価しました。 ここでは、微調整のためのベース MLLM として LLaVA-7b と LLaVA-13b を使用し、それぞれ MNIST、CIFAR-10、CIFAR-100、miniImagenet で微調整実験を実施しました。 具体的な方法は、(1)線形アダプタ層(linearと表記)と、(2)線形アダプタ層とLoraを使用したLLM(loraと表記)を微調整することです。 下の図は、3 エポックの微調整の結果を示しています。 LLaVA のパフォーマンスは微調整データセットでは確かに向上しますが、図からは MLLM の微調整に関する重要な問題が明らかになります。
この現象は予想外ではありませんが、注目に値します。モデルは、微調整に使用されたデータセット以外のデータセットにさらされていないため、壊滅的な忘却に似た効果が観察されるのは当然です。 微調整実験の結果、次のことがわかりました。 - 1つのデータセットの微調整は、他のデータセットの壊滅的な忘却につながる可能性があります。この現象は、線形微調整とLora微調整の両方で発生します。 - Lora 微調整は線形微調整よりも忘却を多く引き起こす 次に、研究者らは精度曲線を提供することで、微調整のプロセスをより詳細に研究する予定です。 分類曲線から次のことがわかります。 - 線形微調整は普遍的であり、RGBデータセット(CIFAR10、CIFAR100、miniImageNet)を使用した線形微調整は、最初のエポックで他のRGBデータセットの精度も向上させることができる。 - Lora の微調整には線形微調整のような普遍性はありません 予測結果をテストする研究者が LLaVA を微調整した結果を調べたところ、次のことがわかりました。
この現象をさらに説明するために、研究チームは、EMT キューを使用してさまざまなデータセットで微調整された LLaVA-7b と LLaVA-13b を分類する明確な例を示しました。 以下のデモが示すように、CIFAR-10 の微調整モデルを CIFAR10 でテストすると、LLaVA は実際にオブジェクトを正常に認識できます。 しかし、他のデータセットで微調整した後、LLaVA モデルは CIFAR-10 分類で幻覚を起こし始めます。 この例では、MNIST 微調整モデルを使用して CIFAR-10 を分類すると、モデルはキーワード「飛行機」を部分的に生成しただけでなく、同時に数字「8」の幻覚出力も生成しました。 さらに、研究者らは、CIFAR-100 および miniImagenet の微調整モデルでも同様の現象を観察しました。 具体的には、これらの微調整されたモデルは幻覚を起こし始め、CIFAR-100 モデルの「蝶」や miniImagenet モデルの「航空母艦」など、「飛行機」を「飛行機」に類似または関連するカテゴリとして予測します。 上記の例は、次のことを示しています。 - MLLMを微調整すると、微調整データセットの分類パフォーマンスが実際に向上します。 - 他のデータセットでMLLMを微調整すると、微調整されたMLLMが微調整データセットを記憶し、テキストを幻覚させるため、壊滅的な忘却につながる。 著者についてザイ・ユエシャン Yuexiang Zhai は、カリフォルニア大学バークレー校の博士課程の学生で、Yi Ma 教授と Sergey Levine 教授の指導を受けています。 シェンバントン Peter Tong (Shengbang Tong) は NYU Courant CS の新しい博士課程の学生で、Yann LeCun 教授と Xie Saining 教授が彼の指導教員です。 以前は、カリフォルニア大学バークレー校でコンピューターサイエンス、応用数学(優等)、統計学(優等)を専攻していました。彼はバークレー人工知能研究所 (BAIR) の研究者であり、Ma Yi 教授と Jacob Steinhardt 教授を指導者として指導を受けていました。 彼の研究対象は、世界モデル、教師なし/自己教師あり学習、生成モデル、マルチモーダルモデルです。 シャオ・リー Xiao Li は、深圳にある香港中文大学のデータサイエンス学院の助教授です。 これに先立ち、彼は2016年から2020年にかけて香港中文大学でティエリー・ブルー教授とアンソニー・マンチョ・ソ教授の指導の下、博士号を取得しました。 2012年から2016年まで、浙江理工大学で学士号取得のために勉強しました。 ム・カイ Mu Cai 氏はウィスコンシン大学マディソン校のコンピューターサイエンスの博士課程の学生で、Yong Jae Lee 教授の指導を受けています。 彼の研究対象は、ディープラーニングとコンピュータービジョンの交差点、特に視覚 LLM、3D シーン理解、自己教師あり学習です。 清 玖 Qing Qu 氏は、ミシガン大学アナーバー校工学部電気工学・コンピューターサイエンス学科の ECE 助教授です。彼はまた、ミシガンデータサイエンス研究所 (MIDAS)、ミシガン応用学際数学センター (MCAIM)、ミシガン計算発見工学研究所 (MICDE) にも所属しています。 彼は2011年に清華大学で学士号を取得し、2018年にコロンビア大学で博士号を取得しました。 2018 年から 2020 年まで、ニューヨーク大学のデータサイエンス センターのムーア スローン フェローを務めました。 彼は、SPARS'15 最優秀学生論文賞の受賞者であり、2016 年度 Microsoft Machine Learning PhD フェローシップの受賞者でもあります。彼は2022年に全米科学財団CAREER賞、2023年にAmazon AWS人工知能賞を受賞しました。 彼の研究の関心は、信号処理、データ サイエンス、機械学習、数値最適化の交差点にあります。彼は特に、機械学習、数値最適化、高次元幾何学のツールを使用して、高次元データから低複雑性のモデルを学習し、イメージング科学や科学的発見に応用する計算方法に興味を持っています。 最近、彼の主な関心は、低次元モデリングの観点から深層ネットワークを理解することです。 イー・マ Ma Yi 教授は、IEEE、ACM、SIAM のフェローです。現在は、香港大学の香港同心財団データサイエンス研究所の所長であり、カリフォルニア大学バークレー校の電気工学およびコンピューターサイエンス学部の教授でもあります。 彼は1995年に清華大学でオートメーションと応用数学の学士号を取得し、1997年にカリフォルニア大学バークレー校で数学の修士号と電気工学およびコンピュータサイエンスの修士号を取得し、2000年に同大学で電気工学およびコンピュータサイエンスの博士号を取得しました。 馬教授は、2000年から2011年までイリノイ大学アーバナ・シャンペーン校(UIUC)の電気・コンピュータ工学科で教鞭を執りました。2009年から2014年までは、マイクロソフトリサーチアジアのコンピュータビジョングループのディレクター兼主席研究員を務めました。2014年から2017年までは、上海科技大学情報科学技術学部の教授兼学部長を務めました。2018年、カリフォルニア大学バークレー校の電気工学・コンピュータサイエンス学科に教員として加わりました。 彼は、コンピュータービジョン、一般化主成分分析、高次元データ分析の分野で、60 本以上のジャーナル論文、120 本以上の会議論文、3 冊の教科書を出版しています。 彼は 2004 年に国立科学財団キャリア賞、2005 年にアメリカ航空宇宙局若手研究者賞を受賞しました。彼は、1999 年の国際コンピュータ ビジョン会議 (ICCV) で David Marr 最優秀コンピュータ ビジョン論文賞を受賞しました。また、2004 年のヨーロッパ コンピュータ ビジョン カンファレンス (ECCV) で最優秀論文賞の佳作を受賞し、2009 年のアジア コンピュータ ビジョン カンファレンス (ACCV) で最優秀学術論文賞を受賞しました。 さらに、馬教授は ICCV 2013 のプログラム チェア、および ICCV 2015 のゼネラル チェアを務めました。 |
>>: ジェネレーティブ AI が画像検索をどのように再定義するか
昨日、李栄浩は目が小さいことで再び注目を集めた。 「特殊効果では李容浩の目は大きくできない」というト...
今日のドローンは、ビデオ録画だけでなく、害虫や病気の問題を防ぐための農業での使用など、幅広い用途に使...
過去数十年にわたり、AI ツールは、コンピューター サイエンスから製造、医学、物理学、生物学、さらに...
実際のアプリケーションでは、顔認識は認識精度に対する要求が高いだけでなく、高い効率も求められます。特...
人工知能は急速に発展しており、多くの人が脅威を感じています。しかし実際には、取って代わられることを心...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
Adobe Max 2021 イベントは予定通り開催されます!このイベントの最も興味深い特徴の 1 ...
多くのニューラル ネットワーク モデルと同様に、オブジェクト検出モデルは大量のデータでトレーニングす...
[[348542]]韓国の新人歌手ハヨンが10月8日、人工知能作曲ロボットEvoMがプロデュースし...
ハルビンで開催された2019年中国科学技術協会年次大会において、情報技術分野のハイエンドシンクタンク...