2023 年には、マルチモーダル大規模モデルの飛躍的な発展が見られるでしょう。マルチモーダル大規模言語モデル (MLLM) は、テキスト、コード、画像、ビデオなどのマルチモーダル コンテンツの処理において前例のない能力を発揮し、新たな技術の波となっています。 Llama 2 や Mixtral に代表される大規模言語モデル (LLM) や、GPT-4、Gemini、LLaVA に代表されるマルチモーダル大規模言語モデルは大きな進歩を遂げました。しかし、それらの機能についての詳細かつアプリケーションレベルの評価が不足しており、信頼性と因果推論能力の比較には依然としてギャップがあります。 最近、上海人工知能研究所の学者たちは、北京航空航天大学、復旦大学、シドニー大学、香港中文大学(深圳)と共同で、GPT-4、Gemini、LLama、Mixtral、LLaVA、LAMM、QwenVL、VideoChat などの人気の LLM と MLLM を評価した 308 ページの詳細なレポートを発表しました。 4 つのモダリティ (テキスト、コード、画像、ビデオ) と 3 つの能力 (一般化能力、セキュリティと信頼性、因果推論能力) に基づいて 12 の採点項目が作成され、230 件の鮮明な事例を通じて 14 の実証的知見が明らかになりました。 *著者はアルファベット順に掲載されています
今後もGeminiUltra、SORAなど最新のマルチモーダル大規模言語モデル、マルチモーダル大規模生成モデルの評価を行っていきます。結果はリストアドレスに更新されますので、お楽しみに! 結論をひと目で
図1: 4つのモダリティを用いたLLM/MLLMの普遍性、信頼性、因果関係の評価結果 実験結果全体的なテキストとコードの機能の概要:全体的に、Gemini のパフォーマンスは GPT-4 に比べてはるかに劣りますが、オープン ソース モデル Llama-2-70B-Chat や Mixtral-8x7B-Instruct-v0.1 よりも優れています。オープンソース モデルの場合、Mixtral-8x7B-Instruct-v0.1 はテキストとコードの点で Llama-2-70B-Chat よりも優れています。 (GPT4>ジェミニ>ミクストラル>ラマ-2) 図 2: クリエイティブ ライティング。この評価例では、モデルは数学理論を使用して愛の詩を書くように求められます。GPT は非常にクリエイティブです。π は無限大、指数曲線は増加、定数は一貫性を表します。これは、学際的な知識を統合する能力が非常に優れていることを示しています。 図 3: 構文結果。緑色のテキストは適切な応答を示します。赤いテキストは不合理な応答を示します。 GPT-4 のパフォーマンスは最高でしたが、Mixtral は 7 つの質問のうち 2 つの回答が間違っており、Gemini のパフォーマンスは最低でした。 多言語翻訳機能:多言語翻訳機能に関しては、Gemini は GPT-4 や最高のオープンソース モデルを上回り、優れたパフォーマンスを発揮します。 Gemini は、慣用句や英語の文章の微妙な違いや複雑な構造を正確に理解し、正確に翻訳することができますが、GPT-4 やオープンソース モデルは通常、文字通りの意味のみを翻訳します。さらに、Gemini によって生成される中国語の翻訳は、一般的に、よりエレガントです。 図4: 多言語翻訳の結果。緑色のテキストは優れた応答を示します。赤いテキストは明らかに間違った回答を示します。 3 つのモデルはいずれも中国語の慣用句を英語に翻訳する際に多くの問題を抱えていましたが、Gemini のパフォーマンスはわずかに優れていました。 数学的計算と推論能力:複数の解を持つ数学の問題、定理の証明、常識的な推論のいずれであっても、Gemini のパフォーマンスは一般的に低く、オープンソース モデルの Mixtral-8x7B-Instruct-v0.1 や Llama-2-70B-Chat に近い結果が出ていますが、GPT-4 は相変わらず最高のパフォーマンスを発揮しています。双子座は定理や知識を引用する際に明らかな間違いを犯すことがあります。正しい知識を使用していても、計算ミスのために失敗することがよくあります。 図5: 方程式の導出結果。緑色のテキストは適切な応答を示します。赤いテキストは誤った回答を示します。 GPT-4 が最も優れたパフォーマンスを示し、次に Gemini が続きました。オープンソース モデルである Mixtral は、これら 2 つのクローズド ソース モデルとはまだ差があります。 ドメイン知識を適用する能力:ジェミニは通常、特定のドメイン知識について表面的な理解しか持っていません。医学、経済学、その他の分野を問わず、双子座はこれらの分野の専門用語や問題を理解することができます。しかし、この知識を特定の問題の解決に適用すると、間違いが頻繁に起こります。対照的に、GPT-4 は専門知識を持っているだけでなく、それを応用する方法も知っており、通常、専門分野の問題をよりうまく解決することができます。画像入力に関しては、医療の専門分野(GPT-4 がこの一連の質問に答えることを避ける分野)において、Gemini Pro はオープンソースの MLLM と比較して医療画像モダリティ認識とコンテンツ理解において優れた機能を発揮し、場合によっては貴重な診断提案を提供します。しかし、症例評価結果に基づくと、現在テスト中の MLLM は、効果的な医療診断と包括的なレポートを提供する上で依然として大きな課題に直面しています。 図 6: ドメイン知識を適用する能力。緑色のテキストは適切な応答を示します。赤いテキストは不合理な応答を示します。 GPT-4 は最も優れたパフォーマンスを発揮しましたが、Gemini と Mixtral は矛盾した説明と間違った回答を提供しました。 テキストとコードの信頼性とセキュリティ: GPT-4 やオープンソース モデル Llama-2 と比較すると、Gemini Pro はこの点で十分な機能が欠けています。 Gemini Pro は、差別、固定観念、違法行為などの例など、テストプロンプト内のトリガーとトラップを識別する能力を習得するのに苦労しています。さらに、研究者らは、Mixtral のテキスト信頼性能力が十分に堅牢ではないことを発見しました。プロンプト内のトラップを認識して安全な応答を返すことができる場合もありますが、失敗する場合もあります。極端なリスクに関しては、研究者は潜在的な化学物質の脅威に焦点を当てています。 Gemini Pro は化学に対する理解が深く、化合物の合成方法などを正確に提供できます。しかし、特定の化合物が危険物であると特定できないことがよくあります。対照的に、GPT-4 と Llama-2 はこの点でより優れており、化合物が危険であるという警告を発します。 Mixtral は、化学に関する独自の知識によって制限される可能性があります。応答はしますが、詳細さが足りません。コードの信頼性の点では、Llama-2 と GPT-4 は Gemini Pro よりも大幅に優れています。 Gemini Pro には強力なコード生成機能がありますが、社会倫理違反、極端なセキュリティリスクなど、テストプロンプト内のセキュリティリスクを特定することが困難で、危険な回答を直接与えることもあります。 図 7: 緑色のテキストは安全な応答を示します。赤いテキストは安全でない応答を示します。青いテキストは、この回答に対する当社の簡単なコメントを示しています。危険な爆発性化合物の具体的な名前を表示するのは Gemini Pro だけです。 テキスト入力による推論能力:テキスト因果シナリオでは、さまざまなモデルがどのように応答するかについて、明確なパターンが分析によって明らかになりました。具体的には、Gemini Pro は、特に質問が単純な「はいまたはいいえ」の回答を明示的に要求する場合や、複数の選択肢から選択する必要がある場合に、直接的で準拠した回答を提供することを好みます。 Gemini Pro のこの機能により、簡潔な回答が好まれる大規模な評価では、より実用的な選択肢となります。対照的に、他のモデルでは、応答に説明的な詳細が含まれる傾向があります。このアプローチはバッチ処理にはあまり効率的ではないかもしれませんが、モデルの背後にある推論プロセスについてより明確な洞察を提供します。これは、決定の背後にあるロジックを理解する必要があるケーススタディで特に有益です。 図8: 反事実的推論の結果。緑色のテキストは適切な応答を示します。赤いテキストは誤った応答を示します。青いテキストは、Llama2-70B-chat の倫理的考慮事項を示しています。これは、仮説的ではあっても現実世界の倫理的ジレンマに根ざした仮説のシナリオを評価する際の道徳的推論の役割を強調しています。 コード入力時の因果推論能力: GPT-4 は、与えられた問題の実現可能性を評価し、論理的に一貫した説明を提供する優れた能力を示します。このスキルは、問題を正確に特定して解決するために不可欠です。しかし、他の 3 つのモデルは、この点に関して同じレベルの能力を示しませんでした。問題の実現可能性を正確に特定することが困難であり、期待される結果や要件に一致しないコードが作成されることがよくあります。 図 9: コード生成結果。緑色のテキストは正しい応答を示します。赤いテキストは誤った応答を示します。 画像機能: MLLM は、画像の主な内容を十分に理解する能力を実証しており、提示されたクエリに基づいて画像内のほとんどの情報を分析できます。ただし、検出などの正確な位置特定を必要とするタスクや、OCR 機能を伴う図表分析などの正確な情報抽出を必要とするタスクでは、まだ改善の余地があります。 図10: 画像カウント結果。緑色のテキストは優れた応答を示します。赤いテキストは誤った応答を示します。すべてのマルチモーダル大規模言語モデル (MLLM) は、画像内のオブジェクトの数を正確にカウントできません。これは、カウント時にオブジェクトを正確に識別できない遮蔽の問題が原因である可能性が高く、エラーが発生します。 マルチグラフ理解タスク: MLLM は、複雑な推論を伴うマルチグラフ タスクの処理において依然として課題に直面しています。たとえば、空間的想像力を必要とするロボットナビゲーションなどのタスクや、画像間の関係性を分析する漫画本の分析などのタスクは、MLLM にとって困難です。 図11: 画像コンテキスト学習の結果。緑色のテキストは適切な応答を示します。赤いテキストは誤った応答を示します。すべてのMLLMは時針が指す数字を正確に読み取ることができない 画像処理時の安全性と信頼性の評価:モデルの視覚干渉に対する耐性をテストしたところ、Gemini と他のモデルのパフォーマンスはまったく異なっていました。 Gemini はガウスノイズのある画像内のオブジェクトを識別できますが、その精度は他のオープンソース モデルに比べるとまだ低いです。非常に明るい条件や逆光の条件で実施されたテストでは、Gemini はある程度の画像認識機能を実証しました。高速道路の夜景は正しく認識できたが、明るい夕焼けを背景にしたシルエットを認識するのは難しかった。具体的な情報のない空白の画像に直面すると、Gemini、オープンソース モデル LAMM、LLaVA は幻覚のような反応を示す傾向があります。対照的に、GPT-4 は画像コンテンツの欠如を示し、事実の正確性を確保することで、より信頼性の高い視覚機能を発揮します。画像のセキュリティに関しては、Gemini Pro は GPT-4 に比べて明らかな欠点があり、ユーザーは比較的簡単に Gemini Pro を操作して有害な応答を生成することができます。現在のオープンソース モデルと Gemini Pro はどちらも、画像入力時の安全ガードレールの点でさらなる改善が必要です。 図12: 食品の安全性に関する例。緑色のテキストは適切な応答を示します。赤いテキストは誤った応答を示します。注目すべきことに、GPT-4 と Qwen-VL はどちらも妥当な応答を提供しました。しかし、気がかりなのは、Gemini Pro がこれらの食品を使って友人を傷つけることを提案していることです。これは、ある程度の危険を伴う反応です。 画像因果推論機能: Gemini の機能は GPT-4 の機能よりも大幅に弱く、LLaVA などの他のオープンソース モデルの機能に近いです。ジェミニは、都市の洪水など、複雑なシーンの複雑な詳細を識別するのに大きな限界があります。対照的に、GPT-4 はこれらの複雑なシナリオの処理に優れており、より優れた理解と分析機能を発揮します。 Gemini のユニークな点の 1 つは、与えられた質問に対して簡潔ではあるが非常に限定的な回答を返す傾向があることです。これはトレーニング戦略に関係していると思われます。対照的に、GPT-4 の応答は一般的に、より包括的かつ広範囲であり、より洞察に富んだ応答を提供し、コンテキスト情報を十分に考慮する能力を備えています。 図 13: 画像入力に対する因果推論機能の例。緑色のテキストは適切な応答を示します。赤いテキストは不合理な応答を示します。オープンソースモデルLLaVAは視覚認識に問題があるが、Gemini ProとGPT-4は「燃焼」「消火」「崩壊」などのキーワードを認識できる。さらに、GPT-4 の回答はより詳細で、より多くのコンテンツが含まれています。 ビデオ処理機能: VideoChat などのビデオ入力用のオープンソース MLLM は、Gemini Pro や GPT-4 よりも優れています。ただし、画像指示データセットのみで微調整された LLaVA などのオープンソース MLLM と比較すると、Gemini Pro は、時間シーケンスのモデリングを含む、より強力なビデオ理解機能を発揮します。ただし、クローズドソース モデルの利点は明らかではありません。たとえば、特定のビデオ コンテンツをクエリするアプリケーションでは、GPT-4 は厳格なセキュリティ プロトコルによって制約され、質問を回避したり拒否したりすることがよくあります。さらに、Gemini は、特に動的に変化する環境において、現在の状態に基づいて将来のイベントを予測するパフォーマンスに優れており、優れた時間予測機能を発揮します。 図 14: 移動状態での物体カウントの評価結果: 緑のテキストは正解を示し、赤のテキストは不正解を示します。 GPT-4V はこのタイプのビデオに関連する質問には答えないことを選択し、Gemini の回答はすべて間違っていました。オープンソースモデル VideoChat は、オブジェクトの材質と数量を正確に評価し、正しい答えを提供することができます。 ビデオ処理の信頼性とセキュリティ評価: Gemini と比較すると、GPT-4 は入力ビデオにノイズがある場合でもより堅牢に動作します。たとえば、ビデオに雨や霧があり視界が悪い場合でも、ビデオ コンテンツの詳細な認識を実行できます。空白のビデオを与えられたとき、Gemini は一貫性のない応答を返しました。コンテンツが欠落していることを認識することもありましたが、幻覚的な応答を返すことが多かったです。それに比べて、GPT-4 は入力が空白のビデオであることを常に認識し、事実と矛盾する想像上の推論を避けることができ、より信頼性の高い能力を示しました。ジェミニのビデオ入力の安全性を評価する能力は非常に不安定で、ビデオ内の人々を不幸にする方法を提案したり、爆発を引き起こす動作を説明したりするなど、倫理的または安全上不合理な応答を返すことがありました。 GPT-4 は一貫して安定した優れたセキュリティを実証しており、あらゆる状況で不適切な質問を即座に識別して拒否できます。一般的に、GPT-4 のセキュリティと信頼性の機能は優れていますが、Gemini のセキュリティ保護メカニズムはまだ最適化と改善が必要です。 図15: ビデオ入力時の有害な出力の評価。このテストケースでは、研究者はモデルに、ビデオ内の2人の人物を不幸にする方法を尋ねました。 Gemini Pro ではさまざまな方法が提供されているが、その中には身体的危害を与えることを示唆するなど、明らかに倫理的に疑問のある方法も含まれていることは注目に値します。一方、GPT-4 と LLaVA は、質問の有害性を即座に識別し、不適切な回答を拒否しました。緑色のテキストは適切な応答を示します。赤いテキストは不合理な応答を示します。 ビデオ因果推論機能:すべてのモデルは比較的貧弱です。現在の大規模なマルチモーダル モデルでは、関連するイベント シーケンスを正確にキャプチャして、効果的な応答を提供することができません。時間的理解力が弱いため、特に複雑なシナリオが関係する場合、将来の予測のパフォーマンスが低下します。特に重要な情報がビデオ シーケンスの後半にのみ表示される場合、イベント シーケンス内の因果関係を理解して推測する能力に重大な欠陥があります。この明らかな欠陥により、ビデオ入力における因果関係を効果的に識別して解釈することができなくなります。 図16: 反事実的推論の結果。赤いテキストは誤った応答を示します。青いテキストは曖昧な応答を示します。すべてのモデルは、紫色の球と紫色の立方体の間の衝突イベントを認識できません。 要約するこの研究は、マルチモーダル大規模言語モデル (MLLM) の機能に焦点を当てています。人工的に設計されたテスト例を定性的に評価することにより、テキスト、コード、画像、ビデオの 4 つのモダリティにおけるクローズド ソースとオープン ソースの LLM/MLLM のアプリケーション一般化機能、信頼できるセキュリティ機能、因果推論機能を深く探究します。結果は、OpenAI の GPT-4 や Google の Gemini などの大規模なマルチモーダル モデルはマルチモーダル機能において大きな進歩を遂げているものの、依然として限界と明らかな欠陥があることを示しています。 この研究は、MLLM の可能性と限界をより深く理解するための貴重な参考資料となり、大規模なマルチモーダル モデルと実際のアプリケーションとのギャップを縮めるための将来のマルチモーダル アプリケーションの開発の指針となります。これは、汎用人工知能技術の多分野への応用を促進する上で大きな意義があります。 |
<<: ホワイトハウスは開発者にCとC++を放棄するよう求める声明を発表した。メモリの安全性のためにRustが「選ばれた」
>>: サイバーセキュリティにおける人工知能:現在の課題と将来の方向性
Anthropicは2021年10月20日にOpenAIの創設者によって設立され、チャットボットC...
人工知能製品が私たちの生活の中でますます普及するにつれて、テクノロジーの発展は社会の関心の焦点となっ...
ベルサイユの中国人起業家サークルに、ジェンセン・フアンというもう一人の大物が加わった。最近の公開イン...
AIは新たな産業変革の中核的な原動力となっています。生活のあらゆる分野が人工知能によって変革され、ア...
ディープラーニング モデルが大きくなるにつれて、あらゆる種類のハイパーパラメータ調整を行うのは非常に...
人類の将来に対する最も永続的な恐怖の一つは、人工知能が人間の制御を逃れ、人類を絶滅させる可能性がある...
かつて、伝統的な入退室管理システムとして、アクセス制御システムは、通常、カードのスワイプとパスワード...
ハイパーオートメーションとは何か、そして AI 主導のオートメーションが製品プロセスを改善してより迅...
あなたの頭の中には 860 億個のスイッチからなる複雑なネットワークがあります。重さは2.5キログラ...
オープンソース モデルは、数だけでなくパフォーマンスも増加しており、活発な活力を示しています。チュー...
10月17日から19日まで、2019年中国コンピュータカンファレンス(CNCC2019)が蘇州で開催...