マルチモーダル大規模モデルの最も包括的なレビューはここにあります!マイクロソフトの研究者7人が5つの主要トピックについて協力し、119ページの文書を公開した。

マルチモーダル大規模モデルの最も包括的なレビューはここにあります!マイクロソフトの研究者7人が5つの主要トピックについて協力し、119ページの文書を公開した。

マルチモーダル大規模モデルの最も包括的なレビューはここにあります!

マイクロソフトの中国人研究者7名によって書かれたもので、 119ページにわたります

すでに確立されているもの現在も最先端にあるものの2種類のマルチモーダル大規模モデル研究の方向性から出発し、5つの具体的な研究テーマを包括的にまとめています。

  • 視覚的な理解
  • ビジュアル生成
  • 統一されたビジュアルモデル
  • LLMがサポートするマルチモーダル大規模モデル
  • マルチモーダルエージェント

そして、1つの現象に注目します。

マルチモーダル基本モデルは、特化されたものから汎用的なものへと移行しました

Ps. 論文の冒頭にドラえもんのイメージを直接描いたのもこのためです。

このレビュー(レポート)を読むのに適した人は誰ですか?

Microsoft の言葉を借りれば:

プロの研究者でも学生でも、マルチモーダル基本モデルの基礎と最新の開発について学びたい人にとって、この本は最適です。

見てみましょう〜

マルチモーダル大規模モデルの現状について簡単に紹介する

これら 5 つの特定のトピックのうち、最初の 2 つは現在成熟した分野ですが、最後の 3 つはまだ最先端の分野です。

1. 視覚的な理解

この部分の中心的な問題は、強力な画像理解バックボーンを事前にトレーニングする方法です。

下の図に示すように、モデルのトレーニングに使用されるさまざまな監視信号に応じて、方法を 3 つのカテゴリに分類できます。
ラベル教師、言語教師(CLIPで表現) 、画像のみの自己教師。

最後の方法は、教師信号が画像自体からマイニングされることを意味します。一般的な方法には、対照学習、非対照学習、マスク画像モデリングなどがあります。

これらの方法に加えて、この記事では、マルチモーダル融合、領域レベルおよびピクセルレベルの画像理解などのカテゴリでの事前トレーニング方法についてもさらに詳しく説明します。

上記各手法の代表的な作品も掲載しています。

2. ビジュアル生成

このトピックは AIGC の中核であり、画像生成に限定されず、ビデオ、3D ポイント クラウドなども含まれます。

さらに、その有用性は芸術やデザインなどの分野を超えて広がり、トレーニング データの合成にも非常に役立ち、マルチモーダル コンテンツの理解と生成のループを閉じるのに直接役立ちます。

このセクションでは、人間の意図と厳密に一致する効果を生成することの重要性と方法(画像生成に重点を置く)に焦点を当てます。

具体的には、空間的に制御可能な生成、テキストベースの再編集、テキストプロンプトのより良い追従、概念のカスタマイズの生成という 4 つの側面から実行されます。

このセクションの最後では、著者らは現在の研究動向と短期的な将来の研究方向についての見解も共有しています。

つまり、人間の意図をよりよく理解し、上記の 4 つの方向をより柔軟かつ互換性を持って適用できる、一般化されたヴィンセンシアン モデルを開発することです。

4つの方向の代表的な作品も掲載されています。

3. 統一された視覚モデル

このセクションでは、統一されたビジョン モデルを構築する際の課題について説明します。

まず、入力タイプが異なります。

第二に、異なるタスクには異なる粒度が必要であり、出力にも異なる形式が必要です。

3 番目に、モデリングに加えて、データに関する課題もあります。

たとえば、異なるタイプのラベル注釈のコストは大きく異なり、収集コストはテキスト データのコストよりもはるかに高いため、視覚データの規模は通常、テキスト コーパスの規模よりもはるかに小さくなります。

しかし、困難にもかかわらず、著者らは次のように指摘している。

CV 分野におけるユニバーサルかつ統合されたビジョン システムの開発への関心が高まっており、次の 3 つのトレンドが生まれています。

1 つは、クローズド セットからオープン セットへの変更で、これによりテキストと視覚をより適切に一致させることができます。

2 つ目は、特定のタスクから一般的な機能への移行です。この移行の最も重要な理由は、新しいタスクごとに新しいモデルを開発するコストが高すぎることです。

3 番目に、静的モデルからプロンプト可能なモデルまで、LLM はさまざまな言語およびコンテキスト プロンプトを入力として受け取り、微調整なしでユーザーが望む出力を生成できます。私たちが構築したい一般的なビジョン モデルには、同様のコンテキスト学習機能が必要です。

4. LLMがサポートするマルチモーダル大規模モデル

このセクションでは、マルチモーダル大規模モデルを包括的に検討します。

まず、背景と代表的な例を詳しく調べ、OpenAI のマルチモーダル研究の進捗状況について議論し、この分野における既存の研究のギャップを特定します。

次に、著者らは大規模言語モデルにおける命令の微調整の重要性を詳細に検討します。

次に、著者は、マルチモーダル大規模モデルにおける指導の微調整の作業について、その原理、重要性、応用を含めて説明しました。

最後に、より深い理解を深めるために、マルチモーダル モデルの分野におけるいくつかの高度なトピックについて触れます。

視覚と言語のモダリティ、マルチモーダルなコンテキスト学習、効率的なパラメータ トレーニング、ベンチマークを超えたコンテンツ。

5. マルチモーダルエージェント

いわゆるマルチモーダル エージェントは、さまざまなマルチモーダル エキスパートを LLM に接続して、複雑なマルチモーダル理解の問題を解決する方法です。

この部分では、著者は主にこのモデルの変換をレビューし、この方法と従来の方法との基本的な違いをまとめます。

次に、この方法がどのように機能するかを全員に示すために、MM-REACT が代表として使用されました。

次に、マルチモーダル エージェントの構築方法、マルチモーダル理解におけるその新たな機能、そして最新かつ最高の LLM や潜在的に何百万もの機器を組み込むために簡単に拡張する方法を包括的にまとめます。

もちろん、最後には、マルチモーダルエージェントの改善/評価方法や、それによって構築されるさまざまなアプリケーションなど、高度なトピックについても説明します。

著者について

このレポートの著者は合計 7 人です。

発起人であり全体の責任者はChunyuan Liです。

彼は Microsoft Redmond の主任研究員であり、デューク大学で博士号を取得しました。彼の最近の研究対象は、CV と NLP の大規模な事前トレーニングです。

彼は冒頭の紹介と締めくくりの要約を担当し、「LLM でトレーニングされた大規模マルチモーダル モデル」の章を執筆しました。

中心となる著者は 4 人います。

  • ジェ・ガン

現在はApple AI/MLに入社し、大規模ビジュアルおよびマルチモーダル基本モデルの研究を担当しています。以前は、Microsoft Azure AI の主任研究員を務めていました。北京大学で学士号と修士号を取得し、デューク大学で博士号を取得しました。

  • ヤン・ジェンユアン

彼はマイクロソフトの上級研究員です。ロチェスター大学で博士号を取得し、ACM SIGMM Outstanding Doctoral Award などの栄誉を受賞しています。学士号は中国科学技術大学で取得しました。

  • ヤン・ジャンウェイ

Microsoft Research Redmond のディープラーニング グループの主任研究員。ジョージア工科大学博士号取得。

  • リンジエ・リー(女性)

Microsoft Cloud & AI Computer Vision Group の研究者。パデュー大学で修士号を取得。

彼らはそれぞれ残りの4つのテーマ別章の執筆を担当しました。

レビューアドレス: https://arxiv.org/abs/2309.10020

<<:  マスクのロボットが進化した!新たなスキルが解き放たれ、エンドツーエンドのニューラルネットワークが実現

>>:  K2 K2、上海交通大学チームが70億パラメータの地球科学言語モデルを発表

ブログ    
ブログ    
ブログ    

推薦する

C# アルゴリズムの選択ソートの簡単な分析

C# 選択ソート アルゴリズムとは何ですか?これはどのように達成されるのでしょうか?この紹介が C#...

マイクロソフトが第1四半期の業績報告を発表: AIサービスの需要が事業成長を牽引

マイクロソフトは10月25日、2024年第1四半期の財務報告を発表した。AI製品とクラウド事業の成長...

...

ガートナー:テクノロジープロバイダーの33%が2年以内にAIに100万ドル以上を投資する

[[427302]]ガートナーの新しい調査によると、人工知能 (AI) 技術計画を持つテクノロジーお...

人工知能と機械学習の違いを本当に理解していますか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

3つの主要なSQL ServerアルゴリズムのI/Oコストの簡単な分析

1. ネストループ結合アルゴリズム:考え方は非常に単純かつ直接的です。関係 R の各タプル r を、...

...

ディープラーニングを使用した高速顔モデリング

導入顔のモデリングは、漫画のキャラクターのモデリング、顔のアートのデザイン、リアルタイムの顔の再構築...

疫病流行後、自動運転開発の方向性がより明確になりました!

自動運転は長い間、人々に「とても人気があるが、とても遠い存在」という印象を与えてきました。それは、何...

安全な生産を守り、ロボット、IoTなどの技術サポートを提供します。

近年、世界的な工業化の加速を背景に、製造業、建設業、化学業などの産業を中心に労働災害や死亡者数が増加...

能力と信頼性の両方を備えることはできますか? GPT-4やGeminiなどのマルチモーダルモデルの評価レポートはこちら

2023 年には、マルチモーダル大規模モデルの飛躍的な発展が見られるでしょう。マルチモーダル大規模言...

ミストラルAIの新モデルはGPT-4をベンチマークしており、オープンソースではなくマイクロソフトと協力、ネットユーザー:当初の意図を忘れた

生成AIの分野で、新たな重量級の製品が登場しました。月曜日の夜、ミストラルAIは「フラッグシップ」の...

予測分析が米国におけるインフルエンザ流行の乗り切りにどのように役立つか

新型コロナウイルスの武漢での感染拡大が続く中、米国でのインフルエンザも大きな注目を集めている。毎年の...

さようなら、宅配便業者さん!

この時代の変化のスピードは想像を絶します!次から次へと生み出される想像力豊かな革新は、目を見張るほど...

Cloudera は研究から実稼働までエンタープライズ機械学習を加速します

クラウド向けに最適化された機械学習および分析のための最新プラットフォームを提供する Cloudera...