復旦大学などがAnyGPTをリリース:画像、音楽、テキスト、音声をサポートする任意のモーダル入出力

復旦大学などがAnyGPTをリリース:画像、音楽、テキスト、音声をサポートする任意のモーダル入出力

最近、OpenAIのビデオ生成モデルSoraが人気を集めており、生成AIモデルのマルチモーダル機能が再び広く注目を集めています。

現実世界は本質的にマルチモーダルであり、生物は視覚、言語、音、触覚などのさまざまなチャネルを通じて情報を認識および交換します。マルチモーダル システムを開発するための有望な方向性は、LLM のマルチモーダル認識機能を強化することです。これには主に、マルチモーダル エンコーダーと言語モデルの統合が含まれ、さまざまなモダリティにわたって情報を処理し、LLM のテキスト処理機能を活用して一貫した応答を生成できるようにします。

ただし、この戦略はテキスト生成に限定されており、マルチモーダル出力は含まれていません。いくつかの先駆的な研究は、言語モデルにおけるマルチモーダルな理解と生成を可能にすることで大きな進歩を遂げてきましたが、これらのモデルには、画像や音声などの単一の非テキスト モダリティしか含まれていません。

上記の問題を解決するために、復旦大学のQiu Xipeng氏のチームは、Multimodal Art Projection(MAP)および上海人工知能研究所の研究者と共同で、さまざまなモダリティのコンテンツを任意の組み合わせで理解および推論できるAnyGPTと呼ばれるマルチモーダル言語モデルを提案しました。具体的には、AnyGPT は、テキスト、音声、画像、音楽などの複数のモダリティが絡み合った指示を理解し、適切なマルチモーダルの組み合わせを巧みに選択して応答することができます。

たとえば、音声プロンプトが与えられた場合、AnyGPT は音声、画像、音楽の形式で包括的な応答を生成できます。

テキスト + 画像の形式でプロンプトが与えられると、AnyGPT はプロンプトの要件に従って音楽を生成できます。


  • 論文アドレス: https://arxiv.org/pdf/2402.12226.pdf
  • プロジェクトのホームページ: https://junzhan2000.github.io/AnyGPT.github.io/

方法の紹介

AnyGPT は離散表現を利用して、音声、テキスト、画像、音楽などのさまざまなモダリティを均一に処理します。

あらゆるモダリティからあらゆるモダリティへの画像生成タスクを完了するために、本研究では統一された方法でトレーニングできる包括的なフレームワークを提案しました。下の図 1 に示すように、フレームワークは次の 3 つの主要コンポーネントで構成されています。

  • マルチモーダルトークナイザー
  • バックボーンネットワークとしてのマルチモーダル言語モデル
  • マルチモーダルデトークン化

その中で、トークナイザーは連続した非テキスト モダリティを個別のトークンに変換し、それをマルチモーダル インターリーブ シーケンスに配置します。次に、次のトークン予測トレーニング目標を使用して言語モデルをトレーニングします。推論中、マルチモーダル トークンは、関連付けられたデトークナイザーによって元の表現にデコードされます。生成の品質を高めるために、音声クローン作成や画像の超解像度などのアプリケーションを含む、生成された結果を後処理するマルチモーダル拡張モジュールを導入できます。

AnyGPT は、現在の Large Language Model (LLM) アーキテクチャやトレーニング パラダイムを変更することなく、安定してトレーニングできます。代わりに、データ レベルの前処理に完全に依存しているため、新しい言語を追加するのと同様に、新しいモダリティを LLM にシームレスに統合できます。

この研究の主な課題は、マルチモーダルインターリーブ命令トレースデータが不足していることです。マルチモーダル アライメントの事前トレーニングを完了するために、研究チームは生成モデルを使用して、初の大規模な「any-to-any」マルチモーダル指示データセットである AnyInstruct-108k を合成しました。これは、さまざまなモダリティを複雑に織り交ぜた 108,000 のマルチターン ダイアログ サンプルで構成されており、モデルがマルチモーダル入力と出力の任意の組み合わせを処理できるようにします。

このデータを正確に表現するには通常、多数のビットが必要であり、結果として長いシーケンスが生成されます。シーケンスの長さに応じて計算の複雑さが指数関数的に増加するため、言語モデルにとっては特に厳しいものとなります。この問題に対処するために、本研究では、意味情報モデリングと知覚情報モデリングを含む 2 段階の高忠実度生成フレームワークを採用しました。まず、言語モデルのタスクは、意味レベルで融合され、整列されたコンテンツを生成することです。次に、非自己回帰モデルが、マルチモーダル セマンティック トークンを知覚レベルで高忠実度のマルチモーダル コンテンツに変換し、パフォーマンスと効率のバランスを実現します。

実験

実験結果によると、AnyGPT はあらゆるモダリティ間の対話タスクを完了しながら、すべてのモダリティで専用モデルと同等のパフォーマンスを達成できることが示されており、離散表現によって言語モデル内の複数のモダリティを効果的かつ便利に統合できることが実証されています。

この研究では、すべてのモダリティにわたるマルチモーダル理解および生成タスクをカバーする、事前トレーニング済みのベース AnyGPT の基本機能を評価しました。評価の目的は、事前トレーニング中に異なるモダリティ間の一貫性をテストすることであり、具体的には、各モダリティのテキストから X へのタスクと X からテキストへのタスクをテストします。ここで、X はそれぞれ画像、音楽、音声です。

現実世界のシナリオをシミュレートするために、すべての評価はゼロショット モードで実行されます。つまり、AnyGPT は評価中に下流のトレーニング サンプルを微調整したり事前トレーニングしたりしません。この困難な評価設定では、モデルを未知のテスト分布に一般化する必要があります。

評価結果によると、AnyGPT は一般的なマルチモーダル言語モデルとして、さまざまなマルチモーダル理解および生成タスクで優れたパフォーマンスを発揮します。

画像

この研究では、画像説明タスクにおけるAnyGPTの画像理解能力を評価し、その結果を表2に示します。

テキストから画像への生成タスクの結果を表3に示します。

この研究では、LibriSpeechデータセットのテストサブセットで単語誤り率(WER)を計算し、Wav2vec 2.0とWhisper Large V2をベースラインとして使用して、自動音声認識(ASR)タスクにおけるAnyGPTのパフォーマンスを評価します。評価結果を表5に示します。

音楽

この研究では、生成された音楽とテキストの説明の類似性を測定する客観的な指標としてCLAP_scoreスコアを使用し、MusicCapsベンチマークでの音楽理解および生成タスクにおけるAnyGPTのパフォーマンスを評価しました。評価結果を表6に示します。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<: 

>>:  興奮はテレビシリーズに匹敵、マスク氏とウルトラマン、そしてOpenAIとの「愛憎関係」

ブログ    
ブログ    
ブログ    

推薦する

...

人間が作成したデータは高価すぎます!開発者はAI合成データをひそかに使用してモデルをトレーニングしている

現在、開発者は AI によって生成されたデータをひそかに使用して AI モデルをトレーニングしていま...

機械学習を実装するには?

機械学習の実装は、AI を活用した製品やサービスの成功にとって重要なステップです。 MLOps が企...

ビッグモデルの要約は信頼できるでしょうか? GPT-4を使用すると、人間の筆記よりも滑らかで、幻覚も少なくなります

自然言語生成 (NLG) のタスクとしてのテキスト要約は、主に長いテキストを短い要約に圧縮するために...

...

畳み込みニューラルネットワークによる画像認識の仕組み

[[202854]]画像認識とは何ですか? なぜ必要なのですか?マシンビジョンの概念では、画像認識と...

週刊「ニュース速報」 | AIエリートは数百万ドルを稼ぐ? !李開復氏がAI業界のチャンスを明かす!

AIエリートが100万以上稼ぐ!マスク氏が設立したOpenAIが誤って給与情報を公開4月23日のニ...

モデルはわずか7M:軽量で高精度な顔認識方式DBFace

わずか 7M サイズのこの顔認識モデルは、世界最大の自撮り写真に写っているほぼすべての人物を認識しま...

...

滴滴出行のスマート交通建設における3つの短期目標:信号機の改善、バスシステムのオンライン化、予測スケジュール

[51CTO.comより] 両会期中の政府活動報告に人工知能が盛り込まれた。万鋼科学技術部長は、中国...

2024年のデータセンターのトレンド: より高温、より高密度、よりスマート

今日のデータセンター業界は、AI テクノロジーの急速な普及、ムーアの法則の減速、そして厄介な持続可能...

大雨後のドローンと衛星ネットワーク

7月21日、鄭州市の西40キロにある米河鎮は停電、インターネット、道路が遮断され、完全な情報孤島とな...

人工知能の時代に教育はどのように適応すべきでしょうか?

これからの学びは、従来の学校中心の島型ではなく、新しいタイプの島型になります。家庭、インターネット、...