復旦大学などがAnyGPTをリリース:画像、音楽、テキスト、音声をサポートする任意のモーダル入出力

復旦大学などがAnyGPTをリリース:画像、音楽、テキスト、音声をサポートする任意のモーダル入出力

最近、OpenAIのビデオ生成モデルSoraが人気を集めており、生成AIモデルのマルチモーダル機能が再び広く注目を集めています。

現実世界は本質的にマルチモーダルであり、生物は視覚、言語、音、触覚などのさまざまなチャネルを通じて情報を認識および交換します。マルチモーダル システムを開発するための有望な方向性は、LLM のマルチモーダル認識機能を強化することです。これには主に、マルチモーダル エンコーダーと言語モデルの統合が含まれ、さまざまなモダリティにわたって情報を処理し、LLM のテキスト処理機能を活用して一貫した応答を生成できるようにします。

ただし、この戦略はテキスト生成に限定されており、マルチモーダル出力は含まれていません。いくつかの先駆的な研究は、言語モデルにおけるマルチモーダルな理解と生成を可能にすることで大きな進歩を遂げてきましたが、これらのモデルには、画像や音声などの単一の非テキスト モダリティしか含まれていません。

上記の問題を解決するために、復旦大学のQiu Xipeng氏のチームは、Multimodal Art Projection(MAP)および上海人工知能研究所の研究者と共同で、さまざまなモダリティのコンテンツを任意の組み合わせで理解および推論できるAnyGPTと呼ばれるマルチモーダル言語モデルを提案しました。具体的には、AnyGPT は、テキスト、音声、画像、音楽などの複数のモダリティが絡み合った指示を理解し、適切なマルチモーダルの組み合わせを巧みに選択して応答することができます。

たとえば、音声プロンプトが与えられた場合、AnyGPT は音声、画像、音楽の形式で包括的な応答を生成できます。

テキスト + 画像の形式でプロンプトが与えられると、AnyGPT はプロンプトの要件に従って音楽を生成できます。


  • 論文アドレス: https://arxiv.org/pdf/2402.12226.pdf
  • プロジェクトのホームページ: https://junzhan2000.github.io/AnyGPT.github.io/

方法の紹介

AnyGPT は離散表現を利用して、音声、テキスト、画像、音楽などのさまざまなモダリティを均一に処理します。

あらゆるモダリティからあらゆるモダリティへの画像生成タスクを完了するために、本研究では統一された方法でトレーニングできる包括的なフレームワークを提案しました。下の図 1 に示すように、フレームワークは次の 3 つの主要コンポーネントで構成されています。

  • マルチモーダルトークナイザー
  • バックボーンネットワークとしてのマルチモーダル言語モデル
  • マルチモーダルデトークン化

その中で、トークナイザーは連続した非テキスト モダリティを個別のトークンに変換し、それをマルチモーダル インターリーブ シーケンスに配置します。次に、次のトークン予測トレーニング目標を使用して言語モデルをトレーニングします。推論中、マルチモーダル トークンは、関連付けられたデトークナイザーによって元の表現にデコードされます。生成の品質を高めるために、音声クローン作成や画像の超解像度などのアプリケーションを含む、生成された結果を後処理するマルチモーダル拡張モジュールを導入できます。

AnyGPT は、現在の Large Language Model (LLM) アーキテクチャやトレーニング パラダイムを変更することなく、安定してトレーニングできます。代わりに、データ レベルの前処理に完全に依存しているため、新しい言語を追加するのと同様に、新しいモダリティを LLM にシームレスに統合できます。

この研究の主な課題は、マルチモーダルインターリーブ命令トレースデータが不足していることです。マルチモーダル アライメントの事前トレーニングを完了するために、研究チームは生成モデルを使用して、初の大規模な「any-to-any」マルチモーダル指示データセットである AnyInstruct-108k を合成しました。これは、さまざまなモダリティを複雑に織り交ぜた 108,000 のマルチターン ダイアログ サンプルで構成されており、モデルがマルチモーダル入力と出力の任意の組み合わせを処理できるようにします。

このデータを正確に表現するには通常、多数のビットが必要であり、結果として長いシーケンスが生成されます。シーケンスの長さに応じて計算の複雑さが指数関数的に増加するため、言語モデルにとっては特に厳しいものとなります。この問題に対処するために、本研究では、意味情報モデリングと知覚情報モデリングを含む 2 段階の高忠実度生成フレームワークを採用しました。まず、言語モデルのタスクは、意味レベルで融合され、整列されたコンテンツを生成することです。次に、非自己回帰モデルが、マルチモーダル セマンティック トークンを知覚レベルで高忠実度のマルチモーダル コンテンツに変換し、パフォーマンスと効率のバランスを実現します。

実験

実験結果によると、AnyGPT はあらゆるモダリティ間の対話タスクを完了しながら、すべてのモダリティで専用モデルと同等のパフォーマンスを達成できることが示されており、離散表現によって言語モデル内の複数のモダリティを効果的かつ便利に統合できることが実証されています。

この研究では、すべてのモダリティにわたるマルチモーダル理解および生成タスクをカバーする、事前トレーニング済みのベース AnyGPT の基本機能を評価しました。評価の目的は、事前トレーニング中に異なるモダリティ間の一貫性をテストすることであり、具体的には、各モダリティのテキストから X へのタスクと X からテキストへのタスクをテストします。ここで、X はそれぞれ画像、音楽、音声です。

現実世界のシナリオをシミュレートするために、すべての評価はゼロショット モードで実行されます。つまり、AnyGPT は評価中に下流のトレーニング サンプルを微調整したり事前トレーニングしたりしません。この困難な評価設定では、モデルを未知のテスト分布に一般化する必要があります。

評価結果によると、AnyGPT は一般的なマルチモーダル言語モデルとして、さまざまなマルチモーダル理解および生成タスクで優れたパフォーマンスを発揮します。

画像

この研究では、画像説明タスクにおけるAnyGPTの画像理解能力を評価し、その結果を表2に示します。

テキストから画像への生成タスクの結果を表3に示します。

この研究では、LibriSpeechデータセットのテストサブセットで単語誤り率(WER)を計算し、Wav2vec 2.0とWhisper Large V2をベースラインとして使用して、自動音声認識(ASR)タスクにおけるAnyGPTのパフォーマンスを評価します。評価結果を表5に示します。

音楽

この研究では、生成された音楽とテキストの説明の類似性を測定する客観的な指標としてCLAP_scoreスコアを使用し、MusicCapsベンチマークでの音楽理解および生成タスクにおけるAnyGPTのパフォーマンスを評価しました。評価結果を表6に示します。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<: 

>>:  興奮はテレビシリーズに匹敵、マスク氏とウルトラマン、そしてOpenAIとの「愛憎関係」

ブログ    
ブログ    
ブログ    

推薦する

ディープラーニングのこれらの概念をすべて理解できましたか? TF、TLT、TRT、DS....

最近、NVIDIA GPU 製品や SDK を使用してディープラーニングを学習している学生に多く出会...

OpenAIがChatGPTをアップデート:画像と音声入力をサポート

最近、OpenAI は ChatGPT の新バージョンのリリースを発表し、音声入力と画像入力という ...

再びH800を去勢しますか?米国商務省の新しい政策はGPU輸出に対する規制を強化し、今週発表される予定である。

ロイター通信は今週、米国が中国へのGPU輸出をさらに制限する新たな規制を導入すると独占的に報じた。制...

...

ガートナー 2019 人工知能成熟サイクルのトレンド

このガートナーのハイプサイクルは、AIが企業に及ぼすさまざまな影響を強調しています。ガートナーの 2...

Google Deepmind、楽器とボーカルで音楽を生成するLyria AIオーディオモデルを発表

11月21日、Deepmindは楽器とボーカルで音楽を生成できるLyriaというオーディオモデルをリ...

...

スマートなモノのインターネットを導入する時が来た

[[427797]]画像ソース: https://pixabay.com/images/id-567...

AIが皮膚がんの診断で17カ国の皮膚科医58人に勝利

現代医学の発展は、病気の診断と治療のための新しいツール、テクノロジー、方法を開発してきた医師と科学者...

最新の米国の世論調査によると、人工知能技術に対する国民の信頼は昨年に比べて低下している。

ChatGPTなどのツールのリリース後、生成型人工知能(GenAI)が人工知能技術における注目の的...

機械学習でサプライチェーンを改善する10の方法

現在、企業は機械学習を使用することで、予測エラー率、需要計画の生産性、コスト削減、納期厳守において ...

AI時代なのに、まだビッグデータが分からない?

[[322803]]近年、IT 業界でどの技術方向が最もホットであるかと聞かれれば、それは ABC...

...

ニューラルネットワークが大きいほど良いのはなぜですか? NeurIPSの論文が証明:堅牢性は一般化の基礎である

ニューラルネットワークの研究方向が徐々に超大規模な事前トレーニング済みモデルへと移行するにつれて、研...

新たな美容問題:彼女がAIではないことをどうやって証明するか

私の家族の皆さん、人間として生きることが昨今こんなにも困難になっているとは誰が想像したでしょうか?最...