GPT-5 プレビュー！アレン人工知能研究所がGPT-5の新機能を予測する最も強力なマルチモーダルモデルを発表

GPT-5 はいつ登場し、どのような機能を持つのでしょうか?

アレンAI研究所の新しいモデルがその答えを示唆している。

Allen Institute for AI が発表した Unified-IO 2 は、テキスト、画像、音声、ビデオ、アクションシーケンスを処理および生成できる初のモデルです。

この新しい高度な AI モデルは数十億のデータポイントを使用してトレーニングされており、モデルサイズはわずか 70 億ですが、これまでで最も広範なマルチモーダル機能を備えています。

論文アドレス: https://arxiv.org/pdf/2312.17172.pdf

では、Unified-IO 2 と GPT-5 の関係は何でしょうか?

アレン人工知能研究所は、2022年6月という早い時期に、画像と言語を処理できる最初のマルチモーダルモデルの1つであるUnified-IOの第1世代を発表しました。

同じ頃、OpenAI は 2023 年 3 月の正式リリースに向けて GPT-4 を社内でテストしていました。

したがって、Unified-IO は将来の大規模 AI モデルを垣間見るものとして捉えることができます。

つまり、OpenAI は GPT-5 を社内でテストしており、数か月以内にリリースする予定です。

今回 Unified-IO 2 が実証した機能は、新年にも期待できるものとなるでしょう。

GPT-5 のような新しい AI モデルは、より多くのモダリティを処理し、広範な学習を通じて多くのタスクをネイティブに実行し、オブジェクトやロボットとのやり取りを基本的に理解することができます。

Unified-IO 2 のトレーニングデータには、10 億の画像とテキストのペア、1 兆のテキストタグ、1 億 8,000 万のビデオクリップ、1 億 3,000 万のテキスト付き画像、300 万の 3D アセット、100 万のロボットエージェントのモーションシーケンスが含まれます。

研究チームは、合計 120 を超えるデータセットを、220 の視覚、言語、聴覚、動作のタスクをカバーする 600 TB のパッケージに統合しました。

Unified-IO 2 は、トレーニングを安定させ、マルチモーダル信号を効果的に活用するために、いくつかの変更を加えたエンコーダー/デコーダーアーキテクチャを採用しています。

モデルは質問に答え、指示に基づいてテキストを作成し、テキストの内容を分析できます。

モデルは、画像コンテンツを識別し、画像の説明を提供し、画像処理タスクを実行し、テキストの説明に基づいて新しい画像を作成することもできます。

また、説明や指示に基づいて音楽やサウンドを生成したり、ビデオを分析してそれに関する質問に答えたりすることもできます。

ロボットデータを使用してトレーニングすることで、Unified-IO 2 は、指示をロボットのアクションシーケンスに変換するなど、ロボットシステムのアクションを生成することもできます。

マルチモーダルトレーニングのおかげで、画像上の特定のオーディオトラックで使用されている楽器にラベルを付けるなど、さまざまなモダリティを処理することもできます。

Unified-IO 2 は、画像生成と理解、自然言語理解、ビデオとオーディオの理解、ロボット操作など、35 を超えるベンチマークで優れたパフォーマンスを発揮します。

ほとんどのタスクでは、専用モデルに匹敵するか、それを上回ることができます。

Unified-IO 2 は、画像タスクの GRIT ベンチマークで現在最高スコアを達成しました (GRIT は、モデルが画像ノイズやその他の問題にどのように対処するかをテストするために使用されます)。

研究者らは現在、Unified-IO 2 をさらに拡張し、データ品質を向上させ、エンコーダーデコーダーモデルを業界標準のデコーダーモデルアーキテクチャに変換することを計画しています。

ユニファイドIO 2

Unified-IO 2 は、画像、テキスト、オーディオ、アクションを理解し、生成できる初の自己回帰マルチモーダルモデルです。

さまざまなモダリティを統合するために、研究者は入力と出力（画像、テキスト、音声、アクション、境界ボックスなど）を共有セマンティック空間にラベル付けし、単一のエンコーダー/デコーダートランスフォーマーモデルを使用して処理します。

モデルのトレーニングに使用されるデータの量は膨大で、さまざまなモダリティから取得されるため、研究者はトレーニングプロセス全体を改善するために一連の手法を採用しました。

複数のモダリティにわたる信号の自己教師あり学習を効果的に促進するために、クロスモーダルノイズ除去と生成を組み合わせた、ノイズ除去目的の新しいマルチモーダル混合を開発しました。

非常に変動の大きいシーケンスを処理するために、トレーニングスループットを 4 倍に増加させる動的パッケージングも開発されました。

トレーニング中の安定性とスケーラビリティの問題を克服するために、研究者らは、2D 回転埋め込み、QK 正規化、スケールコサインアテンションメカニズムなど、パーセプトロンリサンプラーのアーキテクチャを変更しました。

指示を微調整する場合は、既存のタスクを使用する場合でも、新しいタスクを作成する場合でも、各タスクに明確なプロンプトがあることを確認します。オープンエンドのタスクも含まれており、タスクと指導の多様性を高めるために、あまり一般的ではないパターンの合成タスクが作成されます。

統一されたタスク表現

マルチモーダルデータを共有表現空間内のタグのシーケンスにエンコードするには、次の側面が関係します。

テキスト、スパース構造、および操作

テキストの入力と出力は、LLaMA のバイトペアエンコーディングを使用してトークン化され、境界ボックス、キーポイント、カメラポーズなどのスパース構造は離散化され、語彙に追加された 1000 個の特別なトークンを使用してエンコードされます。

ポイントは 2 つのマーカー (x、y) を使用してエンコードされ、ボックスは 4 つのマーカーのシーケンス (左上隅と右下隅) を使用してエンコードされ、3D 直方体は 12 個のマーカー (投影中心、仮想深度、対数正規化されたボックスサイズ、連続同心回転をエンコード) を使用して表されます。

具体化されたタスクの場合、個別のロボットアクションがテキストコマンド（「前進」など）として生成されます。ロボットの状態 (位置や回転など) をエンコードするには、特殊なタグが使用されます。

画像と密な構造

画像は、事前にトレーニングされた Visual Transformer (ViT) を使用してエンコードされます。 ViT の 2 番目と最後から 2 番目のレイヤーのパッチ機能が連結され、低レベルと高レベルの両方の視覚情報がキャプチャされます。

画像を生成する際、VQ-GAN を使用して画像を個別のタグに変換します。ここでは、パッチサイズが 8 × 8 の高密度事前トレーニング済み VQ-GAN モデルを使用して、256 × 256 の画像をコードブックサイズが 16512 の 1024 トークンにエンコードします。

深度、表面法線、バイナリセグメンテーションマスクなどの各ピクセルのラベルは、RGB 画像として表されます。

オーディオ

U-IO 2 は、最大 4.08 秒のオーディオをスペクトログラムにエンコードし、事前にトレーニングされた Audio Spectrogram Transformer (AST) を使用してスペクトログラムをエンコードし、画像 ViT と同様に、AST の 2 番目と最後から 2 番目のレイヤー機能を連結して線形レイヤーを適用することで入力埋め込みを構築します。

オーディオを生成する際、ViT-VQGAN を使用してオーディオを個別のトークンに変換します。モデルのパッチサイズは 8 × 8、256 × 128 スペクトログラムは 512 個のトークンにエンコードされ、コードブックのサイズは 8196 です。

画像と音声の履歴

このモデルでは、最大 4 つの追加画像とオーディオクリップを入力として使用できます。これらも ViT または AST を使用してエンコードされ、その後、パーセプトロンリサンプラーによって特徴がさらに少ない数 (画像の場合は 32、オーディオの場合は 16) に圧縮されます。

これにより、シーケンスの長さが大幅に短縮され、履歴の要素をコンテキストとして使用しながら、モデルが画像やオーディオクリップを詳細に調べることができるようになります。

安定したトレーニングのためのモデルアーキテクチャとテクニック

研究者たちは、他のモードを統合するにつれて、U-IO の後に標準実装を使用するとトレーニングがますます不安定になることを観察しました。

次の図 (a) と (b) に示すように、画像生成のみのトレーニング (緑の曲線) では、安定した損失と勾配ノルムの収束が実現します。

単一のモダリティと比較すると、画像とテキストのタスクの組み合わせ (オレンジ色の曲線) を導入すると、勾配ノルムはわずかに増加しますが、安定した状態が保たれます。ただし、ビデオモダリティ (青い曲線) を含めると、勾配ノルムが無制限に向上します。

図の(c)と(d)に示すように、モデルのXXLバージョンをすべてのモダリティでトレーニングすると、350kステップ後に損失が爆発的に増加し、400kステップで次のトークンの予測精度が大幅に低下します。

これに対処するために、研究者たちはさまざまなアーキテクチャの変更を加えました。

各 Transformer レイヤーに Rotational Position Embedding (RoPE) が適用されます。非テキストモダリティの場合、RoPE は 2D の場所に拡張されます。画像およびオーディオモダリティが含まれる場合、ドット積アテンション計算の前に、LayerNorm が Q と K に適用されます。

さらに、パーセプトロンリサンプラーを使用して各画像フレームとオーディオクリップを固定数のトークンに圧縮し、スケールコサインアテンションを使用してパーセプトロンでより厳密な正規化を適用することで、トレーニングを大幅に安定化します。

数値的不安定性を回避するために、float32 アテンションロジットも有効にし、事前トレーニング中に ViT と AST をフリーズし、命令チューニングの最後にそれらを微調整します。

上の図は、入力と出力のモダリティの異質性にもかかわらず、モデルの事前トレーニング損失が安定していることを示しています。

マルチモーダルトレーニングの目的

この記事は UL2 パラダイムに従います。画像とオーディオのターゲットについては、次の 2 つの類似したパラダイムが定義されています。

[R]: マスクノイズ除去。入力画像または音声パッチの特徴のx%をランダムにマスクし、モデルに再構築させます。

[S]: モデルが他の入力モードの条件下でターゲットモードを生成することを要求します。

トレーニング中、入力テキストにはタスクを示すモダリティタグ ([テキスト]、[画像]、または [オーディオ]) とパラダイムタグ ([R]、[S]、または [X]) がプレフィックスとして付けられ、自己回帰には動的マスキングが使用されます。

上の図に示すように、画像と音声のマスキングノイズ除去における問題の 1 つは、デコーダー側での情報漏洩です。

ここでの解決策は、デコーダー内のトークンをマスクすることです（予測されていない場合）。これにより、因果予測が妨げられることなく、データ漏洩が排除されます。

効率の最適化

大量のマルチモーダルデータをトレーニングすると、トランスフォーマーの入力と出力の両方でシーケンスの長さが大きく変化します。

この問題に対処するために、ここではパッキングが使用されます。複数の例のトークンが 1 つのシーケンスにパックされ、アテンションがマスクされて、トランスフォーマーが例間で相互に注意を向けるのを防ぎます。

トレーニング中は、ヒューリスティックを使用して、モデルにストリーミングされるデータを再配置し、長いサンプルを一緒にパックできる短いサンプルと一致させます。当社のダイナミックパッケージングにより、トレーニングのスループットが約 4 倍に向上します。

命令のチューニング

マルチモーダル命令の調整は、モデルがさまざまなモダリティにわたって異なるスキルと機能を持ち、さらに新しい独自の命令に適応できるようにするための重要なプロセスです。

研究者らは、幅広い教師ありデータセットとタスクを組み合わせて、マルチモーダル指示チューニングデータセットを構築しました。

命令チューニングデータの分布は上図の通りです。全体として、指示のチューニングミックスは、プロンプトデータ 60%、事前トレーニングから継承されたデータ 30% (壊滅的な忘却を回避するため)、既存のデータソースを使用して構築されたタスク拡張データ 6%、および自由形式のテキスト 4% (チャットのような返信を可能にするため) で構成されます。

<<: Google Gemini から OpenAI Q* まで: 生成 AI 研究の包括的なレビュー

>>: SelfOcc: 純粋な視覚に基づく初の自己教師あり 3D 占有予測 (清華大学)