GPT-5 プレビュー!アレン人工知能研究所がGPT-5の新機能を予測する最も強力なマルチモーダルモデルを発表

GPT-5 プレビュー!アレン人工知能研究所がGPT-5の新機能を予測する最も強力なマルチモーダルモデルを発表

GPT-5 はいつ登場し、どのような機能を持つのでしょうか?

アレンAI研究所の新しいモデルがその答えを示唆している。

Allen Institute for AI が発表した Unified-IO 2 は、テキスト、画像、音声、ビデオ、アクション シーケンスを処理および生成できる初のモデルです。

この新しい高度な AI モデルは数十億のデータ ポイントを使用してトレーニングされており、モデル サイズはわずか 70 億ですが、これまでで最も広範なマルチモーダル機能を備えています。

論文アドレス: https://arxiv.org/pdf/2312.17172.pdf

では、Unified-IO 2 と GPT-5 の関係は何でしょうか?

アレン人工知能研究所は、2022年6月という早い時期に、画像と言語を処理できる最初のマルチモーダルモデルの1つであるUnified-IOの第1世代を発表しました。

同じ頃、OpenAI は 2023 年 3 月の正式リリースに向けて GPT-4 を社内でテストしていました。

したがって、Unified-IO は将来の大規模 AI モデルを垣間見るものとして捉えることができます。

つまり、OpenAI は GPT-5 を社内でテストしており、数か月以内にリリースする予定です。

今回 Unified-IO 2 が実証した機能は、新年にも期待できるものとなるでしょう。

GPT-5 のような新しい AI モデルは、より多くのモダリティを処理し、広範な学習を通じて多くのタスクをネイティブに実行し、オブジェクトやロボットとのやり取りを基本的に理解することができます。

Unified-IO 2 のトレーニング データには、10 億の画像とテキストのペア、1 兆のテキスト タグ、1 億 8,000 万のビデオ クリップ、1 億 3,000 万のテキスト付き画像、300 万の 3D アセット、100 万のロボット エージェントのモーション シーケンスが含まれます。

研究チームは、合計 120 を超えるデータセットを、220 の視覚、言語、聴覚、動作のタスクをカバーする 600 TB のパッケージに統合しました。

Unified-IO 2 は、トレーニングを安定させ、マルチモーダル信号を効果的に活用するために、いくつかの変更を加えたエンコーダー/デコーダー アーキテクチャを採用しています。

モデルは質問に答え、指示に基づいてテキストを作成し、テキストの内容を分析できます。

モデルは、画像コンテンツを識別し、画像の説明を提供し、画像処理タスクを実行し、テキストの説明に基づいて新しい画像を作成することもできます。

また、説明や指示に基づいて音楽やサウンドを生成したり、ビデオを分析してそれに関する質問に答えたりすることもできます。

ロボットデータを使用してトレーニングすることで、Unified-IO 2 は、指示をロボットのアクションシーケンスに変換するなど、ロボットシステムのアクションを生成することもできます。

マルチモーダルトレーニングのおかげで、画像上の特定のオーディオトラックで使用されている楽器にラベルを付けるなど、さまざまなモダリティを処理することもできます。

Unified-IO 2 は、画像生成と理解、自然言語理解、ビデオとオーディオの理解、ロボット操作など、35 を超えるベンチマークで優れたパフォーマンスを発揮します。

ほとんどのタスクでは、専用モデルに匹敵するか、それを上回ることができます。

Unified-IO 2 は、画像タスクの GRIT ベンチマークで現在最高スコアを達成しました (GRIT は、モデルが画像ノイズやその他の問題にどのように対処するかをテストするために使用されます)。

研究者らは現在、Unified-IO 2 をさらに拡張し、データ品質を向上させ、エンコーダー デコーダー モデルを業界標準のデコーダー モデル アーキテクチャに変換することを計画しています。

ユニファイドIO 2

Unified-IO 2 は、画像、テキスト、オーディオ、アクションを理解し、生成できる初の自己回帰マルチモーダル モデルです。

さまざまなモダリティを統合するために、研究者は入力と出力(画像、テキスト、音声、アクション、境界ボックスなど)を共有セマンティック空間にラベル付けし、単一のエンコーダー/デコーダー トランスフォーマー モデルを使用して処理します。

モデルのトレーニングに使用されるデータの量は膨大で、さまざまなモダリティから取得されるため、研究者はトレーニングプロセス全体を改善するために一連の手法を採用しました。

複数のモダリティにわたる信号の自己教師あり学習を効果的に促進するために、クロスモーダルノイズ除去と生成を組み合わせた、ノイズ除去目的の新しいマルチモーダル混合を開発しました。

非常に変動の大きいシーケンスを処理するために、トレーニング スループットを 4 倍に増加させる動的パッケージングも開発されました。

トレーニング中の安定性とスケーラビリティの問題を克服するために、研究者らは、2D 回転埋め込み、QK 正規化、スケール コサイン アテンション メカニズムなど、パーセプトロン リサンプラーのアーキテクチャを変更しました。

指示を微調整する場合は、既存のタスクを使用する場合でも、新しいタスクを作成する場合でも、各タスクに明確なプロンプトがあることを確認します。オープンエンドのタスクも含まれており、タスクと指導の多様性を高めるために、あまり一般的ではないパターンの合成タスクが作成されます。

統一されたタスク表現

マルチモーダル データを共有表現空間内のタグのシーケンスにエンコードするには、次の側面が関係します。

テキスト、スパース構造、および操作

テキストの入力と出力は、LLaMA のバイト ペア エンコーディングを使用してトークン化され、境界ボックス、キーポイント、カメラ ポーズなどのスパース構造は離散化され、語彙に追加された 1000 個の特別なトークンを使用してエンコードされます。

ポイントは 2 つのマーカー (x、y) を使用してエンコードされ、ボックスは 4 つのマーカーのシーケンス (左上隅と右下隅) を使用してエンコードされ、3D 直方体は 12 個のマーカー (投影中心、仮想深度、対数正規化されたボックス サイズ、連続同心回転をエンコード) を使用して表されます。

具体化されたタスクの場合、個別のロボットアクションがテキストコマンド(「前進」など)として生成されます。ロボットの状態 (位置や回転など) をエンコードするには、特殊なタグが使用されます。

画像と密な構造

画像は、事前にトレーニングされた Visual Transformer (ViT) を使用してエンコードされます。 ViT の 2 番目と最後から 2 番目のレイヤーのパッチ機能が連結され、低レベルと高レベルの両方の視覚情報がキャプチャされます。

画像を生成する際、VQ-GAN を使用して画像を個別のタグに変換します。ここでは、パッチ サイズが 8 × 8 の高密度事前トレーニング済み VQ-GAN モデルを使用して、256 × 256 の画像をコードブック サイズが 16512 の 1024 トークンにエンコードします。

深度、表面法線、バイナリセグメンテーションマスクなどの各ピクセルのラベルは、RGB 画像として表されます。

オーディオ

U-IO 2 は、最大 4.08 秒のオーディオをスペクトログラムにエンコードし、事前にトレーニングされた Audio Spectrogram Transformer (AST) を使用してスペクトログラムをエンコードし、画像 ViT と同様に、AST の 2 番目と最後から 2 番目のレイヤー機能を連結して線形レイヤーを適用することで入力埋め込みを構築します。

オーディオを生成する際、ViT-VQGAN を使用してオーディオを個別のトークンに変換します。モデルのパッチ サイズは 8 × 8、256 × 128 スペクトログラムは 512 個のトークンにエンコードされ、コードブックのサイズは 8196 です。

画像と音声の履歴

このモデルでは、最大 4 つの追加画像とオーディオ クリップを入力として使用できます。これらも ViT または AST を使用してエンコードされ、その後、パーセプトロン リサンプラーによって特徴がさらに少ない数 (画像の場合は 32、オーディオの場合は 16) に圧縮されます。

これにより、シーケンスの長さが大幅に短縮され、履歴の要素をコンテキストとして使用しながら、モデルが画像やオーディオ クリップを詳細に調べることができるようになります。

安定したトレーニングのためのモデルアーキテクチャとテクニック

研究者たちは、他のモードを統合するにつれて、U-IO の後に標準実装を使用するとトレーニングがますます不安定になることを観察しました。

次の図 (a) と (b) に示すように、画像生成のみのトレーニング (緑の曲線) では、安定した損失と勾配ノルムの収束が実現します。

単一のモダリティと比較すると、画像とテキストのタスクの組み合わせ (オレンジ色の曲線) を導入すると、勾配ノルムはわずかに増加しますが、安定した状態が保たれます。ただし、ビデオ モダリティ (青い曲線) を含めると、勾配ノルムが無制限に向上します。

図の(c)と(d)に示すように、モデルのXXLバージョンをすべてのモダリティでトレーニングすると、350kステップ後に損失が爆発的に増加し、400kステップで次のトークンの予測精度が大幅に低下します。

これに対処するために、研究者たちはさまざまなアーキテクチャの変更を加えました。

各 Transformer レイヤーに Rotational Position Embedding (RoPE) が適用されます。非テキスト モダリティの場合、RoPE は 2D の場所に拡張されます。画像およびオーディオ モダリティが含まれる場合、ドット積アテンション計算の前に、LayerNorm が Q と K に適用されます。

さらに、パーセプトロン リサンプラーを使用して各画像フレームとオーディオ クリップを固定数のトークンに圧縮し、スケール コサイン アテンションを使用してパーセプトロンでより厳密な正規化を適用することで、トレーニングを大幅に安定化します。

数値的不安定性を回避するために、float32 アテンション ロジットも有効にし、事前トレーニング中に ViT と AST をフリーズし、命令チューニングの最後にそれらを微調整します。

上の図は、入力と出力のモダリティの異質性にもかかわらず、モデルの事前トレーニング損失が安定していることを示しています。

マルチモーダルトレーニングの目的

この記事は UL2 パラダイムに従います。画像とオーディオのターゲットについては、次の 2 つの類似したパラダイムが定義されています。

[R]: マスクノイズ除去。入力画像または音声パッチの特徴のx%をランダムにマスクし、モデルに再構築させます。

[S]: モデルが他の入力モードの条件下でターゲットモードを生成することを要求します。

トレーニング中、入力テキストにはタスクを示すモダリティ タグ ([テキスト]、[画像]、または [オーディオ]) とパラダイム タグ ([R]、[S]、または [X]) がプレフィックスとして付けられ、自己回帰には動的マスキングが使用されます。

上の図に示すように、画像と音声のマスキングノイズ除去における問題の 1 つは、デコーダー側での情報漏洩です。

ここでの解決策は、デコーダー内のトークンをマスクすることです(予測されていない場合)。これにより、因果予測が妨げられることなく、データ漏洩が排除されます。

効率の最適化

大量のマルチモーダル データをトレーニングすると、トランスフォーマーの入力と出力の両方でシーケンスの長さが大きく変化します。

この問題に対処するために、ここではパッキングが使用されます。複数の例のトークンが 1 つのシーケンスにパックされ、アテンションがマスクされて、トランスフォーマーが例間で相互に注意を向けるのを防ぎます。

トレーニング中は、ヒューリスティックを使用して、モデルにストリーミングされるデータを再配置し、長いサンプルを一緒にパックできる短いサンプルと一致させます。当社のダイナミック パッケージングにより、トレーニングのスループットが約 4 倍に向上します。

命令のチューニング

マルチモーダル命令の調整は、モデルがさまざまなモダリティにわたって異なるスキルと機能を持ち、さらに新しい独自の命令に適応できるようにするための重要なプロセスです。

研究者らは、幅広い教師ありデータセットとタスクを組み合わせて、マルチモーダル指示チューニングデータセットを構築しました。

命令チューニングデータの分布は上図の通りです。全体として、指示のチューニング ミックスは、プロンプト データ 60%、事前トレーニングから継承されたデータ 30% (壊滅的な忘却を回避するため)、既存のデータ ソースを使用して構築されたタスク拡張データ 6%、および自由形式のテキスト 4% (チャットのような返信を可能にするため) で構成されます。

<<:  Google Gemini から OpenAI Q* まで: 生成 AI 研究の包括的なレビュー

>>:  SelfOcc: 純粋な視覚に基づく初の自己教師あり 3D 占有予測 (清華大学)

ブログ    

推薦する

北京大学やテンセントなどが言語を使ってマルチモーダル情報を整合させるLanguageBindを提案し、複数のランキングを更新した。

現代社会では、情報の伝達やコミュニケーションはもはや単一のモードに限定されなくなりました。私たちは、...

ローコード プラットフォームに関する不完全な推奨事項!

ソフトウェア開発者向けのローコード機能それでは、ソフトウェア開発者に機械学習機能を提供するローコード...

...

多言語自然言語処理 (NLP) で言語の壁を打ち破ります!

自然言語処理は言語の壁を打ち破り、人間と機械間の相互作用とコミュニケーションを強化します。自然言語処...

機械学習における線形代数の理解に役立つ 10 の例

線形代数は、ベクトル、行列、線形変換を扱う数学の分野です。これは機械学習の重要な基盤であり、アルゴリ...

人工知能の今後5年間で世界が注目する10人

[[251996]]十分に大きな技術的放射効果により、人工知能は世界経済の発展において主導的な地位に...

...

AIの第一人者ジェフ・ディーン氏がGoogleのAI事業を統括

Googleの人工知能事業のトップレベルで人事異動があった。19年間Googleに在籍してきた人工知...

...

AIと機械学習が建設業界にもたらす変化

建設業界は長い間、伝統的な手作業のプロセスで知られてきましたが、テクノロジーの進歩により急速に変化し...

...

人工知能やビッグデータ製品の開発において、特に注意すべき点は何でしょうか?

近年、人工知能は科学技術の発展の重要な方向となっており、ビッグデータの収集、マイニング、応用の技術は...

毎日のアルゴリズム: 完全順列問題

[[435870]]繰り返しのない数字のシーケンスが与えられた場合、そのシーケンスのすべての可能な順...

スマート製造技術:効率的な生産の未来?

2020年の初め以来、工業および製造業はCOVID-19パンデミックの影響を受けています。工場は、...