GitHub ホットリスト 1 位: 数百万のトークン コンテキスト、動画も生成可能、カリフォルニア大学バークレー校制作

GitHub ホットリスト 1 位: 数百万のトークン コンテキスト、動画も生成可能、カリフォルニア大学バークレー校制作

今日の GitHub ホット リストのトップは、最新のオープン ソース ワールド モデルです。

コンテキストウィンドウの長さは100万トークンに達しており、これはバークレーで製造され、同時期にGoogleがリリースしたGemini 1.5と同じです。

シンプルでわかりやすい名前を持つ強力なモデルです。余分な装飾はなく、単に LargeWorldModel (LWM) と呼ばれます。

LWM はマルチモーダル情報の処理をサポートし、100 万のトークンの中から対象のテキストを正確に見つけることができ、1 時間のビデオを一度に視聴できます。

これを見たネットユーザーは、LWM がこの困難なテストを非常にうまく完了でき、しかもオープンソースであることには本当に感心したと言わざるを得ませんでした。

それで、LWM のパフォーマンスはどれほど強いのでしょうか?

数百万のコンテキストウィンドウで1時間のビデオを視聴できます

テスト中、研究者らはYouTubeのさまざまなビデオクリップをつなぎ合わせた1時間を超える複数のビデオを使用して、LWMの長いシーケンス理解能力を調べた。

研究者たちはこれらのビデオを LWM に取り込み、ビデオ全体のさまざまな位置にあるクリップの詳細について質問しました。研究者たちはまた、LWM を GPT-4V などのモデルと比較しました。

その結果、GPT-4V はあらゆる質問に対して沈黙を守りました。クローズド ソースの大手である Gemini Pro とオープン ソースの大手である Video-LLaVA はどちらも間違った答えを出しました。LWM だけが正しく答えました。

別の動画のテストでは、他のモデルは関連情報を見つけられないと言っていましたが、LWMだけが答えを見つけ、しかも完全に正解でした。

LWM は細部まで理解できるだけでなく、動画の全体的な内容を把握し、要約することもできます。

LWM は理解に基づいて、独自の知識を組み合わせて、ビデオの不合理な部分を分析するなどの推論を行うこともできます。

ベンチマークテストの結果によると、MSVD-QA を含む 3 つのデータセットにおける LWM のスコアは、Video-LLaVA に次ぐものでした。

LWM は長いビデオや短いビデオを理解できるだけでなく、非常に長いテキスト タスクでも優れたパフォーマンスを発揮します。

100 万トークン ウィンドウの「ピンイン」検索テストでは、LWM はシングルピン検索で完全なグリーン結果を達成しました。

複数のピンを検索する場合のパフォーマンスも優れています。

言語タスク データセットのテスト結果によると、LWM は、32k から 1M のウィンドウ長で 4k ウィンドウのみを使用して、Llama2-7B と同等かそれ以上のパフォーマンスを発揮します。

LWM は、マルチモーダル情報理解に加え、画像や動画の生成もサポートしています。その効果については、上の写真を見ていただければわかります。

それで、研究者たちはどのようにしてそのような世界モデルを訓練したのでしょうか?

分割して征服する

LMWのトレーニングプロセスは、大きく分けて2つの段階に分けられます。

最初のフェーズの目標は、長いテキストシーケンスを処理して複雑なドキュメントと長いテキストコンテンツを理解できる言語モデルを構築することです。

この目標を達成するために、研究者らは、合計 330 億トークンの書籍コンテンツで構成される Books3 データセットを使用して、32k からトレーニングを開始し、徐々にウィンドウを 100 万まで拡大するという漸進的なトレーニング アプローチを採用しました。

LWM の長いテキストを処理する能力を強化するために、開発者は RingAttention メカニズムを適用しました。

RingAttentionは昨年チームによって提案され、ICLR 2024に選ばれたウィンドウ拡張手法です。

「分割統治」の考え方を応用して、長いテキストを複数のブロックに分割し、複数のコンピューティング デバイスを使用して順次並列処理を実行し、それらを重ね合わせることで、理論的にはモデルを無限に長いコンテキストに拡張できるようになります。

LWM では、RingAttention も FlashAttention と組み合わされ、Pallas フレームワークを通じて最適化され、パフォーマンスが向上します。

研究者はテキスト機能に基づいてモデルを使用し、いくつかの QA データを生成し、LWM の会話機能を最適化しました。

2 番目の段階では、視覚情報 (画像やビデオなど) をモデルに統合して、マルチモーダル データの理解能力を向上させます。

この段階で、研究者は視覚入力をサポートするために LWM-Text モデルにアーキテクチャ上の変更を加えました。

彼らは VQGAN を使用して画像とビデオ フレームをトークンに変換し、テキストと組み合わせてトレーニングしました。

この段階でも、段階的なトレーニング方法が採用されています。LWM は最初にテキスト画像データセットでトレーニングされ、次にテキストビデオデータセットに拡張され、ビデオフレームの数が徐々に増加します。

トレーニング中、モデルはテキストと視覚データの順序をランダムに入れ替えて、テキストから画像への生成、画像理解、テキストからビデオへの生成、ビデオ理解などのさまざまなタスクを学習します。

パフォーマンスの面では、研究者はバッチ サイズ 8M、フル精度 (float32) で TPUv4-1024 (A100 の 450 個にほぼ相当) をトレーニングしました。所要時間は、次の表に示されています。1M ウィンドウ バージョンでは 58 時間かかりました。

現在、LWM のコードとモデルはオープンソースになっています。マルチモーダル モデルは Jax バージョン、プレーン テキスト モデルは Jax と PyTorch の 2 つのバージョンがあります。興味のある方は、GitHub ページで詳細をご覧ください。

論文アドレス: https://arxiv.org/abs/2402.08268.

GitHub: https://github.com/LargeWorldModel/LWM.

<<:  ソラの13人のメンバーを解読:北京大学卒業生を含む中国人3人、博士号を取得したばかりの1人、そして21歳の天才

>>:  OpenAIを去った偉人カパシ氏は「教え始めた」。おなじみのミニコードスタイルのまま、新しいプロジェクトが日々増えている。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

スマートビルディングにおけるエッジAIの役割を解明

仕事や住居のための物理的な空間として機能することから、入居者に活気ある建築体験を提供することまで、近...

機械学習の基礎知識がゼロでも、TensorFlow で画像認識システムを構築する方法をお教えします (パート 2)

[[182024]]これは Wolfgang Beyer によるブログ投稿です。この論文では、Te...

...

最初の機械学習APIをデプロイする

[[432622]] 【51CTO.com クイック翻訳】はじめにこのプロジェクトでは、簡単なコード...

MITが組み立てロボットを開発:将来的には宇宙コロニーを建設できる

2 台のプロトタイプ組み立てロボットが稼働しており、ボクセルと呼ばれる一連の小さなユニットを組み立...

AIを使って死後の意識を蘇らせることは信頼できるのか?デジタル不滅には経済計算が必要

十分なデータがあれば、愛する人が亡くなった後でも、その人の意識を生かし続けることができます。それは何...

...

3分レビュー! 2021年1月のドローン業界の重要な動向の概要

2020年の最初の月はあっという間に過ぎましたが、ドローン業界の発展は多くの原動力と章を残しました。...

...

BEVFusionを超えて! Lift-Attend-Splat: 最新の BEV LV 融合ソリューション

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

自動運転:最も安全ではないが、より安全

「九章」量子コンピューティングのプロトタイプ、「天極」脳型チップ、国内最大直径のシールドマシン「景華...

1日で13.5%も急落!オラクル株は2002年以来最大の下落

オラクルの株価は現地時間9月12日に13.5%急落し、20年以上で最大の下落を記録した。その理由は、...

北京地下鉄は顔認識技術を使用して機密のセキュリティチェックを実施する予定

[[280913]] Jiwei.comニュース(文/Jimmy)によると、北京軌道交通指揮センター...

世界の通信業界の専門家が2024年を予測

世界の通信業界の専門家が2024年を予測5G が世界をカバーし、人工知能がネットワークを再形成し、デ...

...