この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 人間の予知能力+ViTを組み合わせるとどんな化学反応が起こるのか? ロボットの行動計画能力が高速かつ正確になります。 これは、Fei-Fei Li 氏のチームであるMaskViTの最新の研究であり、MVM とマスク ビジョン モデリングを通じて Transformer を事前トレーニングし、ビデオ予測モデルを確立します。 結果は、MaskViT が 256×256 のビデオを生成できるだけでなく、ロボットの行動計画の推論速度を最大 512 倍向上できることを示しました。 これはどのような研究ですか? 人間からインスピレーションを得る神経科学の分野での研究によると、人間の認知能力と知覚能力は予測メカニズムによって支えられていることが分かっています。 この世界の予測モデルは、さまざまな可能なアクションをシミュレート、評価、および選択するために使用できます。 人間の場合、このプロセスは高速かつ正確です。 ロボットに同様の予測能力を与えることができれば。そうすれば、複雑で動的な環境でさまざまなタスクを迅速に計画し、実行できるようになります。 たとえば、視覚モデルによる予測制御は 1 つの方法ですが、計算能力と精度に対する要求も高くなります。 そこで、Fei-Fei Li 氏のチームは、最近多くの進歩を遂げた ViT アーキテクチャと、Kaiming He 氏の MAE に代表される MVM とマスク視覚モデリングに基づく自己教師あり事前トレーニング済み表現について考えました。 しかし、それを実装するにはまだ多くの技術的な課題が残っています。 一方、グローバル アテンション メカニズムの複雑さは入力シーケンスの長さの 2 乗に比例するため、ビデオ処理コストが高くなりすぎます。 一方、ビデオ予測タスクと自己回帰マスクビジョンの事前トレーニングの間には矛盾があります。実際のテストでは、モデルは将来のフレーム シーケンス全体を最初から予測する必要があり、その結果、ビデオ予測の品質が低下します。 このような背景を踏まえ、Fei-Fei Li 氏のチームは、マスクビジョンモデリングを通じて Transformer を事前トレーニングし、ビデオ予測モデルを確立するMaskViTを提案しました。 具体的な設計上の決定は 2 つあります。 まず、記憶力とトレーニング効率を向上させるために、空間的注意と時空間的注意という2種類のウィンドウ注意が使用されます。 第二に、マスクされたトークンの比率はトレーニング中に変化します。 推論フェーズでは、マスク スケジューリング機能に従ってマスク レートが徐々に削減される反復的な改良によってビデオが生成されます。 実験結果研究チームは、3つの異なるデータセットと4つの異なる指標でMaskViTを評価しました。 結果は、MaskViT が以前の高度な方法よりも優れたパフォーマンスを発揮し、最大 256 × 256 の解像度のビデオを生成できることを示しています。 BAIR ではアブレーション実験も実施されました。 その後、チームは実際のロボットでリアルタイム計画に MaskViT を使用した場合の効果を実証しました。 推論速度を最大512倍まで向上できます。 研究者らは、この研究は、最小限のドメイン知識でマスクされた視覚モデリングの一般的なフレームワークを使用して、画像エージェントに強力な予測モデルを付与することが可能であることを示していると述べています。 しかし同時に、一定の制限もあります。 たとえば、特に RoboNet などの静的な背景を持つビデオでは、各フレームを量子化するときにちらつきアーティファクトが表示される場合があります。 ビデオ予測のスケールアップは、特にカメラの動きが多いシーンでは依然として困難です。 将来的には、このビデオ予測方法をより複雑な計画アルゴリズムに統合することを検討する予定です。 今年 5 月に、He Kaiming 氏のチームが MAE のビデオ バージョンを提案し、最適なマスキング率が 90% にも達することを発見したことは特筆に値します。 論文リンク: プロジェクトリンク: 何開明氏の論文: |
<<: Cerebras が 1 台のマシンで 200 億のパラメータ モデルをトレーニングするという新記録を樹立
>>: ファーウェイ、AI人材育成と科学研究の革新を促進する2つのAscendプロジェクトを開始
海外メディアによると、グーグルの研究者は以前、グーグルが現在検索やその他のテキスト分析製品に使用して...
今年12月1日より、物理チャネルでは顔認識技術対策を全面的に導入し、電話ネットワークへのアクセスプロ...
ベンチャーキャピタル投資に関する最新データが示すところによれば、投資家は人工知能や機械学習のスタート...
11月28日、アリババクラウドは、世界初の統合バッチ・ストリームアルゴリズムプラットフォームでもある...
[[271752]]画像出典: Qilu.com一つの火、二本の涙。 7月18日午前10時半頃(現...
デジタル経済の時代では、目に見えず、実体のないアルゴリズムが常に消費者の選択に影響を与えます。近年、...
ボストン・ダイナミクスの創業者マーク・レイバート氏は、スポットロボット犬は将来「家庭で使用できるよう...
[[206942]]国内外の権威ある20の機関のEconomic Information Daily...
建設業界は現在、デジタル革新が業界の方向性をますます推進する中で、大きな変革期を迎えています。ロボッ...
2018 年後半の発売以来、JAX の人気は着実に高まっています。 2020年、DeepMindは研...
イベント紹介ロイター通信によると、ウクライナ政府省庁は土曜日、クリアビューAIの顔認識技術の使用を開...
プロンプトは、中国語ではプロンプトワードと翻訳でき、大規模なモデルが特定のコンテンツを生成するように...