11月16日、Googleは、動画に関する質問に答えたり、新たな記録を樹立したりできる小型人工知能モデル「Mirasol」を紹介するプレスリリースを発表しました。 現在、AI モデルがさまざまなデータ ストリームを処理するのは困難です。AI がビデオを理解するには、ビデオ、オーディオ、テキストなどのさまざまなモダリティからの情報を統合する必要があり、難易度が大幅に高まります。 Google と Google Deepmind の研究者は、マルチモーダル理解を長い動画の領域に拡張する新しい方法を提案しました。 Mirasol AI モデルを使用して、チームは 2 つの主要な課題に対処しようとしました。
Google は Mirasol でコンバイナーと自己回帰トランスフォーマー モデルを使用します。 このモデル コンポーネントは、ビデオを個々のセグメントに分割する前に、時間同期されたビデオ信号とオーディオ信号を処理します。 トランスフォーマーは各セグメントを処理して各セグメント間の接続を学習し、次に別のトランスフォーマーがコンテキスト テキストを処理します。2 つのコンポーネントは、それぞれの入力に関する情報を交換します。 Combiner という新しい変換モジュールは、各セグメントから共通の表現を抽出し、次元削減によってデータを圧縮します。各セグメントには 4 ~ 64 フレームが含まれ、モデルには現在 30 億のパラメーターがあり、128 ~ 512 フレームのビデオを処理できます。 テストでは、Mirasol3B はビデオの問題分析において新たなベンチマークを達成し、サイズが大幅に小さくなり、より長いビデオを処理できるようになりました。メモリを組み込んだコンバイナのバリエーションを使用することで、チームは必要な計算能力をさらに 18 パーセント削減することができました。 IT Home は、ここに Mirasol の公式プレス リリースを添付します。興味のあるユーザーは、詳細を読むことができます。 |
<<: AI モデルのデータセンターのエネルギー消費を効果的に削減するにはどうすればよいでしょうか?
>>: ChatGPT コード生成が 10% 増加しました。北京大学中国人第一著者:プロンプトを改良し、大規模モデルのコーディング機能を大幅に改善
長い間、CV トレーニングは 2 次元データに限定されてきました。3 次元データのラベル付けにはコス...
人類は初めて、水深1万メートルでのソフトロボットの深海制御と深海自律遊泳実験を達成し、ロボット工学分...
現代の農業はミツバチに依存しています。私たちが食べる食物や呼吸する空気を含む生態系のほぼ全体が、花粉...
シーン説明: 昨年 8 月に Microsoft がリリースした「Que Shen AI」Suphx...
アルゴリズムの式はかなり面倒で、機械学習は苦痛すぎる。機械学習を初めて学ぶ人は、複雑な数式やわかりに...
[[329133]] DeepMind は今週、強化学習最適化フレームワーク Acme をリリース...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
組織が高度な分析ソリューションを検討している場合、IT チームと管理チームはおそらく何らかの調査と分...
[[424943]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...
インテリジェントエージェントはブランドをスクリーニングし、商取引を再形成し、消費者の選択を導きます。...
AI の責任ある使用に関する包括的な原則は、信頼、公平性、説明責任を促進することです。人工知能 (A...
機械学習の基盤となるデータは、GB、TB、PB と数え切れないほど増加してきました。現在、より大規模...
最近、NVIDIA GPU 製品や SDK を使用してディープラーニングを学習している学生に多く出会...