Google が Mirasol をリリース: 30 億のパラメータで、マルチモーダル理解を長時間動画にまで拡張

Google が Mirasol をリリース: 30 億のパラメータで、マルチモーダル理解を長時間動画にまで拡張

11月16日、Googleは、動画に関する質問に答えたり、新たな記録を樹立したりできる小型人工知能モデル「Mirasol」を紹介するプレスリリースを発表しました。

現在、AI モデルがさまざまなデータ ストリームを処理するのは困難です。AI がビデオを理解するには、ビデオ、オーディオ、テキストなどのさまざまなモダリティからの情報を統合する必要があり、難易度が大幅に高まります。

Google と Google Deepmind の研究者は、マルチモーダル理解を長い動画の領域に拡張する新しい方法を提案しました。

Mirasol AI モデルを使用して、チームは 2 つの主要な課題に対処しようとしました。

  • ビデオとオーディオは高頻度サンプリングで同期する必要がありますが、タイトルとビデオの説明は非同期で処理する必要があります。
  • ビデオとオーディオは大量のデータを生成するため、モデルの容量に負担がかかる可能性があります。

Google は Mirasol でコンバイナーと自己回帰トランスフォーマー モデルを使用します。

このモデル コンポーネントは、ビデオを個々のセグメントに分割する前に、時間同期されたビデオ信号とオーディオ信号を処理します。

トランスフォーマーは各セグメントを処理して各セグメント間の接続を学習し、次に別のトランスフォーマーがコンテキスト テキストを処理します。2 つのコンポーネントは、それぞれの入力に関する情報を交換します。

Combiner という新しい変換モジュールは、各セグメントから共通の表現を抽出し、次元削減によってデータを圧縮します。各セグメントには 4 ~ 64 フレームが含まれ、モデルには現在 30 億のパラメーターがあり、128 ~ 512 フレームのビデオを処理できます。

テストでは、Mirasol3B はビデオの問題分析において新たなベンチマークを達成し、サイズが大幅に小さくなり、より長いビデオを処理できるようになりました。メモリを組み込んだコンバイナのバリエーションを使用することで、チームは必要な計算能力をさらに 18 パーセント削減することができました。

IT Home は、ここに Mirasol の公式プレス リリースを添付します。興味のあるユーザーは、詳細を読むことができます。

<<:  AI モデルのデータセンターのエネルギー消費を効果的に削減するにはどうすればよいでしょうか?

>>:  ChatGPT コード生成が 10% 増加しました。北京大学中国人第一著者:プロンプトを改良し、大規模モデルのコーディング機能を大幅に改善

ブログ    
ブログ    

推薦する

PyTorch を学ぶには?簡単すぎる

多くの友人から、PyTorch の学習方法を尋ねられました。長期間の練習を経て、初心者が知っておく必...

人工知能業界マップと主要なブレークスルー

Sage の予測によると、人工知能の出現により、2030 年までに世界の GDP がさらに 14% ...

...

ロボットはどのようにして深く学習するのでしょうか?論理的判断と感情的な選択は依然として障害となっている

[[187099]]一人でいるときに少し寂しさを感じたらどうすればいいでしょうか?Microsoft...

3Dチップ技術がコンピューティングに破壊的な変化をもたらす3つの方法:AMD、Graphcore、Intelはそれぞれ独自の秘策を秘めている

高性能プロセッサに関する研究は、ムーアの法則を継続する新たな方向性が到来していることを示しています。...

医療と人工知能の相互統合が眼科治療に新たな窓を開く

目は体表にある器官の中で画像データを取得しやすい器官であり、その健康状態は人々の生活や学習に与える影...

2020年の人工知能業界に関する7つの予測

ついに2020年が到来しました。これは、火星探査、バイオニックロボット、自動運転、遺伝子編集、複合現...

偏見と不平等にノーと言いましょう!マイクロソフト、物議を醸していた顔認識サービスの提供を停止

マイクロソフトは、動画や画像に基づいて感情を識別するサービスを含む、人工知能を活用した顔認識ツールの...

Google PaLM モデルも素人によって覚醒したと宣言されましたか?業界関係者:Rational テストは GPT よりわずか 3% 優れている

「汎用人工知能」は、今や2020年代の「水から石油」の技術になりつつあります。ほぼ2週間ごとに、大規...

可視性プラットフォームがセキュリティ オペレーション センター (SOC) にとって重要な理由は何ですか?

ディスプレイ ソリューションは、今日のセキュリティ オペレーション センター (SOC) で必要な複...

ハイパーオートメーションの旅を始めましょう: 仕事のやり方を変え、運用プロセスを簡素化しましょう

最近の調査によると、より複雑な作業をインテリジェントな自動化に任せることを計画している企業の数は、今...

モノのインターネットにおける人工知能の役割

私たちの周りのあらゆるものがどうしてこんなにスマートになったのか、不思議に思ったことはありませんか?...

暗唱することは理解を意味するわけではない。ビッグモデルの背後にある知識の蓄積と抽出の詳細な分析

モデルのサイズが大きくなるにつれて、大規模なモデルが大量の知識を習得できる方法を模索し始めます。一つ...

...

AI、ゼロトラスト、エッジの近代化、マルチクラウド: 2024年に注目すべき技術トレンド

実際、ChatGPTによって引き起こされたこの新しいAIの波では、世界的なテクノロジー大手、AIメー...