Google が Mirasol をリリース: 30 億のパラメータで、マルチモーダル理解を長時間動画にまで拡張

Google が Mirasol をリリース: 30 億のパラメータで、マルチモーダル理解を長時間動画にまで拡張

11月16日、Googleは、動画に関する質問に答えたり、新たな記録を樹立したりできる小型人工知能モデル「Mirasol」を紹介するプレスリリースを発表しました。

現在、AI モデルがさまざまなデータ ストリームを処理するのは困難です。AI がビデオを理解するには、ビデオ、オーディオ、テキストなどのさまざまなモダリティからの情報を統合する必要があり、難易度が大幅に高まります。

Google と Google Deepmind の研究者は、マルチモーダル理解を長い動画の領域に拡張する新しい方法を提案しました。

Mirasol AI モデルを使用して、チームは 2 つの主要な課題に対処しようとしました。

  • ビデオとオーディオは高頻度サンプリングで同期する必要がありますが、タイトルとビデオの説明は非同期で処理する必要があります。
  • ビデオとオーディオは大量のデータを生成するため、モデルの容量に負担がかかる可能性があります。

Google は Mirasol でコンバイナーと自己回帰トランスフォーマー モデルを使用します。

このモデル コンポーネントは、ビデオを個々のセグメントに分割する前に、時間同期されたビデオ信号とオーディオ信号を処理します。

トランスフォーマーは各セグメントを処理して各セグメント間の接続を学習し、次に別のトランスフォーマーがコンテキスト テキストを処理します。2 つのコンポーネントは、それぞれの入力に関する情報を交換します。

Combiner という新しい変換モジュールは、各セグメントから共通の表現を抽出し、次元削減によってデータを圧縮します。各セグメントには 4 ~ 64 フレームが含まれ、モデルには現在 30 億のパラメーターがあり、128 ~ 512 フレームのビデオを処理できます。

テストでは、Mirasol3B はビデオの問題分析において新たなベンチマークを達成し、サイズが大幅に小さくなり、より長いビデオを処理できるようになりました。メモリを組み込んだコンバイナのバリエーションを使用することで、チームは必要な計算能力をさらに 18 パーセント削減することができました。

IT Home は、ここに Mirasol の公式プレス リリースを添付します。興味のあるユーザーは、詳細を読むことができます。

<<:  AI モデルのデータセンターのエネルギー消費を効果的に削減するにはどうすればよいでしょうか?

>>:  ChatGPT コード生成が 10% 増加しました。北京大学中国人第一著者:プロンプトを改良し、大規模モデルのコーディング機能を大幅に改善

ブログ    

推薦する

プリンストン大学とインテルは、ResNetよりも大幅に高速で正確なParNetを提案している。

[[434088]]深さはディープ ニューラル ネットワークの鍵となりますが、深さが増すと、順次計...

大規模言語モデルの量子化手法の比較: GPTQ、GGUF、AWQ

大規模言語モデル (LLM) は過去 1 年間で急速に進化しており、この記事では (量子化) へのい...

アルゴリズムの大きな進歩! AIニューラルネットワークは量子システムをシミュレートする

[[269803]]最近、研究者たちはニューラルネットワークに基づく新しいアルゴリズムを使用して量子...

ロボット品質教育を普及させる時が来た

人間がロボットを訓練しているのを見るたびに、私はいつも一つのことに疑問を感じます。それは、このような...

...

自動運転の国家基準が導入される。2021年はレベル3自動運転車元年となるか?

自動運転は間違いなく自動車の究極の開発トレンドとなるため、多くのメーカーが現在、自動運転車の開発に多...

2022年の中国人工知能産業の発展状況と市場規模の分析 市場規模は3000億元を超える

人工知能業界の主要上場企業:Hikvision(002415)、iFlytek(002230)、Sa...

マスク氏、XデータをAIの訓練に利用していると認める「マイクロソフトは使えないが、自分なら使える」

マスク氏はついに我慢できなくなり、X のデータを AI に入力し始めました。過去 2 日間で、X が...

人工知能によって仕事が置き換えられた後、一般の人々は何をすべきでしょうか?

The Paperによると、世界経済フォーラムの報告書では、2025年までに8000万の仕事が機械...

CIO 向けガイド: ジェネレーティブ AI の「ハイライト モーメント」を実現する 5 つの方法

あらゆる誇大宣伝と主流の採用率の高さにもかかわらず、生成 AI は生産性のピークに到達する前に、幻滅...

2024年のAIに関する5つの予測

2023 年には、AI、ML、特に GenAI があらゆるところに存在しますが、内容よりもパフォーマ...

梅雨から台風シーズンまで、ドローンが再び活躍

最近、静かに梅雨の季節が去り、猛烈な台風の季節が勢いよくやって来ています。 [[336317]] 8...

...

ビッグデータと人工知能の関係、総合的な分析

ビッグデータはクラウドコンピューティングを採用PaaS レイヤーの複雑な汎用アプリケーションは、ビッ...