Google が Mirasol をリリース: 30 億のパラメータで、マルチモーダル理解を長時間動画にまで拡張

Google が Mirasol をリリース: 30 億のパラメータで、マルチモーダル理解を長時間動画にまで拡張

11月16日、Googleは、動画に関する質問に答えたり、新たな記録を樹立したりできる小型人工知能モデル「Mirasol」を紹介するプレスリリースを発表しました。

現在、AI モデルがさまざまなデータストリームを処理するのは困難です。AI がビデオを理解するには、ビデオ、オーディオ、テキストなどのさまざまなモダリティからの情報を統合する必要があり、難易度が大幅に高まります。

Google と Google Deepmind の研究者は、マルチモーダル理解を長い動画の領域に拡張する新しい方法を提案しました。

Mirasol AI モデルを使用して、チームは 2 つの主要な課題に対処しようとしました。

ビデオとオーディオは高頻度サンプリングで同期する必要がありますが、タイトルとビデオの説明は非同期で処理する必要があります。
ビデオとオーディオは大量のデータを生成するため、モデルの容量に負担がかかる可能性があります。

Google は Mirasol でコンバイナーと自己回帰トランスフォーマーモデルを使用します。

このモデルコンポーネントは、ビデオを個々のセグメントに分割する前に、時間同期されたビデオ信号とオーディオ信号を処理します。

トランスフォーマーは各セグメントを処理して各セグメント間の接続を学習し、次に別のトランスフォーマーがコンテキストテキストを処理します。2 つのコンポーネントは、それぞれの入力に関する情報を交換します。

Combiner という新しい変換モジュールは、各セグメントから共通の表現を抽出し、次元削減によってデータを圧縮します。各セグメントには 4 ～ 64 フレームが含まれ、モデルには現在 30 億のパラメーターがあり、128 ～ 512 フレームのビデオを処理できます。

テストでは、Mirasol3B はビデオの問題分析において新たなベンチマークを達成し、サイズが大幅に小さくなり、より長いビデオを処理できるようになりました。メモリを組み込んだコンバイナのバリエーションを使用することで、チームは必要な計算能力をさらに 18 パーセント削減することができました。

IT Home は、ここに Mirasol の公式プレスリリースを添付します。興味のあるユーザーは、詳細を読むことができます。

<<: AI モデルのデータセンターのエネルギー消費を効果的に削減するにはどうすればよいでしょうか?

>>: ChatGPT コード生成が 10% 増加しました。北京大学中国人第一著者：プロンプトを改良し、大規模モデルのコーディング機能を大幅に改善

自動運転車の台頭は半導体業界に発展のチャンスをもたらす

自動運転車の台頭は半導体業界に発展のチャンスをもたらす

ブログ

人間の運転、交通事故の最大の欠陥 | 自動運転車の交通安全に関する白書が発表

人間の運転、交通事故の最大の欠陥 | 自動運転車の交通安全に関する白書が発表

ブログ

オープンソースプロジェクト向けのChatGPTベースのコードレビューロボットプログラム

オープンソースプロジェクト向けのChatGPTベースのコードレビューロボットプログラム

ブログ

Google がオールラウンドな音楽転写 AI を発表: 曲を一度聴くだけでピアノとバイオリンの楽譜がすべて手に入る

Google がオールラウンドな音楽転写 AI を発表: 曲を一度聴くだけでピアノとバイオリンの楽譜がすべて手に入る

ブログ

Google Cloud Next: カンファレンス全体を通じて人工知能について語る

Google Cloud Next: カンファレンス全体を通じて人工知能について語る

ブログ

ロシアのロボット宇宙飛行士が3Dプリントされた骨組織サンプルを持って地球に帰還

ロシアのロボット宇宙飛行士が3Dプリントされた骨組織サンプルを持って地球に帰還

ブログ

ブログ

ブログ

GPT時代の学習アルゴリズム、線形モデルを実装するPytorchフレームワーク

GPT時代の学習アルゴリズム、線形モデルを実装するPytorchフレームワーク

ブログ

Microsoft Megvii の顔認識は 100% 動作不能! 写真の「見えないマント」で写真のプライバシーデータを保護

Microsoft Megvii の顔認識は 100% 動作不能! 写真の「見えないマント」で写真のプライバシーデータを保護

ブログ

推薦する

Facebook が ICCV 2021 で 2 つの 3D モデルを公開。自己監督が究極の答えか?

長い間、CV トレーニングは 2 次元データに限定されてきました。3 次元データのラベル付けにはコス...

浙江大学のロボット魚がネイチャー誌に登場：マリアナ海溝の奥深くまで到達、画期的な進歩

人類は初めて、水深1万メートルでのソフトロボットの深海制御と深海自律遊泳実験を達成し、ロボット工学分...

AI、IoT、ビッグデータでミツバチを救う方法

現代の農業はミツバチに依存しています。私たちが食べる食物や呼吸する空気を含む生態系のほぼ全体が、花粉...

マイクロソフトの麻雀AI論文が発表され、初めて技術的な詳細が明らかに

シーン説明: 昨年 8 月に Microsoft がリリースした「Que Shen AI」Suphx...

【機械学習を図解で解説】誰でもわかるアルゴリズムの原理

アルゴリズムの式はかなり面倒で、機械学習は苦痛すぎる。機械学習を初めて学ぶ人は、複雑な数式やわかりに...

DeepMind は、RL エージェントを簡単に作成できる効率的な分散強化学習アルゴリズムフレームワーク Acme をリリースしました。

[[329133]] DeepMind は今週、強化学習最適化フレームワーク Acme をリリース...

...

AWSクラウド上で機械学習を輸出するための黄金のツールであるAmazon SageMakerが正式に中国に上陸

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

自然言語処理による検索分析とは何か、なぜそれがビジネスにどのように役立つのか

組織が高度な分析ソリューションを検討している場合、IT チームと管理チームはおそらく何らかの調査と分...

化粧品は顔認識技術を騙せるのか？

[[424943]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

AIはあらゆるブランドに影響を与えており、適応できないブランドは消滅するだろう

インテリジェントエージェントはブランドをスクリーニングし、商取引を再形成し、消費者の選択を導きます。...

人工知能の責任ある使用のための10の原則

AI の責任ある使用に関する包括的な原則は、信頼、公平性、説明責任を促進することです。人工知能 (A...

データが多すぎたり、乱雑すぎたり、複雑すぎたりしていませんか?このようなデータガバナンスプロセスが必要です

機械学習の基盤となるデータは、GB、TB、PB と数え切れないほど増加してきました。現在、より大規模...

ディープラーニングのこれらの概念をすべて理解できましたか? TF、TLT、TRT、DS

最近、NVIDIA GPU 製品や SDK を使用してディープラーニングを学習している学生に多く出会...