11月16日、Googleは、動画に関する質問に答えたり、新たな記録を樹立したりできる小型人工知能モデル「Mirasol」を紹介するプレスリリースを発表しました。 現在、AI モデルがさまざまなデータ ストリームを処理するのは困難です。AI がビデオを理解するには、ビデオ、オーディオ、テキストなどのさまざまなモダリティからの情報を統合する必要があり、難易度が大幅に高まります。 Google と Google Deepmind の研究者は、マルチモーダル理解を長い動画の領域に拡張する新しい方法を提案しました。 Mirasol AI モデルを使用して、チームは 2 つの主要な課題に対処しようとしました。
Google は Mirasol でコンバイナーと自己回帰トランスフォーマー モデルを使用します。 このモデル コンポーネントは、ビデオを個々のセグメントに分割する前に、時間同期されたビデオ信号とオーディオ信号を処理します。 トランスフォーマーは各セグメントを処理して各セグメント間の接続を学習し、次に別のトランスフォーマーがコンテキスト テキストを処理します。2 つのコンポーネントは、それぞれの入力に関する情報を交換します。 Combiner という新しい変換モジュールは、各セグメントから共通の表現を抽出し、次元削減によってデータを圧縮します。各セグメントには 4 ~ 64 フレームが含まれ、モデルには現在 30 億のパラメーターがあり、128 ~ 512 フレームのビデオを処理できます。 テストでは、Mirasol3B はビデオの問題分析において新たなベンチマークを達成し、サイズが大幅に小さくなり、より長いビデオを処理できるようになりました。メモリを組み込んだコンバイナのバリエーションを使用することで、チームは必要な計算能力をさらに 18 パーセント削減することができました。 IT Home は、ここに Mirasol の公式プレス リリースを添付します。興味のあるユーザーは、詳細を読むことができます。 |
<<: AI モデルのデータセンターのエネルギー消費を効果的に削減するにはどうすればよいでしょうか?
>>: ChatGPT コード生成が 10% 増加しました。北京大学中国人第一著者:プロンプトを改良し、大規模モデルのコーディング機能を大幅に改善
[[186158]]何人かの経済学者に話を聞いてみれば、彼らはほぼ間違いなく、生産性の伸びの弱さが現...
2020年現在、ほとんどの人にとって「ビッグデータ」という言葉に馴染みがないということはないでし...
AIの助けを借りれば、月に10万元、年に100万元稼ぐことができます。想像できますか?信じないでく...
1. 要件の説明長い文字列と短い文字列を入力し、短い文字列に現れる文字を長い文字列から削除するプログ...
Python はますます人気が高まっています。近年の Python の人気は、人工知能や機械学習と...
編集者 | ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog) 「す...
何千年もの間、人々はインテリジェントな機械を構築する方法について考え続けてきました。それ以来、人工知...
リカレント ニューラル ネットワーク (RNN)、長期短期記憶 (LSTM)、これらの人気のニューラ...
[[203607]]教育革命が静かに起こっています。この革命はトップダウンの制度改革ではなく、ボトム...
Safetensor とは何ですか? 【セーフテンソル】:https://huggingface....
人工知能、略してAIの起源は非常に古い。1956年の夏、アメリカのハノーバーという小さな町に、コンピ...