11月16日、Googleは、動画に関する質問に答えたり、新たな記録を樹立したりできる小型人工知能モデル「Mirasol」を紹介するプレスリリースを発表しました。 現在、AI モデルがさまざまなデータ ストリームを処理するのは困難です。AI がビデオを理解するには、ビデオ、オーディオ、テキストなどのさまざまなモダリティからの情報を統合する必要があり、難易度が大幅に高まります。 Google と Google Deepmind の研究者は、マルチモーダル理解を長い動画の領域に拡張する新しい方法を提案しました。 Mirasol AI モデルを使用して、チームは 2 つの主要な課題に対処しようとしました。
Google は Mirasol でコンバイナーと自己回帰トランスフォーマー モデルを使用します。 このモデル コンポーネントは、ビデオを個々のセグメントに分割する前に、時間同期されたビデオ信号とオーディオ信号を処理します。 トランスフォーマーは各セグメントを処理して各セグメント間の接続を学習し、次に別のトランスフォーマーがコンテキスト テキストを処理します。2 つのコンポーネントは、それぞれの入力に関する情報を交換します。 Combiner という新しい変換モジュールは、各セグメントから共通の表現を抽出し、次元削減によってデータを圧縮します。各セグメントには 4 ~ 64 フレームが含まれ、モデルには現在 30 億のパラメーターがあり、128 ~ 512 フレームのビデオを処理できます。 テストでは、Mirasol3B はビデオの問題分析において新たなベンチマークを達成し、サイズが大幅に小さくなり、より長いビデオを処理できるようになりました。メモリを組み込んだコンバイナのバリエーションを使用することで、チームは必要な計算能力をさらに 18 パーセント削減することができました。 IT Home は、ここに Mirasol の公式プレス リリースを添付します。興味のあるユーザーは、詳細を読むことができます。 |
<<: AI モデルのデータセンターのエネルギー消費を効果的に削減するにはどうすればよいでしょうか?
>>: ChatGPT コード生成が 10% 増加しました。北京大学中国人第一著者:プロンプトを改良し、大規模モデルのコーディング機能を大幅に改善
[[434088]]深さはディープ ニューラル ネットワークの鍵となりますが、深さが増すと、順次計...
大規模言語モデル (LLM) は過去 1 年間で急速に進化しており、この記事では (量子化) へのい...
[[269803]]最近、研究者たちはニューラルネットワークに基づく新しいアルゴリズムを使用して量子...
人間がロボットを訓練しているのを見るたびに、私はいつも一つのことに疑問を感じます。それは、このような...
自動運転は間違いなく自動車の究極の開発トレンドとなるため、多くのメーカーが現在、自動運転車の開発に多...
人工知能業界の主要上場企業:Hikvision(002415)、iFlytek(002230)、Sa...
マスク氏はついに我慢できなくなり、X のデータを AI に入力し始めました。過去 2 日間で、X が...
The Paperによると、世界経済フォーラムの報告書では、2025年までに8000万の仕事が機械...
あらゆる誇大宣伝と主流の採用率の高さにもかかわらず、生成 AI は生産性のピークに到達する前に、幻滅...
2023 年には、AI、ML、特に GenAI があらゆるところに存在しますが、内容よりもパフォーマ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
最近、静かに梅雨の季節が去り、猛烈な台風の季節が勢いよくやって来ています。 [[336317]] 8...
ビッグデータはクラウドコンピューティングを採用PaaS レイヤーの複雑な汎用アプリケーションは、ビッ...