Meta AI が Omnivore をリリース: 画像、動画、3D データの分類タスクを処理できるモデル

Meta AI が Omnivore をリリース: 画像、動画、3D データの分類タスクを処理できるモデル

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

最近、Meta AIはそのような「雑食」を立ち上げました 画像、ビデオ、3D データなどさまざまな視覚的モダリティからのデータを分類できる(Omnivore)モデル

たとえば、左端の画像に直面すると、深度マップ、単焦点 3D 画像、ビデオ データセットから最も一致する結果を収集できます。

以前は、これを異なるモデルを使用して実現する必要がありましたが、現在は1 つのモデルだけで実行できます

さらに、Omnivore はトレーニングが容易で、すぐに利用できる標準データセットを使用することで、対応する単一モデルと同等かそれ以上のパフォーマンスを実現できます。

実験結果によると、Omnivore は、 ImageNet画像分類データセット86.0% Kineticsデータセットの動作認識で84.1% SUN RGB-Dデータセットのシングルビュー 3D シーン分類67.1%の精度を達成できます

さらに、Omnivore は、クロスモーダル認識を実装する際に、モダリティ間の対応にアクセスする必要はありません。

あらゆる視覚的モダリティを食べることができる雑食動物

Omnivore は Transformer アーキテクチャに基づいており、このアーキテクチャ独自の柔軟性を備え、さまざまなモダリティでの分類タスク向けに共同でトレーニングされています。

モデルのアーキテクチャは次のとおりです。

Omnivore は、入力画像、ビデオ、および単一ビューの 3D 画像を埋め込みに変換し、Transformer に送ります。

パッチ埋め込みを処理するために任意のビジョン トランスフォーマー アーキテクチャを使用することは可能ですが、画像およびビデオ タスクにおけるSwin トランスフォーマーの強力なパフォーマンスを考慮してこのアーキテクチャがここでは基本モデルとして使用されます。

具体的には、Omnivore は画像をパッチに、ビデオを時空間チューブ、単一ビューの 3D 画像を RGB パッチと深度パッチに変換します。

次に、線形レイヤーを使用してパッチを埋め込みにマッピングします。 RGB パッチには同じ線形レイヤーが使用され、深度パッチには別のレイヤーが使用されます。

一般的に、すべての視覚モードは埋め込みを通じて共通の形式に変換され、その後、一連の時空間アテンション操作を使用してさまざまな視覚モードの統一された表現構築されます。

研究者らは、ImageNet-1K データセット、Kinetics-400 データセット、SUN RGB-D データセットでさまざまな Omnivore モデルを共同でトレーニングしました。

このアプローチは、マルチタスク学習やクロスモーダルアライメントに似ていますが、2 つの重要な違いがあります。

1. 入力観測値の配置については仮定が行われません(つまり、画像、ビデオ、3Dデータ間の対応については仮定が行われません)

2. これらのデータセットが同じラベル空間を共有するとは想定されていません

パフォーマンスはSOTAを超える

実験では、まずOmnivoreを各視覚モダリティに対応する特定のモデル(以下の表ではSpecificと表記)比較します

モデルサイズにはT、S、Bの3種類があります。

事前トレーニング済みのモデルは、7 つのダウンストリーム タスクで微調整されます。

画像固有のモデルは IN1K で事前トレーニングされています。ビデオ固有モデルとシングルビュー 3D 固有モデルは両方とも、事前トレーニング済みの画像固有モデルのインフレーションを使用して初期化され、それぞれ K400 と SUN RGB-D で微調整されます。

結果は、Omnivore がほぼすべての下流タスクにおいて特定のモデルと同等かそれ以上のパフォーマンスを発揮することを示しています。

その中で最大のSwin-Bは全てのタスクでSOTAを達成しました

Omnivore を、同じモデル アーキテクチャとパラメータ数を持つ特定のモデルと比較すると、同じ結果が得られます。

Omnivore は IN1K、K400、SUN データセットで最初から共同トレーニングされますが、モダリティ固有のモデルは各データセットごとに特別にトレーニングされます。

ImageSwin モデルは最初からトレーニングされますが、VideoSwin モデルと DepthSwin モデルは ImageSwin モデルから微調整されます。

次に、画像、ビデオ、3D データ分類タスクでOmnivore とSOTA モデル比較します

結果は依然として良好で、Omnivore はすべての事前トレーニング タスクで SOTA モデルよりも優れたパフォーマンスを示しています(次の図は、上から下に画像、ビデオ、3D データを示しています)

さらに、ImageNet-1K データセット上の特定の RGB 画像の深度マップを取得したところ、Omnivore は1K 深度マップでトレーニングされていなかったにもかかわらず意味的に同様の正解を返すことができたこともわかりました。

最後に、著者らは、この「雑食性」は従来のパターン固有のモデルに比べて大幅に改善されているが、いくつかの制限もあると述べています。

たとえば、現在はシングルビューの 3D 画像でのみ機能し、ボクセルポイント クラウドなどの他の 3D 表現では機能しません。

論文の宛先:
https://arxiv.org/abs/2201.08377

コードはオープンソースです:

https://github.com/facebookresearch/omnivore

<<:  自動運転によりシェアリングエコノミーは再び普及するでしょうか?

>>:  人工知能が絵画の質感から画家を識別する

ブログ    

推薦する

...

ブロックチェーンは自動運転車の開発を促進できるか? BMW、GM、フォードはいずれも

来月、大手自動車メーカーのグループが米国でブロックチェーンベースの車両識別ネットワークの初のフィール...

AI人工知能は研究室から生産現場へと進出したが、依然として大きな課題に直面している。

国内企業におけるAI導入の現状アクセンチュアが世界各国の企業幹部を対象に実施した「中国企業はどのよう...

マイクロソフトのGitHub Copilotサービスは大きな損失を被っていると報じられており、同社は独自のAIチップを開発してNvidiaに対抗する予定だ

10月10日のニュース、過去1年間、生成AIの流行は多くの企業に莫大な利益をもたらしました。最大の受...

初のヒューマンモーションキャプチャーモデルをリリース! SMPLer-X: 7つのチャートを一掃

表現力豊かな人間の姿勢と形状の推定 (EHPS) の分野では大きな進歩が遂げられていますが、最も先進...

...

小さなロバが勤務中です!アリババの物流ロボットが11月11日に浙江大学菜鳥駅で荷物を配達する契約を締結

誕生から2か月も経たないうちに、アリババの物流ロボット「小曼路」が稼働を開始した。 10月30日、小...

...

ナレッジグラフとディープラーニングが「出会う」とき

著者: Xiao Yanghua、復旦大学コンピュータ科学技術学院准教授、博士課程指導教員、上海イン...

企業がチャットボットの自然言語処理について学ぶべき理由は何ですか?

自然言語処理 (NLP) により、チャットボットは会話のメッセージを理解してそれに応じて応答できるよ...

YouTubeの有名人動画を機械学習で分析したら、視聴数急増の秘密が分かった

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

アプリケーション開発コンサルティングは、企業が人工知能を最大限に活用できるよう支援します

適切なコンサルタント チームが、優れたアプリケーションを選択して AI のメリットを発見できるようお...

AIがサイバーセキュリティにできること、できないこと

過去数か月間にネットユーザーを最も怖がらせたものは何かと問われれば、それは以下のウイルス攻撃だろう。...

機械学習において、トレーニングおよび検証メトリック グラフから何がわかるでしょうか?

この記事では、トレーニングと検証の考えられる状況をまとめ、これらのチャートがどのような情報を提供でき...