Google が新しいセマンティックセグメンテーションデータセットをリリースしました。ちなみに、私はトップに立つモデルを開発し、CVPR2021に採択されました

人間は、平面の写真を見ると、再構築された 3D シーンのレイアウトを想像し、2D 画像に含まれる限られた信号に基づいてオブジェクトを認識し、インスタンスのサイズを決定して、3D シーンのレイアウトを再構築することができます。

この問題には逆光学問題と呼ばれる用語があり、これは網膜像から網膜刺激源へのぼやけたマッピングを指します。

自動運転などの現実世界のコンピュータービジョンアプリケーションは、3D オブジェクトの位置特定と識別にこれらの機能に大きく依存しており、2D 画像に投影された各 3D ポイントの空間位置、セマンティックカテゴリ、インスタンスラベルを AI モデルが推測する必要があります。

画像から 3D 世界を再構築する機能は、単眼深度推定 (単一の画像から深度を予測) とビデオパノプティックセグメンテーション (インスタンスセグメンテーションとセマンティックセグメンテーション) という 2 つの独立したサブタスクに分解できます。

研究者は通常、計算されたモデルの重みを複数のタスク間で共有することにより、タスクごとに異なるモデルを提案します。実際のアプリケーションでは、これらのタスクを統合されたコンピュータービジョンモデルとともに処理することで、展開を簡素化し、効率を向上させることができます。

この研究背景を踏まえ、Google は深度を考慮したビデオパノラマセグメンテーションを通じて視覚を学習する新しいモデル ViP-DeepLab を提案しました。これは CVPR 2021 に採択されており、単眼深度推定とビデオパノラマセグメンテーションを同時に解決することを目指しています。

この論文では、2 つのデータセットも導出し、深度推定とビデオパノラマセグメンテーションを同時に評価できる、Depth-Aware Video Panoramic Quality (DVPQ) と呼ばれる新しい評価メトリックも提案しました。

ViP-DeepLab は、画像平面上の各ピクセルに対してビデオのパノプティックセグメンテーションと単眼深度推定を共同で実行し、サブタスクのいくつかの学術データセットで SOTA 結果を達成する統合モデルです。

ViP-DeepLab は、連続する 2 つのフレームを入力として他の予測を実行し、出力には最初のフレームの深度推定が含まれ、各ピクセルに深度推定値が割り当てられます。

さらに、ViP-DeepLab は、最初のフレームに表示されるオブジェクトの中心に対して、連続する 2 つのフレームの中心回帰を実行します。これは、中心オフセット予測と呼ばれるプロセスであり、これにより、両方のフレームのすべてのピクセルを、最初のフレームに表示される同じオブジェクトにグループ化できます。以前に検出されたインスタンスと一致しない場合、新しいインスタンスが発生します。

ViP-DeepLab の出力は、ビデオのパノプティックセグメンテーションに使用できます。連続する 2 つのフレームを入力として連結します。セマンティックセグメンテーション出力は各ピクセルをそのセマンティックカテゴリに関連付けますが、インスタンスセグメンテーション出力は最初のフレームの単一のオブジェクトに関連付けられた両方のフレームのピクセルを識別します。入力画像は Cityscapes データセットからのものです。

この論文では、Cityscapes-VPS、KITTI 深度予測、KITTI マルチオブジェクト追跡およびセグメンテーション (MOTS) など、いくつかの一般的なベンチマークデータセットで ViP-DeepLab をテストしました。

ViP-DeepLab は SOTA 結果を達成しました。Cityscapes-VPS テストでは、ビデオパノラマ品質 (VPQ) が従来の方法よりもはるかに優れており、5.1% に達しています。

KITTI 深度予測ベンチマークにおける単眼深度推定の比較。深度推定メトリックの場合、値が小さいほどパフォーマンスが優れています。差は小さいように見えるかもしれませんが、このベンチマークで最高のパフォーマンスを発揮するメソッドの差は通常、SILog で 0.1 未満です。

さらに、VIP-DeepLab は、新しいメトリック HOTA を使用して、KITTI MOTS 歩行者および自動車のランキングメトリックの大幅な改善も達成しました。

最後に、この論文では、新しいタスク、つまり深度を考慮したビデオパノプティックセグメンテーション用の 2 つの新しいデータセットも提供されており、ViP-DeepLab がテストされており、このモデルの結果はコミュニティが比較するためのベースラインモデルになります。

ViP-DeepLab は、ビデオパノプティックセグメンテーション、単眼深度推定、および複数オブジェクトの追跡とセグメンテーションにおいて最先端のパフォーマンスを実現するシンプルなアーキテクチャを備えています。このモデルは、2D シーンにおける現実世界のさらなる研究にも役立ちます。

<<: 探索的データ分析: 人工知能と機械学習の有効性を判断するための第一歩

>>: 3万回以上の地震訓練を実施した後、彼らは揺れの強さを素早く予測する新しい方法を発見した。

Google が新しいセマンティックセグメンテーションデータセットをリリースしました。ちなみに、私はトップに立つモデルを開発し、CVPR2021に採択されました

海外メディア：人間はますます余暇を持ち、AIは資本主義を排除する

Baiduカスタマイズ画像オープンプラットフォームのトレーニングと評価

人工知能市場の需要と応用

「現時点で最高のヴィンセント動画AI」が登場！広告や映画に使っても問題ない。ネットユーザー：とてもスムーズ

機械学習の発展の歴史と啓蒙

ロボット対コンベア：倉庫物流における戦い

新たな突破口！商用ドローン配送がさらに一歩前進

強化学習の実際の応用例 10 選

AI時代に従業員がIT業務の価値を証明する方法

推薦する

AIとコグニティブコンピューティングがIoTデータを理解

自然言語処理がヒラリーとトランプの「話し方」を分析

Kaggle マスターはどのような言語、フレームワーク、モデルを使用していますか?詳細な統計はこちら

複数の機会が生まれており、虹彩認識技術の将来の発展は有望である

「Painted Skin」の悪夢が現実に？「人間の皮膚」で覆われたこのロボットはCell誌に掲載された。

次世代の AI 人材をどう育成するか?

2019 年の Web 開発のトレンドトップ 10

2020年AIの現状調査：25%の企業がAI導入により大幅な収益増加を達成

AIの目に見えないマント：このパーカーを着ると監視アルゴリズムがあなたに目をつぶる

AIとMLがコネクテッドデバイスの成長を促進

DeepMindらが優秀論文賞を受賞、IBMスーパーコンピュータDeep Blueが古典に、IJCAI2023の賞が発表

百度のAIが海淀区の「スマートスクリーン」を実現、1秒で全状況を把握

3分で顔認識を始めましょう