本論文では、バウンディング ボックス回帰に基づく効率的なポイント クラウド インスタンス セグメンテーション アルゴリズムを提案します。このアルゴリズムは、関連するコスト関数を最小化することで近似バウンディング ボックス回帰を実現し、ポイント マスク予測を通じて最終的なインスタンス セグメンテーションを実現します。 3D-BoNet は、ScanNet および S3DIS データセットで最先端の結果を達成するだけでなく、現在のほとんどのアルゴリズムよりも 10 倍以上高速です。 導入 効果的な 3D シーン理解を実現することは、コンピューター ビジョンと人工知能の分野における重要な課題の 1 つです。近年、3D ポイント クラウドの理解に関する研究は大きな進歩を遂げており、ポイント クラウド オブジェクトの検出やセマンティック セグメンテーションなどのタスクで非常に優れた結果を示しています。ただし、ポイント クラウド インスタンスのセグメンテーションに関する研究はまだ初期段階にあります。 モチベーション 下の図に示すように、現在主流のポイントクラウドインスタンスセグメンテーションアルゴリズムは、次の2つのカテゴリに分けられます。1) 3D-SIS[1]やGSPN[2]などの提案ベースの方法。これらの方法は通常、2段階のトレーニングと高価な非最大抑制(NMS)操作に依存して、密な提案を選択します。 2) SGPN[3]、ASIS[4]、JSIS3D[5]、MASC[6]、3D-BEVIS[7]などの提案フリー手法このタイプのアルゴリズムの中心的な考え方は、各ポイントの識別特徴埋め込みを学習し、平均シフトなどのクラスタリング手法を使用して、同じインスタンスのポイントをグループ化することです。このタイプの方法の問題点は、最終的にクラスター化されたインスタンスのオブジェクト性が低いことです。さらに、このような方法では、後処理ステップにかかる時間コストが通常高くなります。 図1. 現在主流のポイントクラウドインスタンスセグメンテーションアルゴリズムの比較 上記の 2 つの方法とは異なり、境界ボックス回帰 (3D-BoNet) に基づく、単一ステージ、アンカーフリー、エンドツーエンドのインスタンス セグメンテーション アルゴリズムを提案します。このアルゴリズムには以下の利点がある
概要 3D-BoNet の全体的なフレームワークを下図に示します。これは主に、インスタンス レベルの境界ボックス予測とポイント レベルのマスク予測の 2 つのブランチで構成されています。名前が示すように、バウンディング ボックス予測ブランチは、ポイント クラウド内の各インスタンスのバウンディング ボックスを予測するために使用され、マスク予測ブランチは、バウンディング ボックス内のポイントがインスタンスに属しているか背景に属しているかをさらに区別するために、バウンディング ボックス内のポイントのマスクを予測するために使用されます。 図2. 3D-BoNetの全体フレームワーク これを見ると、提案ベースのフレームワークと何ら変わらないのではと混乱するかもしれません。 まず結論から言うと、大きな違いがあります。しかし、問題はその違いがどこにあるかということです。 まず、提案ベースの方法で境界ボックスがどのように生成されるかを確認しましょう。そうです、領域提案ネットワーク (RPN) を使用して、アンカーに基づいて多数の密な境界ボックスを生成し、さらにそれらを改良します。しかし、これは明らかに効率が悪く、これほど多くの密な境界ボックスを生成することが本当に必要なのでしょうか?この問題に対処するために、大胆な仮定を立てることができます。RPN を使用して、各インスタンスに対して一意ではあるが、それほど正確ではない可能性のある境界ボックスを直接回帰してみてはどうでしょうか (図 3 を参照)。 図3. 各インスタンスの大まかな境界ボックスを回帰する例 3D ポイント クラウド自体に各オブジェクトの幾何学的情報が明示的に含まれていることを考慮すると、この目標は実現可能であると考えられます。次に、もっと大胆に、グローバル機能を使用して各インスタンスの境界ボックスを回帰してみましょう。これができれば、問題の半分は解決するのではないでしょうか? しかし、すぐに新たな問題が発生しました。 。まず、各 3D シーンに含まれるインスタンスの数が異なり (ネットワークが適応的に異なる数の境界ボックスを出力するようにするにはどうすればよいでしょうか)、各ポイント クラウド内のインスタンスはまだ順序が異なります。これは、ネットワークを使用して一連のバウンディング ボックスを回帰したとしても、これらのバウンディング ボックスをグラウンド トゥルースのバウンディング ボックスと 1 つずつリンクすることが難しいことを意味します。さらに問題となるのは、ネットワークの教師ありトレーニングと最適化を実現できないことです。 この時点で、核となる疑問は、「この種のネットワークをどのようにトレーニングすればよいのか」ということになります。 この問題に対処するために、ネットワークをトレーニングするための境界ボックス関連付けレイヤーと多基準損失関数を提案します。言い換えれば、予測された境界ボックスを実際の境界ボックスと関連付ける (ペアリングする) 問題を、最適な割り当て問題としてモデル化したいのです。 図4. バウンディングボックス予測ブランチの構造図 どのように関連付けますか? ネットワークによって予測された各境界ボックスを実際の境界ボックスと一意に関連付けるために、これを最適割り当て問題としてモデル化します。番目の予測された境界ボックスが真の境界ボックスに割り当てられる場合にのみ、バイナリ関連インデックス マトリックスであると想定します。 は、番目の予測境界ボックスを真の境界ボックスに割り当てる際の関連コストを表す関連コスト行列です。一般的に言えば、2 つの境界ボックス間の一致度を表します。2 つの境界ボックスが一致するほど、コストは小さくなります。したがって、境界ボックスの最適な関連付け問題は、最小の総コストを持つ最適な割り当てインデックス マトリックスを見つける問題に変換され、次のように表現できます。 次に、関連コスト マトリックスをどのように計算するのでしょうか? 2 つの 3D 境界ボックス間の一致度を測定する最もシンプルで直感的な評価メトリックは、2 つの境界ボックスの最小頂点と最大頂点間のユークリッド距離を比較することです。ただし、図 4 に示すように、ポイント クラウドは通常非常にまばらで 3D 空間に不均一に分布していることを考慮すると、候補ボックス #2 (赤) は候補ボックス #1 (黒) およびグラウンド トゥルース境界ボックス #0 (青) と同じユークリッド距離を持ちますが、ボックス #2 には明らかに有効なポイントが多くあります (重複が多い)。したがって、コスト マトリックスを計算するときは、有効なポイントの範囲も考慮する必要があります。 図5. 予測境界ボックスと実際の境界ボックスの点群カバレッジの概略図 この目的のために、私たちは次の 3 つの指標を考慮します。 (1)頂点間のユークリッド距離。たとえば、予測された境界ボックス t を真の境界ボックスに割り当てるコストは次のようになります。 (2)ソフトIoU入力ポイント クラウドとグラウンド トゥルース インスタンスの境界ボックスが与えられると、各ポイントが境界ボックス内にあるかどうかを表すハード バイナリ ベクトルを直接取得できます。ただし、同じ入力ポイント クラウドの 番目の予測ボックスの場合、同様のハード バイナリ ベクトルを直接取得すると、微分不可能なフレームワークになります。したがって、我々は、類似しているがソフトなバイナリ ベクトルを取得するために、point-in-pred-box-probability と呼ばれる微分可能だが単純なアルゴリズムを導入します。詳細については、論文「アルゴリズム 1」を参照してください。 すべての値は の範囲内にあります。値が大きいほど、点がボックス内にある可能性が高くなり、値が小さいほど、対応する点がボックスから遠くなります。したがって、予測された境界ボックスと真の境界ボックスの sIoU を次のように定義します。 (3)さらに、と間の交差エントロピーも考慮する。クロスエントロピーは、カバレッジの高い、より大きな境界ボックスを生成する傾向があります。 まとめると、指標(1)は学習したボックスを真の境界ボックスとできるだけ重ね合わせようとし、(2)と(3)は図5に示すようにできるだけ多くの点をカバーして不均一性を克服するために使用されます。予測された境界ボックスと実際の境界ボックスの最終的な関連付けコストは次のとおりです。 損失関数をどのように定義するのでしょうか? 境界ボックス関連付けレイヤーを通過した後、関連付けインデックス マトリックスを使用して、予測された境界ボックスとそれに対応するスコアをグラウンドトゥルースと一致させ、最初の境界ボックス (グラウンドトゥルース境界ボックスの合計数) とグラウンドトゥルースの境界ボックスを一致させることができます。 境界ボックスの予測には、次の 3 つの合計である多基準損失関数を使用します。 バウンディング ボックス スコアの予測には別の損失関数を使用します。予測ボックス スコアは、対応する予測ボックスの有効性を特徴付けることを目的としています。関連インデックス マトリックスで並べ替えた後、最初の真の境界ボックスに対応するスコアを 1 に設定し、残りの無効な境界ボックスに対応するスコアを 0 に設定します。この二値分類タスクではクロスエントロピー損失を使用する。 別の並列ブランチとして、我々の方法は、既存のポイントクラウドセマンティックセグメンテーションアルゴリズム(Sparseconv、Pointnet++など)を対応するセマンティックセグメンテーションモジュールとして使用することができます。ネットワーク全体の最終的な損失関数は次のように定義されます。 標準のクロスエントロピーを使用するセマンティックセグメンテーションブランチの損失を表します。具体的なネットワーク最適化と解決プロセスにはハンガリーアルゴリズムを使用します。詳細については[8]、[9]を参照してください。 インスタンスマスクを予測するにはどうすればいいですか? バウンディング ボックス予測ブランチと比較すると、このブランチは比較的単純です。バウンディング ボックス予測が十分に優れている限り、このブランチはバイナリ分類問題を実行することと同等であり、盲目的な推測でも 50% の精度が得られるからです。このブランチでは、ポイントレベルのランドマークを各境界ボックスとスコアに融合し、各インスタンスのポイントレベルのバイナリマスクを予測します。背景点とインスタンス点の不均衡を考慮して、焦点損失[10]を使用してこの分岐を最適化します。 図6. ポイントマスク予測の分岐構造図。 実験 ScanNet(v2)ベンチマークでは、当社の方法は最先端の結果を達成し、3D-SIS、MASC、およびその他の方法に比べて大幅に改善されています。 図7. ScanNet(V2)における当手法の結果 アブレーション研究では、損失関数の各ブランチと各評価指標の役割もさらに確認しました。詳細な分析については論文を参照してください。 図8.アブレーション研究結果(S3DIS、エリア5) 計算効率の面では、3D-BoNet は現在最も高速な方法です。SGPN、ASIS、3D-SIS などの方法と比較すると、3D-BoNet は 10 倍以上高速です。 図 9. ScanNet 検証セットを処理するためにさまざまな方法に必要な時間。 さらに、図 10 には、S3DIS データセット (トレーニング用に領域 1、2、3、4、6、テスト用に領域 5) でトレーニングしたときの、提案された損失関数の変化曲線も示されています。図からわかるように、私たちが提案した損失関数はより一貫して収束することができ、それによってセマンティックセグメンテーションブランチ、バウンディングボックス予測ブランチ、およびポイントマスク予測ブランチのエンドツーエンドの最適化を実現できます。 図10. S3DISデータセットにおける本手法のトレーニング損失 図 11 では、予測された境界ボックスと境界ボックス スコアを視覚化しています。私たちの方法によって予測されたボックスは、必ずしも非常に正確でコンパクトではないことがわかります。むしろ、それらは比較的包括的であり、客観性が高い。これは、この記事の冒頭で述べたおおよその境界ボックスを取得するという目標とも一致しています。 図 11. S3DIS データセット エリア 2 における当社の手法の予測境界ボックスとスコアの視覚化。赤いボックスは予測された境界ボックスを表し、青いボックスは実際の値を表します。 境界ボックスが予測されると、各ボックス内のポイントマスクを予測するのがはるかに簡単になります。最後に、予測されたインスタンス マスクを視覚化します。黒い点は、このインスタンスに属する確率が 0 に近いことを表し、色付きの点は、このインスタンスに属する確率が 1 に近いことを表します。色が濃いほど、確率が高くなります。 図 12. 予測されたインスタンス マスクの視覚化。入力ポイント クラウドには、椅子 2 脚、テーブル 1 台、地面の合計 4 つのインスタンスが含まれています。左から順に、椅子 #1、椅子 #2、テーブル #1、地面 #2 のポイント マスクです。 要約すると、我々はバウンディング ボックス回帰に基づく効率的なポイント クラウド インスタンス セグメンテーション アルゴリズムを提案しました。このアルゴリズムは、マッチング コスト関数を最小化することで近似バウンディング ボックス回帰を実現し、ポイント マスク予測を通じて最終的なインスタンス セグメンテーションを実現します。私たちが提案した 3D-BoNet は、ScanNet および S3DIS データセットで最先端の結果を達成するだけでなく、他の既存のアルゴリズムよりも効率的です。 |
>>: シンプルで効率的なアルゴリズムが衛星IoTを現実に近づける
国府如和の長年にわたる指導過程において、多くの学生が次のような質問をしました。機械学習は実際のビジネ...
PwCは、モノのインターネット(IoTAg)ベースの農業モニタリングがコネクテッドスマート農業の分野...
今朝早く、ネットユーザーが私に人気の AI プロジェクトを勧めてくれました。世界中を旅して、アンジェ...
レオナルド・ダ・ヴィンチ、ルーベンス、アンディ・ウォーホルが描いた自分の肖像画をもらったらどんなだろ...
[[360189]]今年、ほとんどの企業は、新型コロナウイルス感染症による混乱に対処し、リモートワー...
[[250135]]習近平総書記は中国共産党中央委員会政治局第9回集団学習会で、人工知能は新たな科学...
アルゴリズムによる採用は珍しいことではありません。膨大な履歴書の審査を自動化するために AI アルゴ...
強化学習は機械学習のサブセットであり、エージェントが特定の環境で特定のアクションを実行した場合の結果...
2016年7月12日から9月5日まで、北京TalkingData Technology Co., ...
AI モデルを開発する場合、データの量と品質がモデルの有効性に直接影響します。現場でデータを収集した...
外交活動に関して、近年最も議論されている概念は「デジタル外交」であろう。 2010年には、当時米国務...