この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 人間は、これまで一度も見たことがないにもかかわらず、新しいと認識できる新しい種類の道具、食べ物、動物に遭遇することがよくあります。 人間とは異なり、現在の最先端の検出およびセグメンテーション方法は、閉じた世界の設定で設計されているため、新しいオブジェクトを認識することが困難です。既知の種類 (ラベル付き) のオブジェクトを特定し、未知の種類 (ラベルなし) のオブジェクトを背景として扱うようにトレーニングされています。この結果、モデルは新しいオブジェクトを正常に特定できず、一般的なオブジェクトのプロパティを学習できなくなります。 最近、ボストン大学、カリフォルニア大学バークレー校、MIT-IBM Watson AI Lab の研究チームによる研究では、新しいタイプのオブジェクトを検出してセグメント化する簡単な方法が提案されました。 オリジナルリンク: https://arxiv.org/pdf/2112.01698v1.pdf この課題に対処するために、研究チームは、あらゆる画像内のすべてのオブジェクトを徹底的にラベル付けしたデータセットを作成しました。ただし、このようなデータセットを作成するには非常にコストがかかります。下の図に示すように、実際には、オブジェクト検出とインスタンスセグメンテーション用の多くの公開データセットでは、画像内のすべてのオブジェクトに完全な注釈が付けられていません。 図 1. 標準的な物体検出器のトレーニングにおける問題。この例は COCO からのものです。色付きのボックスは注釈ボックスで、白い破線のボックスは潜在的な背景領域です。多くの白い破線領域は、実際にはオブジェクトの位置を示していますが、従来のオブジェクト検出器のトレーニングでは背景と見なされるため、新しいオブジェクトのターゲット プロパティが抑制されます。 1 問題の背景 一般的なターゲット プロパティを学習しないと、多くのアプリケーション シナリオでさまざまな問題が発生します。たとえば、ロボット工学や自動運転のシナリオにおける具現化された人工知能は、トレーニング中に目に見えない物体を見つける必要があり、自動運転システムは交通事故を避けるために車両の前方にある新しい物体を検出する必要があります。 さらに、ゼロショット検出と少数ショット検出では、トレーニング中にラベル付けされなかったオブジェクトを特定する必要があります。オープンワールドインスタンスセグメンテーションは、新しいオブジェクトを特定してセグメント化することを目的としていますが、最先端のモデルはパフォーマンスがよくありません。 研究チームは、現在の最先端モデルのパフォーマンスが低い理由は、マークされた前景オブジェクトとあまり重ならない領域がすべて背景として扱われるトレーニング パイプラインにあることを発見しました。図 1 に示すように、背景には見えているもののラベルが付いていないオブジェクトがありますが、モデルのトレーニング パイプラインによってこれらのオブジェクトが検出されず、モデルが一般的なターゲット プロパティを学習することもできません。 この問題を解決するために、Kimらは、候補領域(領域提案)を前景と背景に分割するのではなく、候補領域の位置特定品質を学習することを提案しました。彼らのアプローチは、実際のランドマークに近いオブジェクト提案をサンプリングし、対応する位置特定品質を推定することを学習します。この方法はいくつかの問題を軽減しますが、正/負のサンプリングの重複しきい値を慎重に設定する必要があり、潜在的なオブジェクトのターゲット属性を抑制する可能性があります。 2つの方法 オープンセットのインスタンスセグメンテーションを改善するために、研究チームはシンプルで強力な学習フレームワークと、 「Learning to Detect Every Thing」(LDET)と呼ばれる新しいデータ拡張方法を提案しました。潜在オブジェクトのターゲット プロパティが抑制される問題を解消するために、研究チームはマスク マーカーを使用して前景オブジェクトをコピーし、背景画像に貼り付けました。切り取られたパッチを調整することで前景画像を合成します。切り取られたパッチを小さく保つことで、合成された画像に隠れたオブジェクトが含まれる可能性が低くなります。 ただし、背景は合成画像から作成されるため、実際の画像とは大きく異なって見える場合があります。たとえば、背景が低周波コンテンツのみで構成されている場合があります。したがって、そのような画像でトレーニングされた検出器のパフォーマンスがあまり良くないことがほとんどです。 この制限を克服するために、研究チームはトレーニングを 2 つの部分に分けました。 1) 合成画像を使用して、背景と前景の領域の分類と位置特定ヘッドをトレーニングします。2) 実際の画像を使用してマスクヘッドを学習します。 図 2. 私たちの拡張戦略は、背景としての小さな領域の割合を増やすことで、潜在的なオブジェクトのない画像を作成します。 図 3. 元の入力 (左) と合成画像 (右)。マスクされた領域は色でマークされ、小さな領域が背景として使用され、オブジェクトが背景に隠れるのを防ぎます。場合によっては、背景パッチが前景オブジェクト (左の列の 2 行目) を見つけることがあります。これはまれなケースであり、パッチが大幅に拡大されていることがわかります。 分類ヘッドをトレーニングする場合、画像を合成するときに潜在的なオブジェクトが削除されるため、潜在的なオブジェクトを背景として扱う可能性は小さくなります。さらに、マスク ヘッダーは実際の画像内のインスタンスをセグメント化するようにトレーニングされるため、バックボーン システムは実際の画像内の前景領域と背景領域を分離できる一般的な表現を学習します。 これは小さな変更のように思えるかもしれませんが、LDET はオープンワールド インスタンスのセグメンテーションと検出において非常に優れたパフォーマンスを発揮します。 COCO では、VOC カテゴリでトレーニングされた LDET は、非 VOC カテゴリで評価された場合に平均リコールが14.1ポイント向上します。驚くべきことに、LDET は追加のラベル付けを必要とせずに新しいオブジェクトの検出において大幅な改善を示しています。たとえば、COCO の VOC カテゴリ (20 カテゴリ) のみでトレーニングされた LDET は、UVO での平均リコールで評価した場合、すべての COCO カテゴリ (80 カテゴリ) でトレーニングされた Mask R-CNN よりも優れています。図 2 に示すように、LDET は正確なオブジェクト提案を生成し、シーン内の多くのオブジェクトをカバーすることもできます。 図 4. オープンワールドでのインスタンスセグメンテーションでは、Mask R-CNN (上) は当社の方法 (下) よりも少ないオブジェクトを検出します。このタスクでは、トレーニングの種類に関係なく、モデルは画像内のすべてのオブジェクトを特定してセグメント化する必要があります。図の検出器は両方とも COCO でトレーニングされ、UVO でテストされています。新しいデータ拡張方法とトレーニング スキームの助けを借りて、当社の検出器は COCO でラベル付けされていない多くのオブジェクトを正確に特定します。 図 5. トレーニング プロセス。元の入力画像と合成画像が与えられると、検出器は元の画像で計算されたマスク損失と分類、および合成画像の回帰損失に基づいてトレーニングされます。 この論文の貢献は次のように要約されます。
3 実験結果 研究チームは、オープンワールドインスタンスのセグメンテーションのために、クロスカテゴリおよびクロスデータセットで LDET を評価しました。クロスカテゴリ設定は COCO データセットに基づいており、ラベルは既知のカテゴリと未知のカテゴリに分割され、モデルは既知のカテゴリでトレーニングされ、検出/セグメンテーションのパフォーマンスは未知のカテゴリで評価されます。 モデルは新しい環境にあり、新しいインスタンスに遭遇する可能性があるため、データセット間設定では、モデルが新しいデータセットに一般化できるかどうかも評価されます。この目的のために、COCO または Cityscapes がトレーニング ソースとして使用され、UVO と Mappilary Vista がそれぞれテスト データセットとして使用されます。この研究では、平均精度 (AP) と平均再現率 (AR) がパフォーマンス評価基準として使用されます。特に記載がない限り、評価は非採点方式で行われます。 AR と AP は COCO 評価プロトコルに従って計算され、AP または AR の検出値は最大 100 個あります。 表1. COCOにおけるVOC→非VOC一般化の結果。表の最後の行の青い部分は、Mask R-CNN の改良版です。 LDET はすべてのベースラインを上回り、Mask R-CNN よりも大幅な改善を示しています。 図 6. COCO データセットにおける VOC から非 VOC への視覚化。上: マスク R-CNN、下: LDET。トレーニング カテゴリには、キリン、トイレ、ペン、凧、フロートは含まれないことに注意してください。 LDET は、Mask R-CNN よりも多くの新しいオブジェクトをより適切に検出できます。 表 2. VOC → 非 VOC データとトレーニング方法のアブレーション研究。最後の行は、この論文で提案されたフレームワークです。 表 3. クラスに依存しないトレーニングのアブレーション研究。クラスに依存しないトレーニングにより、LDET と Mask R-CNN のパフォーマンスがわずかに向上します。 図 7. ベースラインの Mask R-CNN は、ラベル付けされたインスタンスへの過剰適合の影響を受けます。したがって、トレーニングが進むにつれて、新しいオブジェクトを検出するパフォーマンスは低下します。対照的に、この論文の方法のパフォーマンスは基本的にトレーニングによって向上します。 表 4. COCO でテストされた教師なし手法と DeepMask との比較。 DeepMask はバックボーンとして VGG を使用することに注意してください。 LDET と DeepMask は VOC-COCO でトレーニングされています。 表 5. 背景領域のサイズの変更。 2-m は、入力画像の幅と高さ 2-m で背景領域を切り取ることを意味します。より小さな領域から背景をサンプリングすると、AR が増加し、AP が減少する傾向があります。 表6. ResNet50とResNet101の比較。 ResNet101 は ResNet50 よりもパフォーマンスが優れている傾向があり、これは LDET でより顕著です。 表 7. 領域提案ネットワークと関心領域ヘッドの比較。境界ボックスの AP と AR。 図 8. COCO 実験におけるターゲット属性マップ (RPN スコア) の視覚化。 LDET はさまざまなカテゴリのオブジェクト性をキャプチャしますが、Mask R-CNN は多くのオブジェクトを抑制する傾向があります。 表8. COCO→UVO一般化の結果。上: VOC-COCO でトレーニングされたモデル、下: COCO でトレーニングされたモデル。ベースラインと比較すると、LDET はすべての条件でより高い AP と AR を示しました。 図 9. COCO でトレーニングされたモデル結果の視覚化。上: マスク R-CNN、下: LDET。左端の 2 つの画像は UVO からのものであり、他の 2 つは COCO 検証画像からのものです。 表 9. Cityscapes → Mappilary Vista の概要結果。 LDET は自動運転データセットに効果的です。 AR0.5 は AR、IoU しきい値 = 0.5 を意味します。 |
<<: 写真やビデオをロスレスで拡大しますか?これら2つのAIツールは持つ価値がある
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
近年、人工知能がブームを迎えており、人々は合理的な分析と思考を通じて、人工知能の波をどのように利用し...
小売業界は急速に進化しています。フロントエンドの入り口とバックエンドのテクノロジーは、変革のたびに絶...
2016年以降、人工知能がニュースに登場する頻度が高まっています。実は、理工系女子の私にとって、子...
[[435329]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
[[278050]]ファーウェイの創業者兼CEOである任正非氏は、人工知能分野の2人の専門家と対談し...
転載は歓迎しますが、署名し、「劉鵬の未来を見つめる」公開アカウントからの転載であることを明記し、この...
[[264958]]将来、道を歩いていて急にお腹が空いたとき、今のように検索エンジンを使って検索する...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
スマート ビルディングの観点から見ると、AI は多くの居住者向けテクノロジーに統合され、建物やキャン...
最近、GTC 2018 で、Vicor チームは NVIDIA DGX-2 の発表を目撃しました。 ...
著者: 徐潔成校正:Yun Zhao 「使ってみて、もうMidjourneyには興味がなくなった」。...