すべてのピクセルに教師なしラベル付け！ 1時間のビデオに800時間を費やす必要はもうありません

ICLR 2022の授賞式を利用して、MIT、コーネル、Google、Microsoftが新しいSOTAを「披露」しました——

人間の介入なしに、世界中のすべてのピクセルにラベルを付けます。

論文アドレス: https://arxiv.org/abs/2203.08414

比較写真の結果から判断すると、この方法は手作業よりもさらに細かく、影までもがマークされている場合があります。

しかし残念なことに、見た目はとてもかっこいいのに、賞の候補（ノミネートも含む）には選ばれませんでした。

1ピクセルも見逃さないでください!

履歴書の分野に戻ると、実はデータのラベル付けの問題は学術界を長い間悩ませてきました。

人間にとっては、それがアボカドであろうと、マッシュポテトであろうと、あるいは「エイリアンの母船」であろうと、一目で認識できる。

しかし、機械にとっては、それはそれほど単純ではありません。

トレーニング用のデータセットを作成するには、画像内の特定のコンテンツをフレームに収める必要がありますが、これは現時点では手動でのみ実行できます。

たとえば、芝生の上に犬が座っている場合、まず犬を丸で囲んで「犬」としてマークし、次にその後ろの地面を「芝生」としてマークする必要があります。

これに基づいて、トレーニングされたモデルは「犬」と「草」を区別できます。

さらに、この問題は非常に厄介です。

これを行わないと、モデルがオブジェクト、人物、その他の重要な画像の特徴を認識することが難しくなります。

やるけど、とても面倒です。

人間の注釈者にとって、画像のセグメント化には、分類やオブジェクト検出よりも約 100 倍の労力がかかります。

1 時間分のデータにラベルを付けるだけでも 800 時間かかります。

データラベリング作業者：私も卒業するんですか？

人間を「ラベル付け」の苦痛から救うために（もちろん、主に技術の進歩を促進するために）、上記の科学者グループは、画像セマンティックセグメンテーションタスクを教師なし方式で完了する、Transformer ベースの新しい方法「STEGO」を提案しました。

教師なしセマンティックセグメンテーションの目的は、いかなる形式の注釈も付けずに、画像コーパス内の意味的に意味のあるカテゴリを検出し、特定することです。

この問題に対処するには、STEGO アルゴリズムは、明確なクラスターを形成するのに十分なほど重要かつコンパクトな特徴を各ピクセルに対して生成する必要があります。

これまでのエンドツーエンドのモデルとは異なり、STEGO は特徴学習とクラスタリングを分離する方法を提案しています。データセット全体に現れる類似画像を探し、これらの類似オブジェクトを関連付けてピクセルレベルのラベル予測を実現します。

CocoStuff データセットには、教師なしセマンティックセグメンテーションタスクの 27 のカテゴリ (地面、空、建物、芝生、自動車、人、動物など) があります。

ベースライン手法は、2021 年に Cho らが提案した PiCIE 手法と比較されます。画像の結果は、STEGO のセマンティックセグメンテーション予測結果が主要なオブジェクトを無視することなく、ローカルの詳細特徴を保持していることを示しています。

STEGO はラベル付けなしで各ピクセルにラベルをどのように割り当てるのでしょうか?

STEGOの原理と構造

STEGOは、2021年にCaronらが提案したDINOモデルを特徴抽出器として使用しています。図は、元の画像（左）でマークされた青、赤、緑の点に対してピクセル特徴の関連付け学習が行われる様子を示しています。

青は空、緑は草、赤はバイクに乗っている人を表します。

STEGO の中核となるのは、画像コーパス全体にわたって特徴の関係性を維持しながら、特徴がコンパクトなクラスターを形成するように促す新しい損失関数です。

次の式の損失関数は、画像とそれ自身、その K 近傍 (KNN) ピクセル、および他のランダム画像との間の特徴関係を抽出するためのトレーニングに使用され、下の図の 3 つの灰色の部分に対応します。

下の図はSTEGO構造を示しています。 STEGO のトレーニングネットワークは、微調整や事前トレーニングを必要としないネットワークで構成されています。この構造は、グローバル平均プーリング (GAP) を通じてグローバルな画像特徴を抽出するために使用されます。次に、各画像の K 最近傍ルックアップテーブルが特徴空間に構築されます。

他の方法と比較すると、この Frozen Visual Backbone 構造のトレーニングにかかる時間は非常に短く、NVIDIA V100 GPU カードでは 2 時間未満で済みます。

予測構造の最後のコンポーネントは、クラスタリングと CRF の改良ステップです。STEGO のセグメンテーション機能は、明確なクラスターを形成する傾向があります。1967 年に MacQueen らが提案したアコサイン距離に基づくミニバッチ K 平均法アルゴリズムを使用してこれらのクラスターを抽出し、形成されたクラスターに割り当てられるカテゴリは、STEGO の連続的な機能に基づいて計算されます。クラスタリング後、これらのラベルは CRF を使用して調整され、空間解像度がさらに向上します。

STEGO の全体的な損失関数は次のとおりです。

実験結果

各検証画像のサイズは 320×320 ピクセルであり、評価指標として平均交差和集合 (mIoU) が使用されます。

左の図は、Cityscapes データセットのラベル付き画像と STEGO セマンティックセグメンテーションの結果の比較を示しており、右の図は、CocoStuff データセットの予測ラベルと実際のラベルの混同行列を示しています。

CocoStuff データセットでは、教師なしセマンティックセグメンテーションタスクの比較結果から、STEGO が従来の方法よりも大幅に優れていることが示されています。

都市景観（27カテゴリー）の予測結果が表示されます。 STEGO は、精度と mIoU の点ですべてのベースラインを大幅に改善します。

実験結果によると、STEGO は CocoStuff (+14mIoU) と Cityscapes (+9mIoU) の両方のデータセットで、細かいセマンティックセグメンテーションタスクで優れたパフォーマンスを達成しています。

改善にもかかわらず、STEGO は依然としていくつかの課題に直面しています。

たとえば、CocoStuff データセットでは、バナナとチキンウィングは「食品」であり、コーングリッツとパスタは「材料」です。しかし、STEGO の目には、これら 2 つの間に違いはありません。

電話の受話器にバナナを置いたとしても、その受話器には「食べ物」というラベルが貼られているかもしれません。

著者について

論文の2番目の著者であるZhoutong Zhang氏は現在MITの博士課程の学生です。彼は清華大学でLiu Yebin教授の指導の下、電子工学を学びました。

これまで、2021年にSIGGRAPHで第一著者として論文「Consistent Depth of Moving Objects in Video」を発表している。

<<: AIとインフラストラクチャのゲームチェンジャーが市場で成熟しつつあります。

>>: AI がグラフィックカードを作成し、グラフィックカードが AI を実行します。 Nvidia はチップ設計において自己循環を実現したか?

MIT の新しい研究: 労働者は AI によって排除されることを心配する必要はありません。コストは非常に高く、視覚的な作業の23％しか置き換えられない

ブログ

すべてのピクセルに教師なしラベル付け！ 1時間のビデオに800時間を費やす必要はもうありません

1ピクセルも見逃さないでください!

データラベリング作業者：私も卒業するんですか？

STEGOの原理と構造

実験結果

著者について

MIT の新しい研究: 労働者は AI によって排除されることを心配する必要はありません。コストは非常に高く、視覚的な作業の23％しか置き換えられない

ビッグデータと人工知能のために生まれた新しい職業：アルゴリズム専門家

データ構造とアルゴリズムの基本概念

面接の質問に必ず読むべき一冊！ Python のトップ 5 ソートアルゴリズムとその実装コード

知っておくべきディープラーニングの10の一般的な手法

AIGCの第一波の人員削減が到来

人工知能がホテル業界にもたらす変化

AIチップがまだ普及していないのはなぜでしょうか？

推薦する

人工知能は「最優先事項」として挙げられていますが、高等教育機関はこの責任をどのように担うことができるのでしょうか?

GPT-4 の推論はとんでもない！大学の数学、物理、化学の合計得点は半分にも満たず、推理問題21種類すべて不合格。マーカス「AGIはまだ遠い」

ZTEのインテリジェントビデオReIDアルゴリズムは大きな進歩を遂げ、3つの主要なデータセットで世界記録を更新しました。

AI が「長すぎて読めない」問題の解決を支援: 深層要約モデルの構築方法

マイクロソフトリサーチの新たな成果: 携帯電話のカメラを使用して心肺バイタルサインを遠隔測定

リソースインベントリ: 便利な自動データサイエンスおよび機械学習ソフトウェア

建設業界には後継者がいないのでしょうか？考えすぎです！建設ロボットがやって来ます！

ジャック・マーの未来の3大技術、AI、IoT、ブロックチェーンを理解する

スマートロボットについて知っておくべきことすべて

人工知能の可能性を解き放つ3つのステップ

モバイルアプリケーションでディープラーニングを加速するにはどうすればよいでしょうか?この記事を読めば分かるだろう

RNN の理論から PyTorch まで

データマイニングにおける10の古典的なアルゴリズムの予備的調査

Yixue EducationのCui Wei氏：将来、教育分野での授業はロボットに置き換えられるでしょう