すべてのピクセルに教師なしラベル付け! 1時間のビデオに800時間を費やす必要はもうありません

すべてのピクセルに教師なしラベル付け! 1時間のビデオに800時間を費やす必要はもうありません

ICLR 2022の授賞式を利用して、MIT、コーネル、Google、Microsoftが新しいSOTAを「披露」しました——

人間の介入なしに、世界中のすべてのピクセルにラベルを付けます。

論文アドレス: https://arxiv.org/abs/2203.08414

比較写真の結果から判断すると、この方法は手作業よりもさらに細かく、影までもがマークされている場合があります。

しかし残念なことに、見た目はとてもかっこいいのに、賞の候補(ノミネートも含む)には選ばれませんでした。

1ピクセルも見逃さないでください!

履歴書の分野に戻ると、実はデータのラベル付けの問題は学術界を長い間悩ませてきました。

人間にとっては、それがアボカドであろうと、マッシュポテトであろうと、あるいは「エイリアンの母船」であろうと、一目で認識できる。

しかし、機械にとっては、それはそれほど単純ではありません。

トレーニング用のデータ セットを作成するには、画像内の特定のコンテンツをフレームに収める必要がありますが、これは現時点では手動でのみ実行できます。

たとえば、芝生の上に犬が座っている場合、まず犬を丸で囲んで「犬」としてマークし、次にその後ろの地面を「芝生」としてマークする必要があります。

これに基づいて、トレーニングされたモデルは「犬」と「草」を区別できます。

さらに、この問題は非常に厄介です。

これを行わないと、モデルがオブジェクト、人物、その他の重要な画像の特徴を認識することが難しくなります。

やるけど、とても面倒です。

人間の注釈者にとって、画像のセグメント化には、分類やオブ​​ジェクト検出よりも約 100 倍の労力がかかります。

1 時間分のデータにラベルを付けるだけでも 800 時間かかります。

データラベリング作業者:私も卒業するんですか?

人間を「ラベル付け」の苦痛から救うために(もちろん、主に技術の進歩を促進するために)、上記の科学者グループは、画像セマンティックセグメンテーションタスクを教師なし方式で完了する、Transformer ベースの新しい方法「STEGO」を提案しました。

教師なしセマンティックセグメンテーションの目的は、いかなる形式の注釈も付けずに、画像コーパス内の意味的に意味のあるカテゴリを検出し、特定することです。

この問題に対処するには、STEGO アルゴリズムは、明確なクラスターを形成するのに十分なほど重要かつコンパクトな特徴を各ピクセルに対して生成する必要があります。

これまでのエンドツーエンドのモデルとは異なり、STEGO は特徴学習とクラスタリングを分離する方法を提案しています。データセット全体に現れる類似画像を探し、これらの類似オブジェクトを関連付けてピクセルレベルのラベル予測を実現します。

CocoStuff データセットには、教師なしセマンティックセグメンテーションタスクの 27 のカテゴリ (地面、空、建物、芝生、自動車、人、動物など) があります。

ベースライン手法は、2021 年に Cho らが提案した PiCIE 手法と比較されます。画像の結果は、STEGO のセマンティック セグメンテーション予測結果が主要なオブジェクトを無視することなく、ローカルの詳細特徴を保持していることを示しています。

STEGO はラベル付けなしで各ピクセルにラベルをどのように割り当てるのでしょうか?

STEGOの原理と構造

STEGOは、2021年にCaronらが提案したDINOモデルを特徴抽出器として使用しています。図は、元の画像(左)でマークされた青、赤、緑の点に対してピクセル特徴の関連付け学習が行われる様子を示しています。

青は空、緑は草、赤はバイクに乗っている人を表します。

STEGO の中核となるのは、画像コーパス全体にわたって特徴の関係性を維持しながら、特徴がコンパクトなクラスターを形成するように促す新しい損失関数です。

次の式の損失関数は、画像とそれ自身、その K 近傍 (KNN) ピクセル、および他のランダム画像との間の特徴関係を抽出するためのトレーニングに使用され、下の図の 3 つの灰色の部分に対応します。

下の図はSTEGO構造を示しています。 STEGO のトレーニング ネットワークは、微調整や事前トレーニングを必要としないネットワークで構成されています。この構造は、グローバル平均プーリング (GAP) を通じてグローバルな画像特徴を抽出するために使用されます。次に、各画像の K 最近傍ルックアップ テーブルが特徴空間に構築されます。

他の方法と比較すると、この Frozen Visual Backbone 構造のトレーニングにかかる​​時間は非常に短く、NVIDIA V100 GPU カードでは 2 時間未満で済みます。

予測構造の最後のコンポーネントは、クラスタリングと CRF の改良ステップです。STEGO のセグメンテーション機能は、明確なクラスターを形成する傾向があります。1967 年に MacQueen らが提案したアコサイン距離に基づくミニバッチ K 平均法アルゴリズムを使用してこれらのクラスターを抽出し、形成されたクラスターに割り当てられるカテゴリは、STEGO の連続的な機能に基づいて計算されます。クラスタリング後、これらのラベルは CRF を使用して調整され、空間解像度がさらに向上します。

STEGO の全体的な損失関数は次のとおりです。

実験結果

各検証画像のサイズは 320×320 ピクセルであり、評価指標として平均交差和集合 (mIoU) が使用されます。

左の図は、Cityscapes データセットのラベル付き画像と STEGO セマンティック セグメンテーションの結果の比較を示しており、右の図は、CocoStuff データセットの予測ラベルと実際のラベルの混同行列を示しています。

CocoStuff データセットでは、教師なしセマンティックセグメンテーションタスクの比較結果から、STEGO が従来の方法よりも大幅に優れていることが示されています。

都市景観(27カテゴリー)の予測結果が表示されます。 STEGO は、精度と mIoU の点ですべてのベースラインを大幅に改善します。

実験結果によると、STEGO は CocoStuff (+14mIoU) と Cityscapes (+9mIoU) の両方のデータセットで、細かいセマンティックセグメンテーションタスクで優れたパフォーマンスを達成しています。

改善にもかかわらず、STEGO は依然としていくつかの課題に直面しています。

たとえば、CocoStuff データセットでは、バナナとチキンウィングは「食品」であり、コーングリッツとパスタは「材料」です。しかし、STEGO の目には、これら 2 つの間に違いはありません。

電話の受話器にバナナを置いたとしても、その受話器には「食べ物」というラベルが貼られているかもしれません。

著者について

論文の2番目の著者であるZhoutong Zhang氏は現在MITの博士課程の学生です。彼は清華大学でLiu Yebin教授の指導の下、電子工学を学びました。

これまで、2021年にSIGGRAPHで第一著者として論文「Consistent Depth of Moving Objects in Video」を発表している。

<<:  AIとインフラストラクチャのゲームチェンジャーが市場で成熟しつつあります。

>>:  AI がグラフィック カードを作成し、グラフィック カードが AI を実行します。 Nvidia はチップ設計において自己循環を実現したか?

ブログ    
ブログ    

推薦する

...

高等教育における人工知能の3つの革新的な応用

高等教育の専門家は、AI と完全に連携する準備をしなければ、機会を逃したり、学生とのつながりが断たれ...

機械学習にはどのプログラミング言語を選択すればよいでしょうか?

機械学習やデータサイエンスの分野で仕事を得るために、開発者はどのプログラミング言語を学ぶべきでしょう...

...

ChatGPTのiOS版はBing検索機能を統合しており、有料会員のみが利用可能

6月28日、OpenAIは今年5月にリリースしたChatGPTアプリのiOS版をリリースした。このア...

COVID-19パンデミックの中、米国の産業界ではロボットがアメリカ人の雇用を急速に置き換えている

海外メディアの報道によると、アマゾンはこのほど、米カリフォルニア州の倉庫の管理者が新型コロナウイルス...

...

JDデジタルJDDコンペティションの優勝者が発表されました

現在、私たちはAIとビッグデータの急速な発展の時期を迎えています。これらの最先端技術は産業界に力を与...

科学データ研究のための人工知能アシスタントMATAが特許を取得

サザンメソジスト大学(SMU)とNASAの研究者らは、科学的データに関する質問に答えることができる人...

...

...

サイバーセキュリティを変える、最もホットなハッカーツール:武器化された人工知能FraudGPT

FraudGPT の「成功」は、生成 AI の武器化とハッキング技術の民主化という危険な時代の到来...

AIを使えばITの運用と保守が簡単になる

[[437499]]この記事はWeChatの公開アカウント「Computer World」から転載し...

IoTと農業: コネクティビティが農業をどう変えるのか

インダストリー 4.0 はよく知られたアイデアですが、アグリカルチャー 4.0 はあまり知られていな...

チンチラの死: 十分に訓練すれば小型モデルでも大型モデルを上回る性能を発揮できる

2022年3月、DeepMindの論文「計算最適化大規模言語モデルのトレーニング」では、構築されたC...