すべてのピクセルに教師なしラベル付け! 1時間のビデオに800時間を費やす必要はもうありません

すべてのピクセルに教師なしラベル付け! 1時間のビデオに800時間を費やす必要はもうありません

ICLR 2022の授賞式を利用して、MIT、コーネル、Google、Microsoftが新しいSOTAを「披露」しました——

人間の介入なしに、世界中のすべてのピクセルにラベルを付けます。

論文アドレス: https://arxiv.org/abs/2203.08414

比較写真の結果から判断すると、この方法は手作業よりもさらに細かく、影までもがマークされている場合があります。

しかし残念なことに、見た目はとてもかっこいいのに、賞の候補(ノミネートも含む)には選ばれませんでした。

1ピクセルも見逃さないでください!

履歴書の分野に戻ると、実はデータのラベル付けの問題は学術界を長い間悩ませてきました。

人間にとっては、それがアボカドであろうと、マッシュポテトであろうと、あるいは「エイリアンの母船」であろうと、一目で認識できる。

しかし、機械にとっては、それはそれほど単純ではありません。

トレーニング用のデータ セットを作成するには、画像内の特定のコンテンツをフレームに収める必要がありますが、これは現時点では手動でのみ実行できます。

たとえば、芝生の上に犬が座っている場合、まず犬を丸で囲んで「犬」としてマークし、次にその後ろの地面を「芝生」としてマークする必要があります。

これに基づいて、トレーニングされたモデルは「犬」と「草」を区別できます。

さらに、この問題は非常に厄介です。

これを行わないと、モデルがオブジェクト、人物、その他の重要な画像の特徴を認識することが難しくなります。

やるけど、とても面倒です。

人間の注釈者にとって、画像のセグメント化には、分類やオブ​​ジェクト検出よりも約 100 倍の労力がかかります。

1 時間分のデータにラベルを付けるだけでも 800 時間かかります。

データラベリング作業者:私も卒業するんですか?

人間を「ラベル付け」の苦痛から救うために(もちろん、主に技術の進歩を促進するために)、上記の科学者グループは、画像セマンティックセグメンテーションタスクを教師なし方式で完了する、Transformer ベースの新しい方法「STEGO」を提案しました。

教師なしセマンティックセグメンテーションの目的は、いかなる形式の注釈も付けずに、画像コーパス内の意味的に意味のあるカテゴリを検出し、特定することです。

この問題に対処するには、STEGO アルゴリズムは、明確なクラスターを形成するのに十分なほど重要かつコンパクトな特徴を各ピクセルに対して生成する必要があります。

これまでのエンドツーエンドのモデルとは異なり、STEGO は特徴学習とクラスタリングを分離する方法を提案しています。データセット全体に現れる類似画像を探し、これらの類似オブジェクトを関連付けてピクセルレベルのラベル予測を実現します。

CocoStuff データセットには、教師なしセマンティックセグメンテーションタスクの 27 のカテゴリ (地面、空、建物、芝生、自動車、人、動物など) があります。

ベースライン手法は、2021 年に Cho らが提案した PiCIE 手法と比較されます。画像の結果は、STEGO のセマンティック セグメンテーション予測結果が主要なオブジェクトを無視することなく、ローカルの詳細特徴を保持していることを示しています。

STEGO はラベル付けなしで各ピクセルにラベルをどのように割り当てるのでしょうか?

STEGOの原理と構造

STEGOは、2021年にCaronらが提案したDINOモデルを特徴抽出器として使用しています。図は、元の画像(左)でマークされた青、赤、緑の点に対してピクセル特徴の関連付け学習が行われる様子を示しています。

青は空、緑は草、赤はバイクに乗っている人を表します。

STEGO の中核となるのは、画像コーパス全体にわたって特徴の関係性を維持しながら、特徴がコンパクトなクラスターを形成するように促す新しい損失関数です。

次の式の損失関数は、画像とそれ自身、その K 近傍 (KNN) ピクセル、および他のランダム画像との間の特徴関係を抽出するためのトレーニングに使用され、下の図の 3 つの灰色の部分に対応します。

下の図はSTEGO構造を示しています。 STEGO のトレーニング ネットワークは、微調整や事前トレーニングを必要としないネットワークで構成されています。この構造は、グローバル平均プーリング (GAP) を通じてグローバルな画像特徴を抽出するために使用されます。次に、各画像の K 最近傍ルックアップ テーブルが特徴空間に構築されます。

他の方法と比較すると、この Frozen Visual Backbone 構造のトレーニングにかかる​​時間は非常に短く、NVIDIA V100 GPU カードでは 2 時間未満で済みます。

予測構造の最後のコンポーネントは、クラスタリングと CRF の改良ステップです。STEGO のセグメンテーション機能は、明確なクラスターを形成する傾向があります。1967 年に MacQueen らが提案したアコサイン距離に基づくミニバッチ K 平均法アルゴリズムを使用してこれらのクラスターを抽出し、形成されたクラスターに割り当てられるカテゴリは、STEGO の連続的な機能に基づいて計算されます。クラスタリング後、これらのラベルは CRF を使用して調整され、空間解像度がさらに向上します。

STEGO の全体的な損失関数は次のとおりです。

実験結果

各検証画像のサイズは 320×320 ピクセルであり、評価指標として平均交差和集合 (mIoU) が使用されます。

左の図は、Cityscapes データセットのラベル付き画像と STEGO セマンティック セグメンテーションの結果の比較を示しており、右の図は、CocoStuff データセットの予測ラベルと実際のラベルの混同行列を示しています。

CocoStuff データセットでは、教師なしセマンティックセグメンテーションタスクの比較結果から、STEGO が従来の方法よりも大幅に優れていることが示されています。

都市景観(27カテゴリー)の予測結果が表示されます。 STEGO は、精度と mIoU の点ですべてのベースラインを大幅に改善します。

実験結果によると、STEGO は CocoStuff (+14mIoU) と Cityscapes (+9mIoU) の両方のデータセットで、細かいセマンティックセグメンテーションタスクで優れたパフォーマンスを達成しています。

改善にもかかわらず、STEGO は依然としていくつかの課題に直面しています。

たとえば、CocoStuff データセットでは、バナナとチキンウィングは「食品」であり、コーングリッツとパスタは「材料」です。しかし、STEGO の目には、これら 2 つの間に違いはありません。

電話の受話器にバナナを置いたとしても、その受話器には「食べ物」というラベルが貼られているかもしれません。

著者について

論文の2番目の著者であるZhoutong Zhang氏は現在MITの博士課程の学生です。彼は清華大学でLiu Yebin教授の指導の下、電子工学を学びました。

これまで、2021年にSIGGRAPHで第一著者として論文「Consistent Depth of Moving Objects in Video」を発表している。

<<:  AIとインフラストラクチャのゲームチェンジャーが市場で成熟しつつあります。

>>:  AI がグラフィック カードを作成し、グラフィック カードが AI を実行します。 Nvidia はチップ設計において自己循環を実現したか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

騒ぎの裏で、2020年はケータリングロボットにとって楽な年になるだろうか?

最近、ロボットに特化したレストランが広州に正式にオープンしました。客の出迎えから調理まで、一連の作業...

人工知能が都市景観をどう変えるのか

人工知能 (AI) とディープラーニングはあらゆるところに存在し、今や都市の景観を一変させる可能性を...

人工知能の登場により、将来的にこれらの 6 つの職業は失業する可能性があります。あなたは準備ができていますか?

科学技術の発展とビッグデータの登場により、人工知能は私たちの生活にますます近づいてきました。しかし、...

ML モデルに魂を吹き込む: MVP に基づく超シンプルなデプロイメント ソリューション

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

「概念のドリフト」問題と闘おう! Google が新しい時間認識フレームワークをリリース: 画像認識精度が 15% 向上

機械学習の分野では、コンセプトドリフトという問題が長い間研究者を悩ませてきました。つまり、データの分...

...

AIはデータセキュリティをどう変えるのか

サイバーセキュリティにおける人工知能 (AI) は、データセキュリティにとって良いものでしょうか、そ...

ガートナー、2024年以降のIT組織とユーザーに関する重要な予測を発表

ガートナーは、2024 年以降のトップ 10 の戦略予測を発表しました。ガートナーは、生成型人工知能...

新しい脳のようなコンピューティングデバイスは人間の学習をシミュレートできる:この論文はNature Communications誌に掲載された。

「シナプストランジスタ」は、脳の可塑性を模倣して、データの処理と保存を同時に行うことができます。 ...

...

JD.comの鄭志同氏:機械学習を使って何億もの商品データを最適化する方法

[51CTO.comより引用] 2017年7月21日から22日まで、51CTOが主催する人工知能をテ...

...

金融業界における AI とビッグデータのトップ 10 トレンド

今日では、人々の仕事や生活のあらゆる側面がテクノロジーによって支援されています。人工知能はそのような...

私の国のロボット産業には隠れた懸念があります。すべての関係者が協力して高品質の開発を推進します

近年、我が国のロボット産業は急速な発展傾向を示していますが、一方で、中核技術の弱さや粗利益率の低下な...