この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 周知のとおり、画像セマンティックセグメンテーションを実行する場合、画像は一連のパッチにエンコードされますが、これらのパッチはぼやけていることが多く、正しくセグメント化するにはコンテキスト情報が必要になります。 したがって、コンテキスト モデリングは、画像セマンティック セグメンテーションのパフォーマンスにとって非常に重要です。 畳み込みネットワークに基づくこれまでの方法とは異なり、フランスの研究チームは異なるアプローチを採用し、 Transformerのみを使用するセマンティックセグメンテーション方法を提案しました。 最先端の畳み込み法">この方法は「優れ」ており、画像の全体的なコンテキスト情報を非常にうまくキャプチャできます。 最先端の畳み込み法">ご存知のとおり、素晴らしい成果を上げている FCN (完全畳み込みネットワーク) でさえ、「グローバル画像情報へのアクセスが制限される」という問題があります。 (畳み込み構造は現在、画像セマンティックセグメンテーションにおいて破ることのできない限界がある) 今回、この方法は、困難な ADE20K データセットで最も高度な畳み込み方法よりも優れたパフォーマンスを発揮しました。 最先端の畳み込み法">Transformer はコンピューター ビジョンの分野でますます使用されるようになり、その結果はますます成功を収めていると言わざるを得ません。 では、今回非常に優れたパフォーマンスを示した Transformer のセマンティック セグメンテーションでは、何か別の「レシピ」が使用されたのでしょうか? Vision Transformerの使用そうです、最終的に Segmenter と名付けられたこのセマンティック セグメンテーション モデルは、主に、昨年 10 月に誕生したコンピューター ビジョン分野の「新参者」Transformer、 Vision Transformer (略称 ViT) に基づいています。 ViT はどれくらい良いですか? ViT は純粋な Transformer アーキテクチャを使用しており、入力用に画像を複数のパッチに分割します。多くの画像分類タスクにおけるそのパフォーマンスは、最先端の畳み込みネットワークに劣りません。 欠点は、トレーニング データ セットが小さい場合、パフォーマンスがあまり良くないことです。 Segmenter は、純粋な Transformer エンコーダー/デコーダー アーキテクチャとして、モデルのすべてのレイヤーでグローバル画像コンテキストを活用します。 最新の ViT 研究結果に基づいて、画像はパッチに分割され、線形埋め込みシーケンスにマッピングされ、エンコーダーによってエンコードされます。次に、マスク トランスフォーマーは、エンコーダーとクラス埋め込みの出力をデコードし、アップサンプリング後に Argmax を適用して各ピクセルを 1 つずつ分類し、最終的なピクセル分割マップを出力します。 以下はモデル アーキテクチャの概略図です。 最先端の畳み込み法">デコード段階では、画像パッチとクラス埋め込みを共同で処理する簡単な方法を採用しています。デコーダーのマスクトランスフォーマーは、クラス埋め込みをオブジェクト埋め込みに置き換えることで、パノプティックセグメンテーションを直接実行できます。 仕組みあまり話しても意味がないので、実際の結果を見てみましょう。 まず、ADE20K データセットでさまざまな Transformer バリアントを比較し、さまざまなパラメーター (正規化、モデル サイズ、画像ブロック サイズ、トレーニング データセットのサイズ、モデルのパフォーマンス、さまざまなデコーダーなど) を研究し、Segmenter と畳み込みベースのセマンティック セグメンテーション メソッドを包括的に比較しました。 その中でも、難しい細粒度のラベルシーンを含むADE20Kデータセットは、最も難しいセマンティックセグメンテーションデータセットの1つです。 次の表は、さまざまな正規化スキームの結果を比較したものです。 彼らは、確率的深度スキームは単独でパフォーマンスを向上できるのに対し、ドロップアウトは、単独であっても確率的深度と組み合わせても、パフォーマンスが低下することを発見しました。 最先端の畳み込み法">異なる画像ブロック サイズと異なるトランスフォーマーのパフォーマンスを比較した結果、次のことがわかりました。 パッチ サイズを大きくすると、画像の表現は粗くなりますが、生成されるシーケンスは小さくなり、処理が速くなります。 パッチ サイズを縮小すると、パラメーターを導入しなくても強力な改善が実現します。ただし、より長いシーケンスに対して Attention を計算する必要があり、計算時間とメモリ使用量が増加します。 最先端の畳み込み法">セグメンターは、大きなトランスフォーマー モデルや小さな画像パッチを使用する場合に適しています。 最先端の畳み込み法">(表の中央にはリニア デコーダを使用したさまざまなエンコーダが示され、表の下部にはマスク トランスフォーマーをデコーダとして使用したさまざまなエンコーダが示されています) 下の図は、Segmenter の明らかな利点も示しており、Seg/16 モデル (画像ブロック サイズは 16x16) がパフォーマンスと精度の点で最高のパフォーマンスを発揮します。 最先端の畳み込み法">最後に、Segmenter と SOTA の比較を見てみましょう。 最も困難な ADE20K データセットでは、Segmenter の 2 つの指標がすべての SOTA モデルよりも高くなっています。 最先端の畳み込み法">(途中部分は長すぎるため省略) 最先端の畳み込み法">Cityscapes データセットでは、ほとんどの SOTA に匹敵し、最高のパフォーマンスを誇る Panoptic-Deeplab よりもわずか 0.8 低いだけです。 最先端の畳み込み法">Pascal Context データセットでのパフォーマンスについても同様です。 最先端の畳み込み法">残りのパラメータの比較については、興味のある方はオンデマンドで論文の詳細を確認してください。 論文の宛先: |
>>: Transformer はコンピューター ビジョンの分野でどこまで進歩したのでしょうか?
記者がインタビューした専門家によると、人工知能などの知能化技術の応用が加速するにつれ、雇用への構造的...
2022年全国人民代表大会と中国人民政治協商会議が開幕した。3月5日には2022年政府活動報告が発...
OpenAI Developer Conferenceの直後、その最大のライバルであるClaude...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
著者の劉玉樹氏は中国人民大学重陽金融研究所学務委員会委員、マクロ研究部部長、研究者である。本稿は11...
【51CTO.comオリジナル記事】まとめ本研究では、ディープフィードフォワードシーケンスメモリニュ...
1. プロジェクトの背景と動機今年初め、OPEN AI の GPT-4 は前例のないマルチモーダル機...
あらゆる分野のビジネスリーダーは人工知能の価値を認識していますが、それを適切に使用することによっての...
[[264444]]私たちはどんな新しいテクノロジーについても誤解しがちです。これは特にAI分野で顕...
5月9日、Amazon Web Servicesと51CTOが共同で「This is My Arch...
ガートナーの新しい調査*によると、人工知能 (AI) 技術計画を持つテクノロジーおよびサービス プロ...
AI をめぐっては興奮と恐怖が同時に存在しているのは否定できない現実です。一方では、マイクロソフト...
【51CTO.com 速訳】ディープラーニングの課題過去数年間で、ディープラーニング モデルの主要構...