陳一然教授の論文が賞を受賞しました! この顔認識/分析に関する論文は、2024 IEEE CIS TETCI 優秀論文賞を受賞しました。 陳一然教授は微博で「実は4年前に発表した論文が2024年度優秀論文賞を受賞した」と述べた。 写真 論文タイトル: 相互接続された畳み込みニューラルネットワークによるエンドツーエンドの顔解析 写真 顔解析は、顔のさらなる分析、修正、およびその他のアプリケーションの基礎を提供するために、顔の部分 (目、鼻、口など) の正確なピクセル分割を必要とする重要なコンピューター ビジョン タスクです。 相互接続畳み込みニューラル ネットワーク (iCNN) は、顔解析に効果的なモデルであることが示されています。しかし、元の iCNN は 2 段階で個別にトレーニングされていたため、パフォーマンスが制限されていました。 この問題に対処するために、本稿では、2 つの独立したステージの間に空間トランスフォーマー ネットワーク (STN) を追加することで iCNN を拡張する、シンプルなエンドツーエンドの顔解析フレームワークである STN 支援 iCNN (STN-iCNN) を紹介します。 STN-iCNN は STN を活用して、元の 2 段階の iCNN パイプラインへのトレーニング可能な接続を提供し、エンドツーエンドの共同トレーニングを可能にします。 また、副産物として、STN は元のカッターよりも精密にカットされた部品を提供することができます。 これら 2 つの利点のおかげで、研究者のアプローチにより元のモデルの精度が大幅に向上しました。研究者のモデルは、標準的な顔解析データセットであるHelenデータセットで競争力のあるパフォーマンスを達成しました。 また、CelebAMask-HQ データセットでも優れたパフォーマンスを達成し、優れた一般化能力を実証しています。 STN-iCNN次の 2 つの図は、STN-iCNN と従来のベースライン メソッドを比較したものです。 図 a では、ベースライン メソッドが 2 つのステップに分かれていることがわかります。 最初のステップは顔の部分を検出して切り取ることです。2 番目のステップは切り取った部分に個別にラベルを付けることです。このプロセスで使用されるクロッピング方法は区別できないため、2 つの段階を共同でトレーニングすることはできません。 冒頭で述べたように、これによりシステムのパフォーマンスが制限されます。 研究者らが提案した方法は、ベースライン方法の 2 つのステップの間に空間トランスフォーマー ネットワーク (STN) を追加することでこの問題を解決します。 STN は、元のクロッパーを微分可能な空間変換器に置き換え、モデルをエンドツーエンドでトレーニングできるようにします。 写真 図 b の STN-iCNN 方式では、入力画像ごとにまず画像サイズが調整され、iCNN モデルに渡されて、粗いセグメンテーションが実行されます。 次に、粗くセグメント化されたバージョンが STN に送信され、そのローカリゼーション ネットワークがトランスフォーマー パラメーター マトリックス θ を予測します。次に、θ をパラメータとして、グリッド トランスフォーマーは元の画像の対応する部分を切り取ります。 最後に、逆グリッド トランスフォーマーはすべての部分予測を最終的な全体予測に再マッピングします。 写真 下の図はiCNNの構造の概略図です。 図3はSTNモジュール内の測位ネットワーク構造を示しています。 この 9 層ネットワークは、VGG16 の簡略化されたバージョンです。各畳み込み層 (白) には、畳み込み、バッチ正規化、および ReLU 非線形活性化が含まれます。 2 つの畳み込み層ごとに、平均プーリング (赤) が適用されます。 最後に、ReLU アクティベーションを備えた完全接続層が適用されます (青)。 写真 研究者たちは、システム全体のトレーニングプロセスを事前トレーニングとエンドツーエンドのトレーニングに分けました。 まず、より良い結果を得るために、システムを事前にトレーニングしました。このうち、2 つのモジュールを事前にトレーニングする必要があります。1 つは粗いセグメンテーション用の iCNN K で、もう 1 つは部分的なローカリゼーション用のローカリゼーション ネットワーク L です。 下の図に示すように、K の入力は調整された画像 I0 であり、出力は大まかな予測値 z です。 写真 最適化のターゲットは、zと調整されたラベルJ'間のクロスエントロピー損失LRです。 表1に詳細なハイパーパラメータを示します。 研究者らは、提案されたモデルを事前トレーニングとエンドツーエンドのトレーニングの 2 段階でトレーニングしました。このうち、前の段階で取得された事前トレーニング済みパラメータは、エンドツーエンドのトレーニングの前にロードされます。 HELEN データセットの場合、トレーニングと推論は単一の NVIDIA GTX1080Ti GPU で実行されますが、CelebMaskA データセットの場合、これらの操作は GPU あたりバッチ サイズ 16 の 4 つの NVIDIA GTX1080Ti GPU で実行されます。 提案されたモデルは効率が良い。推論効率の点では、ベースライン モデルは顔あたり 86 ミリ秒で実行されますが、提案モデルは顔あたり 80 ミリ秒で実行されます。 HELEN のトレーニング効率の場合、事前トレーニング段階には 0.5 時間、エンドツーエンド段階には 2.2 時間かかります。CelebMaskA のトレーニング効率の場合、事前トレーニング段階とエンドツーエンド段階にはそれぞれ 1.6 時間と 10.2 時間かかります。 CelebMaskA でのハイブリッド トレーニング戦略: HELEN でのトレーニングと CelebMaskAD での微調整 CelebMaskA には大量のデータがあるため、直接トレーニングを行うにはより多くのコンピューティング リソースとより長いトレーニング時間が必要になります。 実際に研究者らは、Helen データセットですでにトレーニングされたモデルを CelebMaskA の 2,000 枚の画像を使用して微調整すると、同様のパフォーマンスが得られることを発見しました。 この方法では、単一の GPU で 2.1 時間しかかからないため、トレーニング時間が大幅に節約されます。これは研究者のモデルの一般化可能性を実証しています。 写真 研究者らは、以前の研究者らの結果を基準として、それを再実装された iCNN と HELEN データセット上で提案された STN-iCNN の結果と比較しました。 比較結果を表 2 に示します。ここで、STNiCNN* はエンドツーエンドのトレーニング前の STN-iCNN の結果を表します。 エンドツーエンドのトレーニング前でも、モデルの結果が大幅に改善されていることがわかります。 これは、STN のローカリゼーション ネットワークに深い CNN レイヤーがあり、粗いマスクから意味部分のコンテキスト関係を学習できるためです。粗いマスクが不完全な場合でも、正確な変換行列を予測できます。 したがって、STN はオリジナルのクロッパーよりも正確にトリミングできるため、全体的なパフォーマンスが向上します。 写真 図 5 に示すように、研究者は HELEN データセットで 2 つの異なるクロッピング方法の比較実験を実施しました。実験では、研究者らはいくつかの画像を選択し、その顔の部分(左眉、右目、口など)を背景情報にランダムに重ね合わせました。次に研究者は画像を粗い注釈モデルに送信し、不完全な粗いセグメンテーション結果を取得しました (図 5 の 2 行目を参照)。大まかな結果に基づいて、研究者はベースライン法と STN 法を使用して切り取られていない画像を切り取り、切り取り結果を比較しました。実験結果は図5の最後の2行に示されています。結果は、ラフマスクが部分的に欠落している場合でも、STN メソッドが適切に機能することを示しています。 写真 モデル K のベースライン入力サイズは 64×64 ですが、目や眉毛の小さな特徴を考慮して、研究者のモデルでは入力サイズを 128×128 に変更しています。 この変更はベースライン メソッドに限られた影響しか与えませんでしたが、図 6 に示すように、私たちのメソッドには明らかな改善がもたらされました。 切り取られたパッチのサイズは偶数ではなく奇数にする必要があります。これは、グリッド サンプリング中にグリッド座標が整数であることを保証し、クリッピング操作でグリッド トランスフォーマーをベースライン メソッドのクリッパーと同じにするためです。 写真 図 7 に示すように、整数グリッドが見つからない場合、STN は双線形補間を実行しますが、ベースライン クロッパーは 1 ピクセルのオフセットを実行するため、結果が不均等になることがわかります。 写真 HELENデータセットの場合、研究者はH ¼ W ¼ 81に設定し、CelebMaskAデータセットの場合、研究者はH ¼ W ¼ 127に設定しました。 HELEN データセットにおける 2 つのクロッピング方法の比較結果を図 8 に示します。 写真 適切なハイパーパラメータを選択した後、研究者らは本論文で提案された STN-iCNN のエンドツーエンドのトレーニングを完了し、そのテスト結果を HELEN データセットの最先端の方法と比較しました。 表3から、本論文で提案されたSTN-iCNNは、元のiCNNモデルのパフォーマンスを大幅に向上させることがわかります。 研究者のモデルは髪の毛を扱うことができず、髪の毛がモデルの全体的なスコアに与える影響を判断することは不可能であるため、Lin et al. (2019) の結果と比較していないことは言及する価値があります。 写真 表4は、F1スコアの観点からベースラインモデルと提案モデルの比較を示しています。 CelebAMask-HQ の結果は、提案された方法とエンドツーエンドのトレーニングの有効性を改めて実証し、研究者のモデルが一定の一般化能力を備えていることを示しています。 論文の詳しい内容は参考リンクからご覧いただけます。 |
<<: 5分間の技術講演 | GPT-4——マルチモーダル大規模モデルの新機能と利点
>>: オープンソースのラマ2の背後には、若い中国人たちの力がある
AI はあらゆるところに存在し、その可能性は計り知れません。しかし、諺にあるように、大いなる力には大...
高度な新しい AI アルゴリズムを使用して複雑な問題を解決し、高い給料を得られるというのは魅力的に思...
[[271752]]画像出典: Qilu.com一つの火、二本の涙。 7月18日午前10時半頃(現...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
人間は、画像内の物体を認識して推論することから、超人的なレベルで Atari ゲームや囲碁をプレイす...
キャピタル グループは、1931 年、大恐慌の真っ只中にカリフォルニア州ロサンゼルスで設立され、現在...
コンピュータービジョンをやってみたいですか?最近では、ディープラーニングが主流となっています。大規模...
言語は思考にどのように影響しますか?人間は言語からどのように意味を引き出すのでしょうか?これら 2 ...
今週、フランスのパリで国際コンピュータビジョン会議 (ICCV) が開幕しました。 ICCVはコンピ...