陳一然教授の論文が2024 IEEE優秀論文賞を受賞しました！ STN-iCNN: エンドツーエンドの顔解析フレームワーク

陳一然教授の論文が賞を受賞しました！

この顔認識/分析に関する論文は、2024 IEEE CIS TETCI 優秀論文賞を受賞しました。

陳一然教授は微博で「実は4年前に発表した論文が2024年度優秀論文賞を受賞した」と述べた。

写真

論文タイトル: 相互接続された畳み込みニューラルネットワークによるエンドツーエンドの顔解析

写真

顔解析は、顔のさらなる分析、修正、およびその他のアプリケーションの基礎を提供するために、顔の部分 (目、鼻、口など) の正確なピクセル分割を必要とする重要なコンピュータービジョンタスクです。

相互接続畳み込みニューラルネットワーク (iCNN) は、顔解析に効果的なモデルであることが示されています。しかし、元の iCNN は 2 段階で個別にトレーニングされていたため、パフォーマンスが制限されていました。

この問題に対処するために、本稿では、2 つの独立したステージの間に空間トランスフォーマーネットワーク (STN) を追加することで iCNN を拡張する、シンプルなエンドツーエンドの顔解析フレームワークである STN 支援 iCNN (STN-iCNN) を紹介します。

STN-iCNN は STN を活用して、元の 2 段階の iCNN パイプラインへのトレーニング可能な接続を提供し、エンドツーエンドの共同トレーニングを可能にします。

また、副産物として、STN は元のカッターよりも精密にカットされた部品を提供することができます。

これら 2 つの利点のおかげで、研究者のアプローチにより元のモデルの精度が大幅に向上しました。研究者のモデルは、標準的な顔解析データセットであるHelenデータセットで競争力のあるパフォーマンスを達成しました。

また、CelebAMask-HQ データセットでも優れたパフォーマンスを達成し、優れた一般化能力を実証しています。

STN-iCNN

次の 2 つの図は、STN-iCNN と従来のベースラインメソッドを比較したものです。

図 a では、ベースラインメソッドが 2 つのステップに分かれていることがわかります。

最初のステップは顔の部分を検出して切り取ることです。2 番目のステップは切り取った部分に個別にラベルを付けることです。このプロセスで使用されるクロッピング方法は区別できないため、2 つの段階を共同でトレーニングすることはできません。

冒頭で述べたように、これによりシステムのパフォーマンスが制限されます。

研究者らが提案した方法は、ベースライン方法の 2 つのステップの間に空間トランスフォーマーネットワーク (STN) を追加することでこの問題を解決します。 STN は、元のクロッパーを微分可能な空間変換器に置き換え、モデルをエンドツーエンドでトレーニングできるようにします。

写真

図 b の STN-iCNN 方式では、入力画像ごとにまず画像サイズが調整され、iCNN モデルに渡されて、粗いセグメンテーションが実行されます。

次に、粗くセグメント化されたバージョンが STN に送信され、そのローカリゼーションネットワークがトランスフォーマーパラメーターマトリックス θ を予測します。次に、θ をパラメータとして、グリッドトランスフォーマーは元の画像の対応する部分を切り取ります。

最後に、逆グリッドトランスフォーマーはすべての部分予測を最終的な全体予測に再マッピングします。

写真

下の図はiCNNの構造の概略図です。

図3はSTNモジュール内の測位ネットワーク構造を示しています。

この 9 層ネットワークは、VGG16 の簡略化されたバージョンです。各畳み込み層 (白) には、畳み込み、バッチ正規化、および ReLU 非線形活性化が含まれます。

2 つの畳み込み層ごとに、平均プーリング (赤) が適用されます。

最後に、ReLU アクティベーションを備えた完全接続層が適用されます (青)。

写真

研究者たちは、システム全体のトレーニングプロセスを事前トレーニングとエンドツーエンドのトレーニングに分けました。

まず、より良い結果を得るために、システムを事前にトレーニングしました。このうち、2 つのモジュールを事前にトレーニングする必要があります。1 つは粗いセグメンテーション用の iCNN K で、もう 1 つは部分的なローカリゼーション用のローカリゼーションネットワーク L です。

下の図に示すように、K の入力は調整された画像 I0 であり、出力は大まかな予測値 z です。

写真

最適化のターゲットは、zと調整されたラベルJ'間のクロスエントロピー損失LRです。

表1に詳細なハイパーパラメータを示します。

研究者らは、提案されたモデルを事前トレーニングとエンドツーエンドのトレーニングの 2 段階でトレーニングしました。このうち、前の段階で取得された事前トレーニング済みパラメータは、エンドツーエンドのトレーニングの前にロードされます。

HELEN データセットの場合、トレーニングと推論は単一の NVIDIA GTX1080Ti GPU で実行されますが、CelebMaskA データセットの場合、これらの操作は GPU あたりバッチサイズ 16 の 4 つの NVIDIA GTX1080Ti GPU で実行されます。

提案されたモデルは効率が良い。推論効率の点では、ベースラインモデルは顔あたり 86 ミリ秒で実行されますが、提案モデルは顔あたり 80 ミリ秒で実行されます。

HELEN のトレーニング効率の場合、事前トレーニング段階には 0.5 時間、エンドツーエンド段階には 2.2 時間かかります。CelebMaskA のトレーニング効率の場合、事前トレーニング段階とエンドツーエンド段階にはそれぞれ 1.6 時間と 10.2 時間かかります。

CelebMaskA でのハイブリッドトレーニング戦略: HELEN でのトレーニングと CelebMaskAD での微調整 CelebMaskA には大量のデータがあるため、直接トレーニングを行うにはより多くのコンピューティングリソースとより長いトレーニング時間が必要になります。

実際に研究者らは、Helen データセットですでにトレーニングされたモデルを CelebMaskA の 2,000 枚の画像を使用して微調整すると、同様のパフォーマンスが得られることを発見しました。

この方法では、単一の GPU で 2.1 時間しかかからないため、トレーニング時間が大幅に節約されます。これは研究者のモデルの一般化可能性を実証しています。

写真

研究者らは、以前の研究者らの結果を基準として、それを再実装された iCNN と HELEN データセット上で提案された STN-iCNN の結果と比較しました。

比較結果を表 2 に示します。ここで、STNiCNN* はエンドツーエンドのトレーニング前の STN-iCNN の結果を表します。

エンドツーエンドのトレーニング前でも、モデルの結果が大幅に改善されていることがわかります。

これは、STN のローカリゼーションネットワークに深い CNN レイヤーがあり、粗いマスクから意味部分のコンテキスト関係を学習できるためです。粗いマスクが不完全な場合でも、正確な変換行列を予測できます。

したがって、STN はオリジナルのクロッパーよりも正確にトリミングできるため、全体的なパフォーマンスが向上します。

写真

図 5 に示すように、研究者は HELEN データセットで 2 つの異なるクロッピング方法の比較実験を実施しました。実験では、研究者らはいくつかの画像を選択し、その顔の部分（左眉、右目、口など）を背景情報にランダムに重ね合わせました。次に研究者は画像を粗い注釈モデルに送信し、不完全な粗いセグメンテーション結果を取得しました (図 5 の 2 行目を参照)。大まかな結果に基づいて、研究者はベースライン法と STN 法を使用して切り取られていない画像を切り取り、切り取り結果を比較しました。実験結果は図5の最後の2行に示されています。結果は、ラフマスクが部分的に欠落している場合でも、STN メソッドが適切に機能することを示しています。

写真

モデル K のベースライン入力サイズは 64×64 ですが、目や眉毛の小さな特徴を考慮して、研究者のモデルでは入力サイズを 128×128 に変更しています。

この変更はベースラインメソッドに限られた影響しか与えませんでしたが、図 6 に示すように、私たちのメソッドには明らかな改善がもたらされました。

切り取られたパッチのサイズは偶数ではなく奇数にする必要があります。これは、グリッドサンプリング中にグリッド座標が整数であることを保証し、クリッピング操作でグリッドトランスフォーマーをベースラインメソッドのクリッパーと同じにするためです。

写真

図 7 に示すように、整数グリッドが見つからない場合、STN は双線形補間を実行しますが、ベースラインクロッパーは 1 ピクセルのオフセットを実行するため、結果が不均等になることがわかります。

写真

HELENデータセットの場合、研究者はH ¼ W ¼ 81に設定し、CelebMaskAデータセットの場合、研究者はH ¼ W ¼ 127に設定しました。 HELEN データセットにおける 2 つのクロッピング方法の比較結果を図 8 に示します。

写真

適切なハイパーパラメータを選択した後、研究者らは本論文で提案された STN-iCNN のエンドツーエンドのトレーニングを完了し、そのテスト結果を HELEN データセットの最先端の方法と比較しました。

表3から、本論文で提案されたSTN-iCNNは、元のiCNNモデルのパフォーマンスを大幅に向上させることがわかります。

研究者のモデルは髪の毛を扱うことができず、髪の毛がモデルの全体的なスコアに与える影響を判断することは不可能であるため、Lin et al. (2019) の結果と比較していないことは言及する価値があります。

写真

表4は、F1スコアの観点からベースラインモデルと提案モデルの比較を示しています。

CelebAMask-HQ の結果は、提案された方法とエンドツーエンドのトレーニングの有効性を改めて実証し、研究者のモデルが一定の一般化能力を備えていることを示しています。

論文の詳しい内容は参考リンクからご覧いただけます。

<<: 5分間の技術講演 | GPT-4——マルチモーダル大規模モデルの新機能と利点

>>: オープンソースのラマ2の背後には、若い中国人たちの力がある

TigerGraphは、伝染病の予防と制御を完全にサポートするために、エンタープライズレベルのバージョンのライセンスを無償で公開します。

陳一然教授の論文が2024 IEEE優秀論文賞を受賞しました！ STN-iCNN: エンドツーエンドの顔解析フレームワーク

STN-iCNN

TigerGraphは、伝染病の予防と制御を完全にサポートするために、エンタープライズレベルのバージョンのライセンスを無償で公開します。

人工知能について知っておくべきことすべて

PyTorch モデルのトレーニングを高速化するための 9 つのヒント!

自然言語処理シーケンスモデル - CRF 条件付きランダムフィールド

宇宙探査における人工知能の驚くべき7つの応用

ヤン・ルカンは、テンセントのポートレート写真生成が自由にできることを明かした。

Googleの華博士がICCV2021で新モデルを発表、卵を泡立てるだけでパンケーキを作りたいかどうかがわかる

推薦する

ハイブリッドクラウド環境でディープラーニングを取り入れたID認証はより柔軟

GitHub トッププロジェクト: 30 万語の図解アルゴリズム問題辞書、超実用的なリソース、6,000 個のスター

GPT-4により、ロボットはペンを回したりクルミを転がしたりすることを学習した。

新型コロナウイルスに対して、最高のAI定量モデルでさえあまり信頼できない

人工知能を搭載したロボットは私たちの生活からどれくらい離れているのでしょうか?

世界の顔認識技術応用地域分布マップ

人工知能のように製品にユーザーを理解させるにはどうすればよいでしょうか?これらの方法をまとめてみました！

Pythonの機械学習ツールとライブラリはカテゴリ別に整理されているので、ツールを探すのに悩む必要はありません。

自動運転の未来 - 4Dミリ波レーダー

ロビン・リーは、最後の自慢を達成した後、今日の百度世界大会でさらに 3 つの目標を設定しました。

ガートナー：金融業界はAIがもたらす変化を追求

人工知能と機械学習、クラウドコンピューティング、5Gは2022年に最も重要なテクノロジーになる

正規化を放棄することで、ディープラーニングモデルの精度は前例のないレベルに到達しました