人工知能が両親の写真から子供の顔を合成し、ディープラーニングが親族関係を生成する

人工知能が両親の写真から子供の顔を合成し、ディープラーニングが親族関係を生成する

人工知能が両親の写真から子供の顔を合成、親族関係生成のためのディープラーニング 概要: この論文では、両親の写真を分析することで子供の顔を合成できる親族関係生成ネットワークを提案します。 この目的のために、私たちは本論文全体を通じて、新しい解決策を提案することで、親族関係データセットの不足の問題に対処することに焦点を当てています。 信頼性の高い特徴を抽出するために、事前にトレーニングされた顔モデルを親族関係顔ジェネレーターに統合します。 さらに、ジェネレーター ネットワークは、追加の顔データセットと敵対的損失を使用して正規化され、限られたサンプルへの過剰適合が削減されます。 ***、より安定した結果を得るために、期間ドメイン変換を調整します。 実験は Families in the Wild (FIW) データセットで実施されます。 実験結果は、文献で提示された貢献がベースライン アーキテクチャと比較して大幅なパフォーマンスの向上をもたらし、提案されたアプローチが有望な知覚結果を生み出すことを示しています。

人工知能は両親の写真から子供の顔を合成し、ディープラーニングは親族関係を生成します。 はじめに:人間の脳は顔のパーツの差別化パターンを分析することで、写真の親族関係を検証できます。この特徴は、脳がいかに驚くほど複雑であるかを示す強​​力な証拠です。最近では、ディープラーニングベースのモデルが顔からこれらの潜在パターンを自動的に抽出する優れた能力を示しているため、コンピュータ支援による親族関係検証を実装するための多数のアプローチが提案されています[22、18、8]。特に、これらの手法はさまざまな認識問題において人間レベルのパフォーマンスを上回っています[17, 22]。最終的には、モデルの出力は、行方不明者の身元確認、子供/親の捜索、紹介サービスの統計の追跡に使用できます。しかし、両親の写真を分析して子供の顔を推測することは、逆に、元の問題(識別と検証)として動機付けられていない、より直感的な問題の見方です。私たちの知る限りでは、生成深層モデルに基づいて大規模なデータセットから顔を合成する有望なアプローチがいくつかあるにもかかわらず、この問題に対処することへの関心は限られている[10]。

親の写真から子供の顔を合成する人工知能、親族関係生成のためのディープラーニングの貢献: 一般に、この問題 (つまり、親族関係の顔を合成する) の目標は、親 (母親または父親) の写真の入力に対して、親に提示された潜在的な特徴を活用して、子供の最も可能性の高い顔を合成することです。ただし、モデルの堅牢性、特にディープ モデルの場合、モデルの堅牢性はトレーニング サンプルの数とデータセットの多様性に大きく依存します。さらに、現在利用可能な血縁関係の検証データセットはかなり小さいため、満足のいく結果を得るには、この制限に応じてモデルを調整する必要があります。本稿では、エンコーダー層の応答を利用して潜在空間内の親の顔を変換し、これらの応答を反復的にデコードして可能性のある相対的な顔を再構築する完全畳み込みネットワーク (FCN) を提案します。

この目的のために、親族顔合成の標準 FCN に 3 つの新しい貢献を提案します。1) 大規模なデータセットでの顔認識に最適化された、事前トレーニング済みのエンコーダー層ネットワークを使用します。最終的には、顔合成のファセット数が限られている顔シミュレーションでも、より堅牢な潜在的特徴を抽出できるようになります。 2) エンコード層を使用すると、人物認識の精度などいくつかの利点が得られますが、隠された特徴の次元が大きいため、デコード層はトレーニング データに簡単に過剰適合する可能性があります。最終的に、さまざまな顔のシナリオに対して単一のソリューションを一般化することは、問題をさらに複雑にします。したがって、大規模な教師なしデータに対する敵対的損失を利用して、過剰適合を軽減し、一般化能力を向上させます。 3) ***では、より安定した結果をもたらすサイクルドメイン変換[27](すなわち、親から子、子から親への変換)を採用している。この論文は次のように構成されている。まず、顔の合成と親族関係の検証に関する文献を確認します。これらの手順は、私たちの問題の 2 つの主要な基礎です。その後、親族合成のために提案された方法の詳細が提示されました。 ***、実験結果を報告し、この論文の***コメントを説明します。

人工知能が両親の写真から子供の顔を合成、ディープラーニングによる親族関係生成関連作業: このセクションでは、効果的な親族関係合成の 2 つの重要な要素である顔合成と親族関係の検証について詳しく説明します。顔合成:顔合成に関する初期の研究は、当初は低解像度の画像から顔の幻覚を推測し、その高周波の詳細を推測することを目的としていた[2,19]。これらの作品では、目、山、対称性など、人間の顔に共通する特徴が特に強調されています。しかし、その主な制限は、ソリューションが厳密にデータに依存している(つまり、一般化機能がない)ことと、自然な画像多様体学習(つまり、記憶)が、すべての可能なソリューションを平均化することによって画像パッチを低解像度から高解像度に変換する場合にのみ存続できることです。同様に、オートエンコーダ (AE) ベースの方法も、ソリューションに関して同様の欠点を抱えています。 [10]は、AEに基づいて顔のダイナミクス(表情)と視覚的な外観を促進することで親族顔を生成し、将来の子供たちに個人的な表情を伝えることを目指しています。

変分オートエンコーダ(VAE)[16]は、エンコーダ層の入力に基づいてランダムな潜在変数を計算することで画像を合成する確率的アプローチです。したがって、これによりモデルの一般化が実際に改善され、顔だけでなくさまざまな画像合成の問題に対してさまざまな結果が得られます。しかし、それでも問題の複雑さには達していません (つまり、固定サイズのパラメータ、つまり平均値と分散値で問題を過小評価しています)。 ***、過度に平滑化された結果が得られます。

最近、生成的敵対的ネットワーク(GAN)[12、23、3]は知覚的に印象的な画像生成結果を生み出しました。特に、顔の合成は、さまざまなポーズ、表情、性別、肌の色、髪のタイプを組み合わせることで、不適切な方法で実現できます。さらに、ユーザーは簡単なソリューションを通じて画像を異なるドメインに変換することができます[14, 5]。 GANがVAE/AEよりも優れている理由については[9]で説明されており、GANは問題に対して優れた解を保持しているのに対し、VAE/AEは問題を粗く近似している。

親族関係の検証:親族関係の検証/識別は、最初は手作業で作成された明るい肌の特徴に基づいて、顔写真[24,25]から肌の色や高次勾配パターンを融合することによって実行されます。さらに、単一の画像の代わりにビデオの使用を検討し[6]、著者らは時空間的な外観と暗黙の表情を使用して顔を検証することが可能であると主張している。最近、深層モデルはこれらの問題に対して最先端のパフォーマンスを達成しました[26、18、8、21]。一般的に、彼らのソリューションは、利用可能な顔モデルからトレーニング可能なパラメータを転送し、サンプルの不足のために親族関係データで微調整することに基づいています。 ***特徴空間は顔認識問題と同様にトリプレット損失で学習されることが多い[22]。

人工知能が両親の写真から子供の顔を合成、親族関係生成のためのディープラーニング。結論: この論文では、親族サンプルが不足している場合でも有望な結果を生み出すことができる親族関係顔生成ネットワークを提案しました。 本論文では、3 つの主な貢献を紹介します。 まず、堅牢な顔の特徴を抽出するために、ネットワーク内で事前トレーニング済みの深層顔モデルを利用します。 その後、ネットワークの一般化能力を向上させ、過剰適合を防ぐために敵対的スキームが使用されました。 ***、親間の翻訳の一貫性を保つために、ループドメイン変換法が使用されました。 実験結果は、提案された方法が有望な知覚結果を達成することを示しています。

<<:  人工知能でIT運用を改革する方法

>>:  神州太悦:インテリジェントセマンティック産業プラットフォームが正式に開始、無料かつオープンなセマンティック基本サービス

ブログ    
ブログ    

推薦する

面接でよく聞かれるアルゴリズムに関する18の質問

アルゴリズムは比較的複雑かつ基本的な科目です。プログラミングを学ぶ人は誰でも、多数のアルゴリズムを学...

...

...

ワシントンポスト紙の李開復氏のコラム:お金を与えることでAI失業危機は解決するのか?シリコンバレーの大物は世間知らずすぎる

AI革命が到来し、それは最良の時代になるかもしれないし、最悪の時代になるかもしれない。それが良いこと...

GPT時代の学習アルゴリズム、線形モデルを実装するPytorchフレームワーク

今日は線形回帰モデルの実装を続けます。ただし、今回はすべての関数を自分で実装するのではなく、Pyto...

バイトマルチモーダル大規模モデル PixelLM: SA に頼らない効率的なピクセルレベル推論

マルチモーダルな大規模モデルが爆発的に増加していますが、画像編集、自動運転、ロボット工学などのきめ細...

Apache IoTDB: 産業用 IoT シナリオに適した新しいデータベース。保存、クエリ、使用はもはや問題ではありません。

インダストリー4.0の時代に入り、デジタル化と自動化の導入により生産環境はより効率的になりました。同...

0 コーパスで「ラベル付け」してより良い多言語翻訳結果を得る方法

[[409976]]今日の多言語翻訳モデルのほとんどは、英語中心のデータセットで統合モデルをトレーニ...

...

...

ChatGPTのトラフィックが減少しており、学生が夏休みに入っているためだと推測する人もいる

7月16日、OpenAIが開発した人工知能チャットボット「ChatGPT」は、ユーザーと自然言語で会...

...

Google の最新 AI モデル「Gemini」について知っておくべきことすべて

Google Geminiとは何ですか? Gemini は、テキストだけでなく画像、ビデオ、オーディ...

2021 年に IT 自動化と AI はどこに向かうのでしょうか?

IT自動化と人工知能技術の進歩と発展により、IT担当者の働き方は大きく変化しました。今年に入って新...

...