心が開かれました！ Adobeなどの研究者が「自撮り」を「他人が撮った写真」に変え、感動的な魔法の写真編集効果を実現

自撮り写真を他人が撮った写真に変えることもできます。魔法の写真編集の世界に新しいトリックが登場し、その効果は本当に感動的です。

スマートフォンの登場により、写真撮影は人気の芸術となり、「自撮り」に夢中になる人が増えています。しかし、自撮り写真では、肩の姿勢が不自然だったり、腕がフレームの半分以下しか占めていなかったり、視点が極端に変だったりするなど、構図に問題が生じることがよくあります。

この問題を解決するには、三脚や自撮り棒を持ち歩くか、友人を写真家として連れて行くという方法があります (この方法は、単独の犬には非常に不親切です)。

あるいは、写真編集の技術を信頼することもできます。最近、 Adobe Research、カリフォルニア大学バークレー校、ルーヴェン大学の研究者らが、「自撮り」を「他人が撮った写真」に変える新技術を開発した。対象の姿勢を認識し、体のテクスチャを生成することで、与えられた自撮りの背景の中に人物を完璧に合成できる。

この論文で研究者らは、自分撮り写真の人物を、腕や肩、胴体がリラックスした「他人が撮影した画像」に変換できる「Unselfie」と呼ばれる画像変換手法を提案した。上げられた腕が下を向くように調整し、次に衣服の詳細を調整し、最後に露出した背景領域を塗りつぶします。

論文リンク: https://arxiv.org/pdf/2007.15068.pdf

この技術は、ソーシャルメディア用の自撮り写真の修正に使用されるだけでなく、さまざまな用途があります。緊急に身分証明書用の写真が必要で、誰も代わりに撮ってくれない場合、この技術が役立ちます。

もちろん、この方法はまだ成熟していません。一般的な効果に加えて、次のような画像を生成するなど、時々失敗することがあります。

「自画像」を「他人が撮った写真」に変換する際の3つの大きな課題

一般的に、「自画像」を「他人が撮影した写真」に変換するには、3 つの大きな課題があります。

ペアになったトレーニングデータ（自画像と撮影画像のペア）はありません。

1 つの自撮りポーズが複数の他のポーズに対応する場合があります。

ポーズを変更すると背景に穴が残るので、変換プロセス中にその穴を埋めます。

研究者たちはこれまでいくつかの方法を用いてこの課題に取り組もうとしてきましたが、実験結果によると、これらの方法では明らかなアーティファクトが生成され、外観情報の圧縮率が高いためにテクスチャの詳細が失われることがわかりました。

そこで彼らは、 「自分撮り-他人が撮影した」画像ペアを合成し、自己教師学習を行う手法を用いて上記の問題を解決することを提案した。

具体的には、研究者らは、他人が撮影した画像を使用して対応する自撮り画像を合成する方法を提案しました。彼らは、ノンパラメトリックな最も近いポーズ検索モジュールを使用して、他人が撮影した特定の画像に最も近い自撮り画像を検索し、対応する自撮り画像を合成しました。また、推論中に最も近いポーズ検索モジュールも適用しました。自撮りポーズ入力が与えられると、モデルは最も一致する自撮りポーズを取得し、このポーズを使用して最終的な自撮り効果を合成します。ユーザーが選択できる合成出力が複数あるため、上記の課題 2 が解決されます。

上記の手順を使用して合成されたペアデータは、教師ありポートレート生成ネットワークのトレーニングに直接使用できますが、実験結果では明らかなアーティファクトの問題がまだ解決されていないことが示されています。従来の方法は、合成ペアトレーニングデータと実際の自撮りテストデータ間のピクセルレベルのドメインギャップに非常に敏感です (下の図 3 を参照)。

CVPR 2019 論文「ポーズ誘導画像生成のための座標ベースのテクスチャ修復」にヒントを得て、研究者らは座標ベースの修復手法を使用して UV 空間で体のテクスチャを修復しました。この修復手法では、元の体のポーズの大部分は変更されず、合成データの不完全性に対してより堅牢になります。さらに、座標ベースの修復方法では、可視ピクセルを再利用できるため、より鮮明な結果が得られます。

課題 3 に対処するために、研究者は合成ネットワークに基づくゲート畳み込み層を使用して、人体と背景の間のスムーズな移行を維持しながら、人体の外観を洗練し、背景のギャップを埋めました。

一般的に、「アンセルフィー」タスクを解決するために、研究者は下の図に示すように3 段階のパイプラインを提案しました。

まず、データベースで他の俳優がとった最も近いポーズを検索し、次に座標ベースのボディテクスチャインペインティングを実行し、最後に合成モジュールを使用して結果を精製し、背景に合成します。

実験結果

研究者らは、定性的評価、ユーザー研究、定量的評価の観点から、提案された方法を以前の同様の方法と比較しました。

下の図 7 は、Unselfie 方式が、以前の DPIG 方式や PATN 方式と比較して、よりリアルな人間のポーズと背景を生成することを示しています。

研究者らは、Amazon Mechanical Turk (AMT) でこの方法と DPIG、VUNET、PATN 方法についてユーザー調査を実施しました。結果は、この方法が他の方法よりも優れていることを示しています (下の表 1 を参照)。

自撮り写真に対応するグラウンドトゥルースがないため、SSIM などのメトリックは使用できません。そこで、この方法による画像化結果を他のベンチマーク方法と定量的に比較するために、研究者らは FID と KID という 2 つの指標を使用しました。結果は、定量的な比較における FID と KID の結果がユーザー調査と一致しており、この方法が他の方法よりも大幅に優れていることを示しています。

方法の限界

ただし、この方法には、以下の点で依然として限界があります。

まず、図 10 (左) に示すように、難しい自撮りポーズや角度の場合、最も近いポーズ検索モジュールが一致する自撮りポーズを見つけるのが困難な場合があり、その結果、合成画像の腕や肩が頭部に比べて細すぎたり広すぎたりすることがあります。

この問題はトップ 1 の結果の 10% 未満で発生し、ユーザーは通常、トップ 5 の結果から互換性のある適切なポーズを見つけることができます。

図10: 失敗例。

さらに、図 10 の例では、バックグラウンド合成の限界も明らかになっています。しかし、この問題に対応するために、研究者らは、図 11 に示すように、既存のモデルを使用して画像の背景を修復する例も示し、大規模なデータセットでトレーニングされた画像復元モデルの利点を実証しました。

図11: 背景の復元。

最後に、システムは DensePose 検出でエラーが発生しやすくなります。上の図 10 (右) に示すように、DensePose は彼女の腕が前に出ていることを検出しません。したがって、合成モジュールは結果に彼女の腕を保持し続けます。

<<: 清華大学が転移学習アルゴリズムライブラリをオープンソース化：PyTorch実装に基づき、既存のアルゴリズムの簡単な呼び出しをサポート

>>: 機械学習は音楽界を征服するのに役立ち、あなたは次のヴィンセント・ファングになるでしょう

心が開かれました！ Adobeなどの研究者が「自撮り」を「他人が撮った写真」に変え、感動的な魔法の写真編集効果を実現

人工知能を活用して会社のウェブサイトをより良く作成する方法

PaddlePaddle 中国ツアー - スマート製造業を支援するゼロ閾値 AI 革新的アプリケーション

新しい展開のアイデア | Minuet: GPU での 3D スパース畳み込みの高速化

Capital One は NLP を使用して SMS 経由で顧客と潜在的な詐欺行為について話し合う

AI分野におけるNVIDIA NeMoフレームワークの包括的な応用と利点の概要

Transformerが3Dモデリングに革命を起こし、MeshGPT生成結果がプロのモデラーやネットユーザーに衝撃を与える：革命的なアイデア

人工知能によるサイバーセキュリティ防御の強化

2つのセッション「チップ」提案：自動車用チップに焦点を当て、サプライチェーンを開放し、「ボトルネック」を突破する

推薦する

オックスフォード大学とケンブリッジ大学は「顔面を叩き」、ChatGPTの使用を許可し、段階的にチュートリアルも教えた。

将来人工知能に置き換えられる可能性が最も低い10の仕事

Google は、高性能モデル Gemini Pro の Android アプリケーションへの統合を簡素化する Google AI SDK をリリースしました。

人工知能はテストで人間のパイロットを「圧倒」します。人間のパイロットはどうすれば人工知能に勝つことができるのでしょうか?

AIを活用して、ナスダックは金融業界向けのSaaSプロバイダーに変革したいと考えている

機械学習では、いくつかの分類アルゴリズムが一般的に使用されています。適切なアルゴリズムを選択するにはどうすればよいでしょうか?

PHP 再帰アルゴリズムとアプリケーションの紹介

ディープラーニングプラットフォームとして、TPU、GPU、CPU のどれが優れているでしょうか?誰かがベンチマーク調査を行った

Point Transformer V3: よりシンプルに、より速く、より強力に!

UiPath が前進中!企業が包括的な自動化を実現する可能性を探るのを支援する

人工知能はそんなに怖くない！ AIとビッグデータは世界の3つの大きな問題を解決し、人類に利益をもたらすことができる

DGX-2 および SXM3 カードが GTC 2018 で発表されました

GPT-4+物理エンジンは拡散モデルをサポートし、現実的で一貫性のある合理的なビデオを生成します。

Tan Mingzhou: テクノロジーイノベーター - あまり知られていない道│LeaTech Global CTO Leadership Summit レビュー

MITが世界の画期的な技術トップ10をランク付け、アリババはそのうち4つを研究中