AI はどのようにして人間の写真レタッチ技術を超えることができるのでしょうか? Meitu CloudのAI写真編集ソリューションを理解するための10,000語の記事

AI はどのようにして人間の写真レタッチ技術を超えることができるのでしょうか? Meitu CloudのAI写真編集ソリューションを理解するための10,000語の記事

最近、Meitu は新しい AI 写真編集ソリューションである Meitu Cloud Editing をリリースしました。この記事では、技術的な観点からこのソリューションを詳しく説明します。現在、ユーザーは Meitu AI Open Platform を通じてこれを体験することもできます。

商業写真のワークフローにおいて非常に重要な部分は「ポストプロダクションの写真編集」であり、膨大な作業量と長いサイクルを必要とします。同時に、「神のように書く」ことができる写真レタッチャーを育成するには、多くの場合、高い人件費と材料費がかかります。熟練した写真レタッチャーであっても、さまざまなスタジオの写真編集スタイルとテクニックに慣れて適応するには、1〜3か月かかります。さらに、写真レタッチ担当者の専門レベルの違い、美的嗜好の違い、仕事の質などにより、写真レタッチの品質にばらつきが生じます。

上記の問題点に対応するため、Meitu が過去 12 年間にポートレート イメージングの分野で蓄積してきた技術的優位性に基づき、Meitu の技術センターである Meitu Imaging Laboratory (MTlab) は、Meitu Cloud Repair AI 写真編集ソリューションを立ち上げました。写真編集プロセスでは、AI テクノロジーにより、複数のシーンの適応認識とパラメータ調整を実現し、完璧な光と影の効果を提示できるだけでなく、ポートレートをすばやく見つけ、ポートレートの欠陥を修復し、パーソナライズされたポートレート編集を実現できます。

図1. Meitu Cloudによるポートレートレタッチの比較

次に、この記事では、Meitu Cloud の AI 写真編集ソリューションの技術的な詳細を分析することに焦点を当てます。

インテリジェント ニュートラル グレー テクノロジー

ニュートラルグレーのレタッチは、写真編集でよく言及され、「覆い焼きと暗くする」操作とも呼ばれます。ブラシを使用して局所的な深度を変更します。PSでは、シミ、毛穴、ニキビ跡などの顔の傷をハイライト表示するには、手動で観察レイヤーを作成する必要があります。次に、観察レイヤーで傷の領域を1つずつ選択して、元の顔の対応する傷の領域を削除します。その後、肌の色の不均一さを滑らかにして、肌の質感を最大限に保持します。ただし、多くの場合、肌の色を均一にするために肌のリサーフェシング方法を使用する必要がありますが、肌のリサーフェシングでは肌の質感が失われます。各ポートレート画像の各肌領域に対してこのプロセスを繰り返すのは、時間がかかり、労力がかかります。従来の PS ニュートラルグレー レタッチ プロセスを図 2 に示します。

図2. PSニュートラルグレーレタッチレイヤー(左:オリジナル画像、中央:観察グループ、右:レイヤー)

Meitu Cloudのインテリジェントニュートラルグレーポートレートレタッチ機能は、セルフアテンションモジュールとマルチスケール特徴集約トレーニングニューラルネットワークを組み合わせて、極端な特徴の詳細を抽出します。インテリジェントニュートラルグレーレタッチソリューションにより、専門的な写真レタッチスキルを持たない人でも、ポートレートをすばやくレタッチできます。手動の写真レタッチ方法よりもはるかに高速で、熟練した手動の写真レタッチの自然で繊細な効果を維持します。さまざまな複雑なシーンで強力な堅牢性を備え、ポートレートの後処理の効率を大幅に向上させます。図 3 に示すように、これは手動操作を必要としないインテリジェントなニュートラル グレーの写真レタッチ効果です。図 4 に示すように、現在利用可能なさまざまなアプリの写真レタッチ効果と比較すると、シミ除去効果がより優れており、偽の肌滑らか効果なしで肌の質感が保たれます。

図3. Meitu Cloud AIニュートラルグレーレタッチ効果の比較

図 4. 競合他社によるそばかすとニキビの除去とマイクロダーマブレーションの効果 (左: そばかすとニキビの除去、右: マイクロダーマブレーション)

AIニュートラルグレー改良機能は革新的なディープラーニング構造を採用しています。図5に示すように、ネットワークエンコーダーからデコーダーへの接続部分にデュアルセルフアテンション特徴スクリーニングモジュールとマルチスケール特徴集約モジュールが追加され、ネットワークが豊富なマルチスケールコンテキスト特徴情報を学習し、重要な情報に重み付けすることで、画像の詳細を高解像度で保持しながら、問題のある肌をよりよく修復することができます。

図5. インテリジェントニュートラルグレーリファインメントネットワーク構造

デュアルセルフアテンション機能スクリーニングモジュール

デュアル自己注意特徴スクリーニングモジュール[1]は、特徴マップの空間マッピングとチャネルマッピングを学習します。これは、位置ベースの自己注意モジュールとチャネルベースの自己注意モジュールに分かれています。最後に、2つのモジュールの出力を統合して、図6に示すように、より良い特徴表現を取得します。

図6. デュアル自己注意モジュール構造

位置ベースの自己注意モジュールは、特徴マップ内の任意の 2 つのピクセルの空間依存性を学習するために使用されます。特定の肌質の特徴については、すべての位置の特徴によって重み付けされ、ネットワークがトレーニングされるにつれて重みが更新されます。肌の質感の特徴が似ている 2 つの場所は、互いに重み付けできるため、モジュールは学習を通じて肌の質感の詳細の変化の場所の特徴を除外できます。図6の左側の青い領域に示すように、特徴マップF∈R^(H×W×C)が入力されます。まず、チャネル次元に沿って特徴マップに対してグローバル平均プーリングとグローバル最大プーリングを実行し、2つのチャネルベースの記述を取得し、それらをマージして特徴マップF_Channel∈R^(H×W×2)を取得します。 7x7 畳み込み層とシグモイド活性化関数の後、空間重み係数 M_S ∈ R^(H×W) が得られます。これは次の式で表すことができます。

ここで、σ はシグモイド活性化関数、Conv_7x7 は 7x7 畳み込み、Cat[] はチャネルマージを表します。

最後に、空間重み係数 M_S を使用して特徴マップ F を再調整します。つまり、2 つを乗算して、空間重み付け後の新しい肌質特徴マップを取得します。

チャネルベースの自己注意モジュールは、どのようなチャネル機能が意味を持つかに主に焦点を当て、重み付けを通じてより意味のある機能マップ チャネルを強調表示します。高レベル特徴のチャネルは、肌の質感の詳細情報に特有の応答とみなすことができます。チャネル間の相互依存性を学習することで、相互依存的な特徴マッピングを強調し、特定のセマンティクスの特徴表現を充実させることができます。図6の右側の赤い領域に示すように、位置ベースの肌の詳細スクリーニングモジュールと同じ特徴マップF∈R^(H×W×C)が入力され、特徴マップが空間次元に沿って全体的に平均化されてプールされ、空間記述特徴マップF_Spatial∈R^(1×1×C)が得られ、次にF_Spatialが2つの1x1畳み込み層で表される多層パーセプトロンに入力されます。パラメータのオーバーヘッドを削減するために、パーセプトロンの隠れ層のアクティベーションのサイズは R^(C/r×1×1) に設定されます。ここで、r はチャネル削減率です。このようにして、最初の畳み込み層の出力チャネルは C/r、活性化関数は PReLU、2 番目の畳み込み層の出力チャネルは C に復元されます。

シグモイド活性化関数の後、チャネル重み係数M_C∈R^(C×1×1)が得られ、これは次の式で表されます。

ここで、σ はシグモイド活性化関数を表し、Conv_C ∈ R^(C×C/r) と Conv_(C/r) ∈ R^(C/r×C) はパーセプトロンに対応する 2 つの層を表し、PReLU はパーセプトロンの中央にある線形正規化ユニット活性化関数を表します。

同様に、チャネル重み係数 M_S と特徴マップ F を乗算すると、チャネル重み付け後の新しい特徴マップを取得できます。空間加重特徴マップとチャネル加重特徴マップがマージされ、1x1 畳み込みの後、特徴マップに追加されてから自己注意モジュールに入力され、最終的な修正された特徴マップが得られます。

マルチスケール特徴集約モジュール

マルチスケール特徴集約モジュール[2]の機能は、特徴受容野を動的に変更することです。異なるスケールの前層と次層の特徴マップがモジュールに入力され、これらの特徴は最終的に統合され、独自の重みが割り当てられることで集約され、複数のスケールからのコンテキスト情報を運ぶより豊富なグローバル特徴が出力されます。

図 7 に示すように、入力のスケールが異なる 3 つのモジュールを例にとると、モジュールは最初に 1x1 畳み込みと PReLU を使用して、上位層 L_1 と下位層 L_3 の特徴チャネルを現在の層 L_2 ∈ R^(H×W×C) と一致するように変換し、次に要素ごとの合計によって特徴を L_C=L_1+ L_2+ L_3 に集約し、空間次元でのグローバル平均プーリングを通じてチャネルベースの統計 S ∈ R^(1×1×C) を取得します。その後、計算量を削減するために、C/r の 1x1 畳み込みと PReLU 活性化関数を実行して、圧縮された特徴表現 Z∈ R^(1×1×r) を生成します。ここで、r は自己注意特徴スクリーニング モジュールと一致します。ここで、Zをスケールと同じ数の並列畳み込み層に通過させて、対応する特徴記述ベクトルv_1、v_2、v_3、v_i∈R^(1×1×C)を取得します。これらの特徴記述ベクトルは結合され、Softmax活性化関数に渡されて、各スケール特徴チャネル s_i ∈ R^(1×1×C) の補正係数 s_1、s_2、s_3 が得られます。特徴チャネル係数は、対応するスケールの特徴マップに掛けられ、集計されて加算され、次のように表される最終的な集計特徴 F_aggregation が得られます。

図7. マルチスケール特徴集約モジュールの構造

MTlabが提案するAIニュートラルグレーレタッチソリューションは、効果的なネットワーク構造とプロセスを設計し、特別なトレーニング方法を組み合わせることで、インテリジェントなニュートラルグレーポートレートレタッチを便利かつ正確に実行できます。まず、肌の滑らかさなどの従来の画像処理方法と比較して、このソリューションによって出力されるインテリジェントな写真レタッチ結果は繊細で自然であり、ポートレートの肌のディテールを最大限に保持でき、さまざまな複雑なシーンに対してより優れた堅牢性を備えています。次に、手動のニュートラルグレー写真レタッチと比較して、この方法は安定した写真レタッチ効果を確保しながら、処理時間を大幅に短縮し、スタジオ画像の後処理の効率を向上させることができます。

インテリジェントなカラーグレーディング技術

一般的な写真編集に含まれる色調整テクニックには、主にかすみ除去、照明調整、背景強調が含まれます。照明調整には露出オーバーの修復と露出不足の強調が含まれます。その中で、曇り除去は主に画像の鮮明さとコントラストを維持するために使用され、視覚的な観点から画像に明らかな曇りが生じないようにします。露出は主に画像の光と影の効果を改善し、光と影の画像品質を確保して、写真が完璧な光と影の効果を表現できるようにするために使用されます。インテリジェントホワイトバランスは画像の本来の色を復元し、最終画像が複雑な光源の影響を受けないようにします。カラーグレーディングには多くの技術が関わっています。ここでは、ホワイトバランスのインテリジェント調整技術を例に、AI技術によるカラーグレーディングのプロセスを詳しく紹介します。

現在、色かぶりを補正するために一般的に使用されているホワイトバランスアルゴリズムが使用されていますが、次のような問題があります。

従来のホワイトバランスアルゴリズムは色かぶりを補正できますが、堅牢性に欠け、実際のニーズにおける複雑なシーンには対応できません。調整にはさまざまなパラメータを設定する必要があり、操作が面倒です。

現在主流の色かぶり補正ソリューションのほとんどは、畳み込みニューラル ネットワークに基づいています。ただし、従来の畳み込みニューラル ネットワーク構造では、色かぶりを完全に補正することはできません。これらのソリューションでは、木の色など、低色温度の光源に似た色を、低色温度の光源と誤認する可能性があります。

ほとんどのデジタルカメラには、画像編集プロセス中にホワイトバランス設定を調整するオプションが用意されています。ただし、ホワイト バランス設定が選択され、画像が ISP によって最終的な sRGB エンコードに完全に処理されると、RAW 画像にアクセスせずに WB 編集を実行することは困難になります。ホワイト バランス設定が正しくない場合、問題はさらに困難になり、最終的な sRGB 画像に強い色かぶりが生じます。

Meitu Imaging Laboratory MTlab は、複数のシーンの複雑な光源に適応できるインテリジェントなカラーグレーディング技術のセットを独自に開発しました。従来のホワイトバランスアルゴリズムの中核は、リアルタイムの統計情報を通じて現在のシーンの光源を計算し、それをセンサーの事前情報と比較することです。この方法にはまだ多くの制限があります。 MTlab が提案するインテリジェント ホワイト バランス ソリューション (AWBGAN) は、大規模なシーンにおける色の偏りのない実際のデータを利用して、適応型光源推定と完全なエンドツーエンドのワンストップ カラー グレーディング サービスを実現します。 AWBGAN は次の 2 つの特性を満たします。

  • 包括性: 複数のシーンと複数の光源により、一般的なシーンをカバーし、多様な処理を実現します。
  • 堅牢性: シーンや光源の誤判定の問題がなく、色ずれ補正によって二次的な色ずれが発生することはありません。

現在主流のアルゴリズムは主に sRGB カラー領域での色かぶり補正に重点を置いていますが、これは合理的ではありません。カメラセンサーは元の RAW 画像を取得してから sRGB 画像を出力するため、露出補正、ホワイトバランス、ノイズ除去などの一連の線形および非線形マッピング プロセスを経ます。 ISP レンダリングは、シーンの照明から色かぶりを除去するために使用されるホワイト バランス プロセスから始まります。次に、ISP は一連の非線形カラー処理を実行して、最終的な sRGB 画像の視覚品質を向上させます。 ISP の非線形レンダリングのため、誤ったホワイト バランスでレンダリングされた sRGB 画像は簡単に修正できません。この目的のために、MTlab は色かぶり補正を完了するための AWBGAN トレーニング学習ネットワークを設計しました。

色かぶりのある画像を補正するには、まずトレーニング済みのシーン分類モデルを使用してシーンを判別し、補正係数を取得する必要があります。この補正係数は AWBGAN の補正結果に使用され、補正結果に基づいて動的に調整できます。高解像度画像に対して直接色かぶり補正を実行すると時間がかかります。計算効率を向上させるために、MTlab は補正操作を実行する前に、補正する色偏向画像を特定のスケールにサンプリングし、最後にピラミッド操作を使用して結果を元の画像サイズに戻します。完全なキャリブレーションプロセスを図 8 に示します。

図8. 色かぶり補正ソリューションの全体的なプロセス

生成ネットワークの設計

前述のように、sRGB 画像を直接処理すると、Raw 画像の処理に比べて良い結果が得られません。そのため、ジェネレーターは U-Net のようなネットワーク構造を使用して、sRGB から RAW への非線形マッピング プロセスをシミュレートし、その後 sRGB に戻します。エンコーダーは sRGB を逆に RAW 画像に復元し、RAW 画像の色かぶり補正を実行します。正しいホワイト バランス設定が完了すると、デコーダーは正しいホワイト バランス設定で sRGB 画像をデコードして生成します。 G ネットワーク全体の目的は、画像を元の sRGB 画像に戻すことではなく、RAW で正しいホワイト バランス設定を使用して色かぶりのない画像を生成することです。オリジナルの U-Net ネットワークを使用して直接生成された画像に色ムラが生じるという問題を考慮して、G ネットワークは U-Net と独自に開発したソリューションに基づいていくつかの調整を行いました。

エンコーダーとデコーダーの間に別のブランチが追加され、完全接続ネットワークの代わりに平均プーリングを使用して画像のグローバル特徴を抽出し、生成された画像内のカラーブロックと過度の色ムラの問題を解決します。

残差の代わりに範囲スケーリング レイヤーを使用します。つまり、要素を加算するのではなく、要素ごとに乗算します。範囲スケーリング レイヤー (残差の代わりに) を学習することは、知覚的な画像強化に非常に適しています。

生成された画像のチェッカーボード アーティファクトを減らすために、デコーダーの逆畳み込み層は、双線形アップサンプリング層と畳み込み層に置き換えられます。

生成されたネットワーク構造を図 9 に示し、グローバル特徴を抽出するためのネットワーク ブランチの具体的な構造を図 10 に示します。

図9. ネットワーク構造図の生成

図10. グローバル支店ネットワーク構造

識別器の設計

実際の結果に近い画像を得るために、ここでは敵対的損失を使用して、実際の光分布と出力される通常の光分布の間の距離を最小限に抑えます。ただし、画像レベルの識別器では、空間的に変化する画像を処理できないことがよくあります。たとえば、入力画像が複雑な屋内光源シーンで取得され、屋内光源の拡散反射の影響を受ける場合、各領域で異なる程度の補正が必要になります。この場合、グローバル画像識別器のみを使用しても、必要な適応機能を提供できないことがよくあります。

MTlabは局所領域の色かぶりを適応的に補正するために、EnlightenGAN [4]のDネットワークを使用しています。この構造では、真偽の識別に PatchGAN を使用します。識別器は、グローバルとローカルの 2 つのブランチで構成されています。グローバル ブランチは、補正された画像の真正性を判定し、ローカル ブランチは、識別のために入力画像から 5 つのパッチをランダムに切り取って、ローカルの色かぶり補正効果を向上させます。 D ネットワークの入力画像とターゲット画像は、RGB カラー ドメインから LAB カラー ドメインに変換されます。Lab は人間の色覚に基づいて設計されており、デバイスに依存しません。Lab を使用して判断すると、比較的安定した結果が得られます。グローバル-ローカル識別器ネットワーク構造を図 11 に示します。

図11. グローバル-ローカル判別器

損失関数の設計には、L1 損失、MS-SSIM 損失、VGG 損失、カラー損失、GAN 損失が含まれます。その中で、L1 損失は画像の色の明るさの真正性を保証します。MS-SSIM 損失は、生成された画像が詳細を失わず、構造情報を保持することを保証します。VGG 損失は、画像の知覚される類似性を制限します。色損失ガウスは、それぞれ強化ネットワークによって取得された画像とターゲットをぼかします。つまり、一部のエッジの詳細とテクスチャ部分を削除し、比較のために残されるのはコントラストと色だけです。GAN 損失は、画像がよりリアルであることを保証します。これら 5 つの損失の合計が AWBGAN の損失関数を構成します。

最終的な色かぶり補正ソリューションの補正効果を図 12 に示します。

図 12. Meitu Cloud のインテリジェント ホワイト バランスの結果。 (左:色温度6500K、中:色温度2850K、右:補正画像)

インテリジェント除去技術

写真のレタッチの過程で、写真レタッチ担当者は、しわ、くま、涙溝などの肌本来の欠点を除去します。しわ検出は、AI を活用したポストプロダクションのポートレート レタッチにとって重要な実用的意義を持っています。一方では、肌の老化を分析し、しわの領域と重症度を明らかにし、肌年齢を評価する基礎として役立ちます。他方では、画像内の顔のしわの自動除去に、より便利な体験をもたらすことができます。つまり、レタッチのポストプロダクション プロセスで、ユーザーはアルゴリズムを使用して、しわの領域を自動かつ迅速に特定できるため、複雑な手動の液化およびブレンド プロセスに別れを告げることができます。

1. しわ認識

科学研究の分野では、主に以下のシワ検出アルゴリズムが一般的に使用されています。

  • 一般的なエッジ検出に基づく方法:一般的な Canny 演算子、Laplace 演算子、DoG 演算子など。ただし、これらの演算子によって検出されるエッジは、実際にはしわの窪みではなく、画像内のグレースケール値に一定の差がある 2 つの平坦な領域の境界です。したがって、一定の幅のしわを検出するのには適していません。
  • テクスチャ抽出に基づく方法:[5]のハイブリッドヘッセ行列フィルタ(HHF)や[6]のヘッセ行列トラッキング(HLT)などの方法があり、これらは画像ヘッセ行列の固有値に基づくフィルタリングに基づいており、画像内の線形構造の抽出に使用できます。また、[7]のガボールフィルタバンクなどの方法もあり、ガボールフィルタリングを使用して線形テクスチャを抽出します。これらの方法では、フィルターを手動で設計する必要があり、追加のパラメータ調整コストが発生し、通常は額の線状のしわと目のしわしか検出できません。溝のあるほうれい線との互換性が低く、検出結果は他の肌の質感や肌以外の物体の影響を受けやすくなります。
  • 3Dスキャンに基づく方法:例えば、文献[8]で提案されている解析方法では、3D点群の深度情報を使用して2D画像にマッピングします。しかし、この方法は追加の取得機器に依存しており、アルゴリズムの普遍性が弱いです。

顔のしわを自動で除去したいという要望に応え、従来のしわ検出アルゴリズムの限界を打ち破るために、Meitu Imaging Laboratory MTlab は顔全体(首を含む)のしわ検出技術を独自に開発しました。この技術は、あらゆる年齢層を網羅した実際の顔のしわデータを基に、ディープラーニングの強力な表現能力と高い互換性の利点を活用し、額のしわ、関節周囲のしわ、ほうれい線、首のしわのエンドツーエンドの正確なセグメンテーションを実現し、自動しわ除去アルゴリズムの重要なリンクになります。

額のしわ、関節周囲のしわ、ほうれい線、首のしわの4種類のしわのクラス内パターン類似性は高いものの、クラス間のパターン類似性は低いため、MTlabはコンポーネント化の考え方を採用し、顔全体のしわ検出タスクを4つの独立したサブタスクに分解して、上記4種類のしわをそれぞれ検出します。 MTlab の顔意味キーポイント検出技術は、4 種類のしわの顔領域を見つけるのに重要な役割を果たします。この技術は、さまざまな撮影シーンや顔の姿勢において、額、目の周り、頬、首の周りを正確に分割できるため、しわ検出タスクに安定した信頼性の高い入力ソースを提供します。 MTlab は、眼周囲領域と頬領域の左右対称性も活用して、ネットワーク入力サイズをさらに削減するとともに、ネットワークがパターンを学習しやすくします。

図13. しわ検出ネットワーク構造図

U-Net のようなネットワーク構造は、画像特徴のエンコードと高レベルおよび低レベルの意味情報の融合において本質的な利点を持っているため、多くのセグメンテーション タスクで好まれています。しわの検出は本質的にセグメンテーションタスクであるため、MTlab は U-Net に基づいてネットワークも設計し、次の調整を行いました。

  • エンコーダーは、浅いレイヤーで高解像度の特徴マップを保持し、それをデコーダーの同じスケールの特徴マップと融合します。これにより、デコーダーが画像内のしわの位置を特定しやすくなり、幅の狭いしわの検出率が向上します。
  • デコーダーのデコンボリューション層を、バイリニア アップサンプリング層と畳み込み層に置き換えます。これにより、セグメンテーション結果のグリッド エッジ効果を回避し、ネットワーク出力をシワの元の形状とより一貫したものにします。
  • しわ検出の損失は、実際の監督の役割を果たす必要があります。このため、全体的な損失は、バイナリ クロス エントロピー損失と SSIM 損失の 2 つの部分で構成されます。バイナリ クロス エントロピー損失は、セグメンテーション タスクでよく使用される損失であり、主にネットワークが前景ピクセルと背景ピクセルを区別するのに役立ちます。SSIM 損失は、ネットワークのセグメンテーション結果と GT 間の構造的類似性に重点を置いており、ネットワークがより正確なしわの形態を学習するのに役立ちます。

2. 自動シワ除去

しわの除去は主に画像補完に基づいて行われます。しわの部分は画像内の修復対象領域とみなされ、対応するピクセルが画像補完技術の助けを借りて補充されます。現在、画像補完技術には、従来の方法とディープラーニングの2つのカテゴリがあります。

  • 従来の画像補完技術とは異なり、このタイプの方法はデータのトレーニングを必要とせず、パッチベース[9、11]とピクセルベース[2]の2種類の補完方法が含まれます。これら 2 つの方法の基本的な考え方は、特定のルールに従って画像内の損傷した領域を徐々に埋めていくことです。この方法は高速ですが、修復する領域を手動で区切る必要があります。小規模な画像修復に適しています。損傷領域が広範囲に及ぶ場合、ぼやけや不自然な塗りつぶしが発生する可能性があります。
  • ディープラーニングに基づくインペインティング技術[12,13,14,15]では、トレーニングのために大量の画像データの収集が必要となる。基本的な考え方は、完全な画像上の長方形(または不規則な形状)を通じて損傷領域をシミュレートし、ディープラーニング モデルをトレーニングすることです。既存の方法の欠点は、使用されるデータセットと想定される損傷領域が実際の適用と大きく異なることです。適用プロセスでは、シワが修復されなかったり、テクスチャが不明瞭になったり、充填が不自然になったりする可能性があります。

写真スタジオのユーザーからのインテリジェントな写真レタッチに対する切実な要望を考慮して、Meitu Imaging Laboratory MTlab は複雑なシーンに適応できるシワ除去ソリューションを独自に開発しました。 MTlab が提案するインテリジェントなシワ除去ソリューションは、膨大なシーンからの実際のデータを活用します。Inpainting のディープラーニング ネットワークを使用して、シワの線を識別してシワを除去し、エンドツーエンドのワンクリック シワ除去を実現し、次の 2 つの効果をもたらします。

  • 一貫性: 塗りつぶされた部分の質感は連続しており、周囲の肌と自然に溶け込みます。
  • 堅牢性:外部環境の影響を受けにくく、安定した効果を発揮します。

この問題のために MTlab が収集した膨大なデータセットは、日常生活のシーンのほとんどのシーン光源をカバーし、最大限の推進力でモデルトレーニングを強化し、モデルのパフォーマンスを確保し、上記の問題をより適切に解決し、アプリケーションシナリオに正常に実装することができます。

MTlabは、既存のソリューションの欠点に対応して、シワの特性に基づいたシワ除去モデル(WrinkleNet)を設計しました。元の画像とシワマスクを同時に除去モデルに送信することで、除去を迅速に完了でき、上級の手動レタッチの自然で繊細な効果が維持されます。さまざまな複雑なシーンで強力な堅牢性を備えており、顔のシワに効果的であるだけでなく、他の皮膚領域(首など)のシワ除去にも使用できます。コアプロセスを図14に示します。

図14. しわ除去のコアプロセス

データセットの作成:

前述のように、データセットはディープラーニングモデルの最終的な効果に大きく影響します。現在、主流の画像補完モデルは主にオープンソースのデータセットを使用し、長方形または不規則なグラフィックを使用して画像内の補完する領域をシミュレートします。しわ除去の目的でこれを行うのは不合理です。一方、肌の部分は、画像の他の部分よりも色や質感が異なります。一方、しわは主に弧状の細い線で、既存の塗りつぶしパターン(長方形、不規則な形状)とは異なります。これも、既存のモデル効果が理想的ではない理由の 1 つです。そのため、データセットを準備する際に、MTlab は大量のデータを収集してそのしわに注釈を付けるだけでなく、しわの質感に近い線形グラフィックスを使用して、埋める領域をシミュレートしました。

ネットワーク設計を生成します。

生成されたネットワークはUnetをベースに設計されています。オリジナルのU-Netネットワークを直接使用して生成された画像は、不自然なテクスチャのつながりや不明瞭なテクスチャなどの問題が発生するため、その構造にいくつかの調整が加えられています。 1) デコードされた出力は 4 つのチャネルで、そのうちの 1 つはテクスチャ回帰であり、完成した画像のテクスチャを予測するために使用されます。2) マルチ特徴融合アテンション モジュール (略して FFA) 構造が Unet の連結ブランチに追加されます。FFA の構造を図 15 に示します。この構造は、図 16 に示すように、マルチレイヤー特徴融合アテンション モジュールを通じて、詳細なテクスチャに対するモデルの注意を向上させることを目的としています。

図15. ネットワーク構造図の生成

図16. マルチ特徴融合アテンションモジュール

損失設計:

損失関数の設計には、L1 損失、L2 損失、VGG 損失、GAN 損失などがあります。その中で、L1 損失は出力画像と実際の画像間のピクセル距離を測定します。L2 損失は出力テクスチャと実際のテクスチャの差を測定するために使用されます。VGG 損失は画像の知覚される類似性を制限します。GAN 損失は PatchGAN 構造を使用して、画像がよりリアルであることを保証します。これら 4 つの損失の合計が WrinklNet の損失関数を構成します。

顔と首の最終的なしわ除去効果は、それぞれ図 17 と図 18 に示されています。

図17. Meitu Cloud Repairのシワ除去効果

図18. Meitu Cloudの首のしわ除去効果

インテリジェントな修復技術

実生活では、出っ歯、歯の欠損、歯の隙間、歯の変形などの問題により、ユーザーは写真を撮るときに笑ったり歯を見せたりするなどの過度な表情をすることを恐れ、撮影効果に一定の影響を与えます。 Meitu Cloud Repairは、MTlabが独自に開発したディープラーニング技術に基づくネットワークアーキテクチャに基づいており、新しい歯の修復アルゴリズムを提案しています。ユーザーのさまざまなタイプの見苦しい歯を修復し、すっきりとした美しい歯を生成することができます。修復効果は図19に示されています。

図19. Meitu Cloudを使用した歯の修復効果

MTAI歯修復ソリューション:

製品レベルで歯の修復アルゴリズムを真に実装するには、次の2つの側面を保証する必要があります。

  • 真正性:生成された歯は美しくてきれいであるだけでなく、3次元性と光沢があり、より自然に見えるようにしなければなりません。
  • 堅牢性には、ほとんどの一般的な表現(笑顔など)で歯を修復して美化するだけでなく、アルゴリズムが特定の誇張された表現(笑い、歯のむき出しなど)に適応できるようにする必要があります。

MTLABによって提案されたMtaiteEthの歯の修復アルゴリズムは、上記の2つの問題を効果的に解決し、その技術を実際の製品に適用することを主導しました。

図20。Aiteeth歯回修復ソリューションフローチャート

図に示されているプロセスには、主に次のものが含まれます。Gネットワ​​ークモジュールとトレーニング損失モジュールは次のとおりです。

  • MTLABによって独立して開発された顔のキーポイント検出アルゴリズムは、顔のポイントを検出し、顔のポイントに基づいて口が開いているかどうかを判断するために使用されます。
  • 口が開いていると判断された場合、口の領域はトリミングされ、水平まで回転し、リップマスク、歯の領域マスク、口領域全体のマスク(唇と歯を含む)が表面点に基づいて計算されます。
  • マウスエリアのマスクによれば、ネットワーク入力画像①と唇のマスクによると、それぞれ対応する領域の平均を計算して、両方の入力画像が3つのチャネルを持っています。
  • Gネットワ​​ークには、トレーニング中にGネットワ​​ークの最初のブランチ(ネットワーク入力画像)がデータセットからランダムに選択され、GANの出力結果、L1の損失、およびL2の損失をコントロールすることに基づいて、ネットワークの出力結果を得ることができます。
  • 実際には、トリミングされた口の領域の画像がステップ3で前処理され、トレーニングされたGネットワ​​ークに入力して、ネットワーク出力結果画像を取得し、結果画像がよりリアルで自然になるようにし、元のサイズの元の画像に逆になっています。

Ganネットワークの構築:

ネットワーク構造全体、および知覚喪失、L1損失、L2損失、およびスキームのGANの損失について、スキームはペーパーEdgeConnect [16]のネットワーク構造を指し、独自のスキームと組み合わせて調整します。ネットワーク入力グラフのみをトレーニングします標準を満たす歯を生成するためにネットワークを導く:

  • 最初のブランチには6チャネル入力があります。これは図①と図②の連結であり、間隔(-1、1)に正規化されています。
  • 2番目のブランチには、入力イメージが3チャンネルの入力があります。

Gネットワ​​ークは、本質的に自動エンコーダー構造です。デコードパーツは、紙のアーティファクトを減らし、トレーニングプロセスを安定させるために、総合的なレイヤーの均一なレイバーの層の採用層の均一な層の採用層である双方向の畳み込み層の組み合わせを採用しています。

判別ネットワークパーツ:判別ネットワークは、Multi_scale Disrivinatorを使用して、異なる解像度で真の画像と虚偽の画像を区別します。このスキームでは、3つのスケールの判別器を使用して、256x256、128x128、および64x64の3つのスケールで画像を識別します。さまざまな解像度の画像を取得するには、プーリングを通じて直接ダウンサンプリングできます。

損失関数の設計には、L1損失、L2損失、知覚喪失、GAN損失が含まれます。その中で、L1の損失は、発生した画像の詳細をより現実的にします。上記の問題を大幅に軽減し、上記の損失の合計がmtaiteETHスキームの損失関数を構成する認識システム。

結論

写真スタジオでの写真は、上記の特別な写真レタッチ機能に加えて、顔の検出、顔の特徴のセグメンテーション、肌のセグメンテーション、ポートレートセグメンテーション、およびインスタンスセグメンテーションの潜在能力を補給することができます。手動写真のレタッチ時間と写真のレタッチコスト。インテリジェントな色の調整、インテリジェントなニュートラルグレー、インテリジェントな除去、インテリジェントな修復などのAIテクノロジーのサポートにより、写真編集の品質が向上し、手動写真編集に存在する問題が解決します。 AIは、顔の傷、くすみ、黒ずみなどを自動的に配置し、肌の色合いを達成し、細部の明確さを強化します。美しく調和のとれた効果を達成します。

アルゴリズムの研究における長年の技術的蓄積により、コンピュータービジョン、ディープラーニング、拡張現実、クラウドコンピューティングなどの分野におけるエンジニアリング開発と製品の実装により、MTLABのMEITUクラウド修理AI写真編集ソリューションは、イメージング業界へのより多くの活力を注入し、コストの低品質で効率的な郵便装飾編集サービスを提供することができます。

<<:  2021年には、神経科学AIにいくつかの大きなトレンドがあります

>>:  機械学習の謎を解く: プログラムはどのようにして自分自身を作成するのか?

ブログ    

推薦する

自動運転、論文採点のための人工知能…インテリジェントテクノロジーにはどのような破壊的可能性が秘められているのでしょうか?

[[216050]]教育が人工知能の発展と時代の変化に追いつかなければ、15年後には大学の半数が苦...

自然言語処理のためのオープンソースツール12選

[[316046]]独自の NLP アプリケーションで使用できる 12 個のツールを見てみましょう。...

...

開発ボードはこのように使えますか?アメリカの学者は、義肢のサポートと各指の制御に Jetson Nano を使用しています

近年、ディープラーニングベースのニューラルデコーダーは、神経補綴物の器用かつ直感的な制御を実現するた...

2か月でAIをゼロから学んだ方法とは?

編集者注: 人工知能は「電気」のようなものになりつつあり、その将来の発展に関心を持つ人は誰でもそれに...

機械学習翻訳の限界を説明する

機械学習による翻訳は人間のコミュニケーションに非常に有益ですが、限界もあります。機械学習は、企業に文...

安定性、効率性、俊敏性:適応型AIの利点

人工知能にはさまざまなものがあります。コンピューターを使って知的なことを行うこともあれば、コンピュー...

本当に知っておくべき 10 の AI テクノロジートレンド

人工知能技術のトレンドは人類を前進させています。デジタル変革はあらゆる業界に広がり、人工知能は科学者...

Microsoft の 37 ページの論文では、Sora をリバース エンジニアリングしています。どのような結論に達したのでしょうか。

現段階では、Sora に追いつくことが多くのテクノロジー企業の新たな目標となっている。研究者たちが興...

MIT、Wikipedia の更新、間違いの修正、偽ニュースの特定を行う AI 編集システムを開始

[[334141]]誰でも編集できるオンライン百科事典である Wikipedia では、各エントリを...

専門家は「人工知能+教育」は慎重に扱うべきだと考えている

[[278770]]地図:李暁軍● 学校での顔認識の導入は、データセキュリティと個人のプライバシーの...

企業は人工知能の可能性に目がくらんでいるのでしょうか?

多くの企業が AI イニシアチブの導入に意欲的に取り組んでいる一方で、AI が自社のビジネスにどのよ...

人工知能と機械学習の違いを本当に理解していますか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

フェイフェイ・リーのチームの新しい研究:脳制御ロボットが家事を行い、脳コンピューターインターフェースに少ないサンプルで学習する能力を与える

将来的には、考えただけでロボットに家事を任せることができるようになるかもしれません。スタンフォード大...