バーチャル試着室テクノロジーの仕組み

バーチャル試着室テクノロジーの仕組み

[51CTO.com クイック翻訳]テクノロジーの進歩と発展により、バーチャル試着室が人々の生活に入り込んでいます。したがって、衣服、靴、アクセサリー、時計、メガネ、帽子の仮想試着体験を提供するには、仮想試着室の仕組みを理解する必要があります。

消費者に実店舗でのショッピングのような体験を提供するために、仮想試着用の人工知能技術を開発するデータサイエンス開発者のMobiDevが仮想試着室を開発した。以下では、バーチャル試着室技術の動作原理について説明し、分析します。

バーチャルラボラトリーテクノロジーの仕組み

長年にわたり、「購入前に試す」戦略は、衣料品店にとって実績のある顧客エンゲージメント方法でした。現在、この戦略は仮想試着室の形をとることができます。調査機関フォーチュン・ビジネス・インサイトの予測によると、世界のバーチャル試着室市場は2027年までに100億米ドルに達すると予想されている。

仮想試着室技術の動作原理と技術的ロジックをより深く理解するために、MobiDev が最近開発した拡張現実 (AR) 靴​​試着室の開発プロジェクトを例に挙げます。バーチャル試着室の仕組みは次のとおりです。

  • 入力ビデオはフレームに分割され、ディープラーニング モデルで処理され、装着者の特定の脚と足のキーポイントの位置を推定します。
  • 検出されたキーポイントに基づいて履物の 3D モデルが配置されます。
  • 各フレームにリアルなテクスチャと照明が表示されるように 3D フットウェア モデルをレンダリングします。

MobiDev は、Apple デバイス向けの拡張現実フレームワークである ARKit を使用する際のレンダリングの制限を発見しました。公開されたビデオでわかるように、追跡精度が低すぎて靴の位置特定には使用できません。この制限の理由は、追跡精度を無視しながら推論速度を維持するためである可能性があり、これはリアルタイムで動作するアプリケーションにとって非常に重要となる可能性があります。

もうひとつの問題は、ARKit アルゴリズムが体の部位をうまく認識しないことです。アルゴリズムは着用者の全身を認識するように設計されているため、処理された画像に体の一部しか含まれていない場合は重要なポイントを検出できません。これはまさに靴試着室で直面する状況であり、アルゴリズムは靴を試着する人の足だけを処理する必要があります。

結論としては、仮想試着室アプリケーションには、標準の AR ライブラリに加えて追加の機能が必要になる可能性があるということです。したがって、フレーム内の片足または両足の重要なポイントのみを検出し、リアルタイムで動作するカスタムポーズ推定モデルの開発には、データ サイエンティストを関与させることをお勧めします。

バーチャルラボソリューション

仮想試着室技術は、アクセサリー、時計、メガネ、帽子、衣服などの製品を試着する機能を提供できます。これらのソリューションが舞台裏でどのように機能するかを見てみましょう。

(1)腕時計

仮想時計を試着する良い例としては、ユーザーがさまざまな時計を試着できる AR-Watches アプリがあります。このソリューションは ARTag テクノロジーをベースとしており、時計のストラップに印刷された特定のマークを使用します。このストラップを時計の代わりに手首に装着することで、仮想的に時計を試着できるようになります。コンピューター ビジョン アルゴリズムは、フレーム内に表示されるマーカーのみを処理し、それらに対するカメラの位置を識別します。その後、時計の 3D 画像を正しくレンダリングし、仮想カメラを同じ位置に配置する必要があります。

全体的に見て、この技術には限界があります。ただし、ビジネスユースケースに適合していれば、適切な 3D 画像を作成することは難しくありません。

(2)履物

Wanna Kicks アプリと SneakerKit アプリは、AR とディープラーニング テクノロジーをフットウェアに適用できる優れた例です。

技術的には、このソリューションはディープラーニングベースの足の姿勢推定モデルを利用します。この手法は、選択されたキーポイントの 3D 次元での位置を直接推定するか、検出された 2D キーポイントの位置を 3D 座標に外挿することによって推定する、全身 3D ポーズ推定モデルの特殊なケースで使用できます。

3D足姿勢推定

着用者の足の 3D キー ポイントの位置が検出されると、それを使用して足のパラメトリック 3D モデルを作成し、パラメトリック モデルの幾何学的特性に従って履物の 3D モデルを配置および拡大縮小できます。

検出された足のパラメトリックモデル上に履物の3Dモデルを配置する

全身/顔のポーズ推定モデルと比較すると、足のポーズ推定には依然としていくつかの課題があります。主な問題は、モデルのトレーニングに必要な 3D 注釈付きデータが不足していることです。

ただし、この問題を回避する最善の方法は、キーポイントを使用してリアルな 3D 足モデルをレンダリングし、そのデータを使用してモデルをトレーニングすることを前提とした合成データを使用すること、または、必要なラベルの数を減らすために複数の 2D ビューから 3D シーンを再構築することを前提とした写真測量を使用することです。

このソリューションは技術的に非常に複雑です。このソリューションを市場に投入するには、十分な大きさの足のキーポイントのデータセット(合成データ、写真測量法、またはその両方の組み合わせを使用)を収集し、カスタムのポーズ推定モデル(十分に高い精度と推論速度を兼ね備えたもの)をトレーニングし、さまざまな条件下でその堅牢性をテストし、足のモデルを作成する必要があります。技術的には、これは中程度の複雑さのプロジェクトです。

(3)メガネ

FittingBox と Ditto は、仮想メガネ試着に仮想現実 (AR) 技術を使用することを検討しています。ユーザーは仮想カタログからメガネを選択し、それを装着する必要があります。

[[403783]]

バーチャルメガネ試着とレンズシミュレーション

このソリューションは、顔のランドマーク検出のためのディープラーニングベースのポーズ推定アプローチに基づいており、一般的な注釈形式には 68 個の 2D/3D 顔ランドマークが含まれています。この注釈形式により、顔の輪郭、鼻、目、眉毛、唇を十分な精度で区別できます。顔のランドマーク推定モデルのトレーニングに使用されるデータは、すぐに使用できる顔のポーズ推定機能を提供する FaceAlignment などのオープンソース ライブラリから取得できます。

技術的な観点から見ると、このソリューションは、特に顔認識タスクの基礎として事前トレーニング済みのモデルを使用する場合は、複雑ではありません。しかし、低品質のカメラや照明条件の悪さが制限要因となる可能性があることを考慮することが重要です。

(4)医療用マスク

新型コロナウイルス感染症のパンデミックが続く中、ZapWorksは医療用マスクの正しい着用方法をユーザーに教えるために設計されたARベースの教育アプリをリリースした。技術的には、このアプリケーションも 3D 顔ランドマーク検出方法に基づいています。試着メガネアプリケーションと同様に、このアプローチにより、顔の特徴に関する情報を取得し、さらにマスクをレンダリングすることができます。

(5)帽子

顔のランドマーク検出モデルがうまく機能することを考えると、頻繁にシミュレートされるもう 1 つの AR アイテムは帽子です。頭にかぶった帽子を正しくレンダリングするために必要なのは、こめかみと額の中心の位置を示すいくつかの重要なポイントの 3D 座標だけです。 QUYTECH、Banuba、Vertebraeなどの企業はすでに、仮想帽子試着アプリケーションをリリースしている。

(6)衣類

靴、帽子、メガネ、時計などに比べると、3D の服を仮想的に試着するのは依然として困難です。その理由は、柔らかい質感のため、衣類が型崩れしてしまうからです。したがって、正しい AR 体験を実現するには、ディープラーニング モデルが人体の関節の基本的なキー ポイントを認識するだけでなく、3D の体の形状も認識する必要があります。

ディープラーニングモデルDensePoseを例にとると、人体のRGB画像のピクセルを人体画像の3D表面にマッピングすることを目的としています。研究では、このモデルはまだ拡張現実にはあまり適していないことがわかりました。 DensePose の推論速度はリアルタイム アプリケーションには適しておらず、人間のメッシュ検出は 3D 衣服アイテムのフィッティングに十分な精度がありません。結果を改善するには、より多くの注釈付きデータを収集する必要がありますが、これは時間とリソースを消費する作業です。

もう 1 つのアプローチは、2D の衣服アイテムと 2D のキャラクター シルエットを使用することです。 Zeekit はまさにそれを実現し、ユーザーが写真に複数の衣服タイプ (ドレス、パンツ、シャツなど) を適用できるようにします。

厳密に言えば、2D 衣服画像伝送の方法は、「現実」がリアルタイム操作を意味するため、拡張現実とは言えませんが、それでも非常に没入感のあるユーザー エクスペリエンスを提供できます。その背後にある技術には、生成的敵対ネットワーク、人間の姿勢推定、人体解析モデルなどがあります。 2D 衣服変換アルゴリズムは次のとおりです。

(1)画像内の体のさまざまな部分に対応する領域を特定します。

(2)特定された身体部位の位置を検出する。

(3)変形した衣服の歪んだ画像を生成する。

(4)ワープした画像を、アーティファクトが最も少ない人物画像に適用する。

2D布転写実験

仮想ロッカールーム用の既成の事前トレーニング済みモデルは存在しないため、この分野の研究には ACGPN モデルが使用されました。アイデアは、2D 布変換のさまざまな方法を活用して、このモデルの出力を実際に調査することです。

このモデルは、制約条件 (トレーニング データセット サンプル、VITON サンプル) および制約条件なし (任意の環境) の人物の画像に適用されます。さらに、カスタムの人物画像だけでなく、トレーニング データとはまったく異なるカスタムの衣服画像を使用してモデルを実行し、モデルの機能の限界をテストしました。

以下は調査中に得られた結果の例です。

(1)MobiDevの研究論文に記載されている結果を、元のデータと前処理されたモデルを使用して再現する。

成功した衣服の変更 (A1-A3) と失敗した衣服の変更 (B1-B3)。

結果:

  • B1 - 修復効果が悪い。
  • B2 – 衣服が重なり合う。
  • B3 - エッジ欠陥。

(2)デフォルトのキャラクター画像にカスタマイズされた衣装を適用する:

オーダーメイドの服で着替えましょう。

結果:

  • 行 A – 欠陥なし。
  • 行 B - 修正が必要な欠陥がいくつかあります。
  • ライン C - 重大な欠陥。

(3)カスタムキャラクター画像にデフォルトの服装を適用する

制約のない環境での画像上の衣服の置き換え出力。

  • 行 A - エッジ欠陥 (軽微)。
  • 行 B – エラーの隠蔽 (中程度)。
  • 行 C - エラーを修正してマスクします (重大)。

(4)カスタマイズされたキャラクター画像におけるカスタマイズされた衣服の応用:

制約のない環境とカスタム衣服画像で衣服を置き換えます。

結果:

  • 行 A – モデルから得られた最良の結果。
  • 行 B – 多くの欠陥を確認する必要がある。
  • 行 C – 最も歪んだ結果。

結論は

出力を分析すると、仮想フィッティングにはまだ一定の制限があることがわかりました。重要なのは、トレーニング データに、対象の布とその布を着用した人物のペア画像が含まれている必要があることです。現実のビジネスシナリオを考えると、それを完了するのは難しい場合があります。この研究のその他の重要なポイントは次のとおりです。

  • ACGPN モデルは、トレーニング データセットの人物画像に対してかなり良好な結果を出力しますが、カスタム衣料品プロジェクトに適用した場合も同様の結果が得られます。
  • 異なる照明、異なる環境条件、異常なポーズで撮影された人物の画像を処理する場合、モデルは不安定になります。
  • 仮想の2D衣服画像を自然界の人物画像に転写する仮想試着室システムの技術はまだ商用化されていない。しかし、条件が静的であれば、期待される結果ははるかに良くなります。
  • より優れたモデルの開発を妨げる主な制約は、屋外の状況で人々を捉える多様なデータセットが不足していることです。

全体として、現在の仮想試着室は、頭、顔、足、腕など、体のさまざまな部分に関連するプロジェクトに適しています。しかし、仮想試着室技術は、人体に適合するアイテムの完全な検出、推定、修正を必要とするため、まだ初期段階にあります。しかし、AR テクノロジーは飛躍的に発展しており、最善の戦略は適応して実験を続けることです。

原題: バーチャル試着室テクノロジーの仕組み、著者: Maksym Tatariants

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  「思考スタンプ」が実現!中国とアメリカの科学者33人の最新の成果:光を使って脳の認知を変える

>>:  すべての画像が16x16ワードの価値があるわけではない。清華大学とファーウェイは動的ViTを提案した

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ハイブリッドAIは企業がデータの価値を掘り出すための好ましい方法である

人工知能については、誰もがよくご存知だと思います。実際、人工知能には幅広い知識が含まれており、さまざ...

リカレントニューラルネットワークの分析を深く理解する

[[211637]]リカレント ニューラル ネットワーク (RNN) は、レイヤー内に重み付けされた...

ハッシュアルゴリズムを使用した ASP.NET データ暗号化

ハッシュ アルゴリズムを使用して ASP.NET データ暗号化を実装するプロセスは何ですか?私たちの...

世界で最も引用率の高い中国の AI ジャーナルではどのような研究が行われていますか?

[[410109]]人工知能(AI)研究に関しては、中国が現在最もホットな国です。清華大学人工知能...

チップ設計に特化したNVIDIAが、カスタマイズされた大規模言語モデルChipNeMoをリリース!

先日開幕した ICCAD 2023 カンファレンスで、NVIDIA チームは AI モデルを使用して...

...

...

...

AI は今後 10 年間で BAT のリセット ボタンとなるでしょうか?

中国の王朝には必ず一つの法則がある。一代か二代で王位は行き詰まりを迎える。漢の時代には呂后の乱、唐の...

...

...

...

Google は人工知能の分野で「堀」を持っていないのでしょうか?

少し前、匿名の人物が、Google 社内の研究者による研究メモを Discord プラットフォームに...

NetEase Cloud Music 推奨システムのコールド スタート技術

1. 問題の背景: コールドスタートモデリングの必要性と重要性コンテンツプラットフォームとして、QQ...

世界トップ13の産業用ロボット専門家

現在、ロボットはさまざまな業界で広く使用され、さまざまな作業に従事しています。これは、ロボットの開発...