Kmojiの魔法の表情を支えるAI技術

Kmojiの魔法の表情を支えるAI技術

2018年7月、Kuaishouはかわいい魔法の絵文字を発表し、iPhone XのAnimojiゲームプレイを初めてすべてのモデルに普及させました。 2018年12月、Kuaishouはさらに「かわいいKmoji」マジック表情を発表しました。この機能により、ユーザーはカメラを使用して自分専用の顔AR仮想イメージを生成することができます。同時に、ユーザーの表情を捉えることができ、まばたき、口を開ける、眉を上げる、舌を出すなどの微妙な動きを正確に再現できます。ショートビデオプラットフォームでユーザーがAR仮想画像をカスタマイズして撮影できるようになったのは今回が初めてです。

ユーザーがかわいいKmojiを使って作った手作りのGeng画像

「Kmoji」が生成する仮想画像表現は鮮やかでリアルであり、見た目や感触はAppleが推進するmemoji効果とほぼ同じです。しかし、「Kmoji」ではiPhoneX以降のAppleデバイスやシステムは必要なく、どのスマートフォンでもスムーズに使用できます。

一方、Appleデバイス上のMemojiの複雑な顔をつまむ手順と比較すると、「Kmoji」ははるかに簡単です。最新バージョンのKuaishouアプリの撮影ページを開き、魔法の表情「かわいい顔」で「専用のかわいい顔を作成」を選択して撮影すると、システムはワンクリックでユーザーの顔の特徴に基づいてユーザーに似たAR画像を自動的に生成します。

ユーザーは、自分の好みに応じて仮想画像の顔の特徴、肌、髪型、装飾などを自由に調整し、ユニークなAR画像を作成することもできます。「Kmoji」の顔つまみオプションは160を超える素材オプションを提供し、ユーザーにさらにパーソナライズされた選択肢を提供します。

「Kmoji」の背後には、Kuaishou 技術チームによる多くの研究開発作業があります。まず、「Kmoji」は顔のキーポイントや画像特徴抽出などのAI技術を基盤としており、iPhoneXなどのデバイスがサポートする3D構造化光情報を必要としません。2D視覚情報のみでユーザーの髪型、顔の形、顔の特徴、肌の色、口紅の色、ひげなどの顔の属性情報を認識し、ユーザー固有の3D AR画像を構築し、その3D画像を操作して表情パラメータを通じてさまざまな微妙な表情を作ります。例えば、笑う、目を閉じる、口を開ける、舌を出すなど、50以上の表情を作ります。これはマルチモーダル技術の成功した応用です。

さらに、「Kmoji Cute Face」は物理ベースのリアルなレンダリングアルゴリズムを採用しており、金属や革などのモデル素材をよりリアルで質感のあるものにし、モデルの表現力を大幅に向上させています。同時に、Kuaishou技術チームはアルゴリズムの最適化を通じて「Kmoji」の実行に占有されるCPUとGPUリソ​​ースを大幅に削減し、動作効率を向上させ、一般的な千元クラスの携帯電話でもスムーズに動作できるようになりました。

Kmojiの背後にある人工知能技術の詳細な説明

3D解析と2D情報の融合による顔属性と表情認識

パーソナライズされたかわいい顔システムの実装の基礎は、顔の属性と表情の認識であり、3D 分析と 2D 情報との融合が必要です。

画像情報については、Kuaishouの技術チームが3D再構築技術を使用して3D構造を復元し、2D情報と有機的に統合します。これらの再構築、分析、融合に基づいて、顔の属性を分析し、さまざまな次元から顔の特徴を分析し、パーソナライズされた仮想画像を生成します。同時に、生成された仮想画像を駆動するために、リアルタイムで表情分析が行われます。

これに加えて、快手技術チームは髪の毛や肩など人体の関連分析も行い、現実のシーンとの融合の基盤を築き、自社開発の携帯電話のリアルなレンダリングエンジンを通じて、アクティビティのパーソナライズされたかわいい顔をリアルタイムでユーザーに提示します。

3D顔再構成

3D 顔再構築はシステム全体の中で非常に重要な部分です。 Kuaishouの技術チームは、さまざまな年齢層、人種、顔の形など、また各個人に対応するさまざまな表情を含む数万の顔の3Dデータを収集し、ほぼすべての顔空間と表情空間をカバーする3D顔データベースを確立しました。このデータベースを通じて、あらゆる人間の顔のあらゆる表情をモデル化することができます。快手技術チームは、100以上のキーポイントを使用して顔の表情の変化を描写し、さまざまな表情を持つ各個人の顔を3次元的に再構築する顔キーポイント技術を開発しました。一方、効率的なニューラルネットワーク技術により、低性能の携帯電話でも 3D 顔再構築をリアルタイムで実行できます。

顔の属性の認識

顔の属性認識に関しては、Kuaishouの技術チームはニューラルネットワークを使用して、性別、年齢、肌の色、顔の形、目、口の情報など、きめ細かい顔の属性を認識します。類似製品と比較して、膨大な顔データとマルチタスク協調学習を活用して微妙な顔の特徴を捉えながら、自動顔カスタマイズを実現できます。細かい属性を区別するのは非常に難しく、人間の目でも区別が難しい問題もあります。このため、Kuaishouの技術チームは、分類/回帰/セグメンテーションなどの技術を統合して、自動顔ピンチの精度を向上させるために、多くの洗練された設計を行ってきました。

表情認識

表情は複雑かつ微妙な情報であり、人は表情に非常に敏感です。画像情報のみに頼って、微妙な/誇張された/柔軟な/安定した表情信号を機械が認識できるようにすることは困難です。

Kuaishou の技術チームは、2D RGB 視覚情報を使用してモデル化して問題を解決し、顔のキーポイントとリアルタイムで再構築された 3D モデルを取得し、顔の表情を解決し、仮想画像を駆動してさまざまなリアルなアクションを実行します。同時に、ディープニューラルネットワークモデルの量子化により、圧縮と加速を通じて携帯電話のパフォーマンス問題が解決され、そのソリューションはあらゆるモデルに適応できます。

高品質なレンダリング

かわいい顔効果の最終的な表現はレンダリングと切り離せないものです。高品質のレンダリングを得るために、Kuaishou技術チームは先進的なPp技術を採用し、モバイル端末でPCゲームレベルの画質を実現しました。同時に、AI技術の深い蓄積に依存して、かわいい顔は外部環境とユーザーの画像特性に応じてユーザーに最も適した素材をインテリジェントに選択し、最高のレンダリング効果を実現します。

よりリアルな体験を実現するために、Kuaishou 技術チームは物理エンジンを導入し、髪の毛や布などの柔らかい物体の動きの効果を実現しました。ユーザーに最高のエクスペリエンスを提供するために、レンダリング エンジンはさまざまなモデルに応じて適切なレンダリング品質を選択します。

モバイル予測モデルの最適化

AIモデルをモバイル端末でスムーズに実行できるようにするために、Kuaishou技術チームは3つの主要な最適化を行いました。

1 つ目は、画像前処理段階です。さまざまな画像前処理操作を統合し、前処理に関係する画像メモリを均一に割り当ててリサイクルすることで、メモリ リソースの消費を削減し、割り当てと使用の効率を向上させます。

同時に、NEON アクセラレーションと Apple の組み込みアクセラレーションをフル活用し、ランタイム ライブラリ全体が占めるスペースはわずか 2M です。

最後に、予測精度を確保しながら、AIモデルに対してローカルINT8量子化を行いました。最適化後、実行速度は1倍以上向上し、AI予測モデルが占めるスペースは元のサイズの4分の1近くに圧縮されました。

孟面が使用するシステムに基づいて、Kuaishou技術チームは仮想画像に加えて、ポートレート用の3D照明、世界にもう一人のあなた、

ポートレート 3D ライティング

ポートレート 3D ライティングは主にリアルタイム 3D 顔再構築技術を活用します。この技術では、顔のパラメトリック事前モデルを使用して、入力画像に基づいて顔のジオメトリ情報を自動的に一致させ、3D 顔モデル パラメータを取得し、3D 顔メッシュ モデルを取得します。異なるシーンに応じて異なる光源を設定し、リアルタイムレンダリング技術を使用して仮想顔をレンダリングして、顔の光と影のマップを取得できます。同時に、入力されたポートレートをセグメント化して前景セグメンテーションマスクを取得し、元の画像に基づいてその他のマスク情報も取得できます。これらのマスクは、シーンの要件に応じて特定の方法で元の画像に異なるレイヤーとして重ね合わされ、照明結果を取得します。

この世にもう一人のあなた

[[255810]]

「世界にもう一人のあなた」は、システム全体のもう一つのオフラインアプリケーションです。体験者は画面に歩いて行き、撮影ボタンをクリックします。3秒間のカウントダウンの後、左画面のカメラが参加者の顔画像を撮影し、右画面はビデオライブラリにあるKuaishouユーザーの数十億の公開ビデオを検索してマッチングします。マッチング結果は100ミリ秒以内に得られ、Kuaishou端末に似た外観のユーザービデオが表示され、再生されます。

コア技術:

  1. 数十億の公開顔データに基づいて、顔属性の分析と認識を実行し、顔の特徴を抽出してデータを構造化し、効率的なインデックスを確立し、コントラストの低い顔、ぼやけた顔、角度の大きい顔に対して特別な最適化を行います。
  2. フロントエンドで撮影した顔画像を検出し、顔分析モデルに基づいて顔の特徴を抽出し、背景インデックスで検索して、最も類似性の高い 3 つの顔画像を見つけます。
  3. 検索された 3 つの顔画像に対して、より詳細な属性分析を実行して、年齢、性別、表情などの対応する属性を取得し、その属性に基づいて検索結果を並べ替えます。
  4. 最後に、フロントエンドは最も類似度の高い顔を表示します。

他の一般的な画像検索プラットフォームと比較して、Kuaishou には次の利点があります。

  • 膨大な量のデータ
  • データの分布は比較的均等である
  • データの多様性: さまざまなシーン、姿勢、照明、表情などのデータが非常に豊富です

<<:  2019年人工知能サバイバルガイド

>>:  独自のロジックと優れた AI テクノロジーを備えた Kuaishou は、1 日あたり 1 億 6,000 万人のアクティブ ユーザーと 1 日あたり 1,500 万件を超えるアップロードを誇ります。

ブログ    
ブログ    

推薦する

TensorFlow で RNN 実装を開く正しい方法

[[198810]]この記事の主な内容は、TensorFlow で RNN のいくつかの構造を実装す...

顔を変える技術の悪用に対抗するため、Googleはディープフェイクと戦うための大規模なデータセットを公開

ディープフェイクの出現以来、多くの論争を引き起こし、多くの倫理的、社会的問題を引き起こしてきました。...

...

...

AI合成音声の潜在的な用途は何ですか?

AI Voice はディープラーニングを使用して、実際の人間の音声のピッチ、トーン、リズムをより正...

中国移動研究所のチャン・ヤオビン氏:主流の人工知能技術スタックの詳細な議論と実践的な概要

はじめに:近年の人工知能技術の急速な発展は、主にニューラルネットワーク、チップ、ビッグデータという ...

知能の本質:人間の知能と人工知能

なぜコンピューターは知能を発揮できるのでしょうか? コンピューターの知能と人間の知能の類似点、相違点...

...

DeepMindらが優秀論文賞を受賞、IBMスーパーコンピュータDeep Blueが古典に、IJCAI2023の賞が発表

国際人工知能合同会議(IJCAI)は、AI分野におけるトップクラスの学術会議の一つです。第1回会議は...

...

人工知能はどのようにして「IQ検出器」になったのでしょうか?

[[343329]]人工知能はどのようにして「IQ検出器」になったのでしょうか? 5G が 4G ...

...

人工知能が人間に取って代わることは決してない

午後は、かわいい子供たちを連れて映画「頭の大きい息子と頭の小さいお父さん 完璧なお父さん」を見に行き...

...

2022 年の AIOps トレンド予測

[[429163]]人工知能、機械学習、自動化などの先進技術の普及により、企業のビジネスシナリオは大...