電車に乗るときに顔をスキャンして駅に入場できるようになったと聞きました！最新の顔関連のゲームプレイは、絵文字があなたが言ったように動作するというものです

[[205964]]

建国記念日の祝日は終わったが、仕事のために帰省するラッシュは続いている。ちょうど昨日、WeChat Moments でビデオが話題になりました。

動画では、北京、広州、上海、成都、武漢の鉄道駅が次々とセルフサービスの「顔スキャン」入場口を開設している。

乗客からは「メイクやコンタクトレンズまで認識できるなんてすごい！」と歓声が上がった。

実は、顔のスキャンは目新しいものではありません。今日はもっと興味深いことについてお話ししましょう。それは、あなたが話すときに、AI が表情を与えてくれるというものです。あなたを本当の仮想人物にしましょう。

この記事は少し退屈で、専門用語が多く含まれているため、一般の人には理解しにくいかもしれません。技術オタクの皆さん、頑張れ!

SIGGRAPH 2017 には、3D アニメキャラクターの表情に関する研究に関する NVIDIA の論文「ポーズと感情のエンドツーエンドの共同学習によるオーディオ駆動型顔アニメーション」が掲載されました。この論文で、NVIDIA は、オーディオ入力を通じて 3D の表情をリアルタイムかつ低遅延で駆動する機械学習テクノロジを実演し、仮想キャラクターの表情とオーディオ入力の完璧な連携を実現しました。

図 1. 音声から顔のアニメーションを推測するためのディープニューラルネットワーク。

まずはこの写真から始めましょう。以下の「私たち」という言葉は、論文の著者の一人称代名詞を指します。

ネットワークへの入力が約 0.5 秒の長さのオーディオである場合、出力はオーディオウィンドウの中心に対応する固定トポロジメッシュの 3D 頂点位置になります。ネットワークには感情状態を記述する二次入力もあります。ニューラルネットワークは、事前のラベル付けなしにトレーニングデータから直接感情状態を学習します。

低遅延のリアルタイムオーディオ入力を介して 3D 顔アニメーションを駆動する機械学習アルゴリズムを提案します。当社のディープニューラルネットワークは、入力されたオーディオ波形から顔モデルの 3D 頂点座標へのマッピングを学習できると同時に、オーディオだけでは説明できない顔の表情の変化を区別するために使用できる簡潔な隠しコードも見つけることができます。介入すると、隠されたコードは顔のアニメーションの感情状態を直感的に制御する役割を果たします。

従来のビジョンベースのパフォーマンスキャプチャ方法を使用してキャプチャされた 3 ～ 5 分の高品質アニメーションデータを使用してニューラルネットワークをトレーニングしました。私たちの主な目標は、一人の演者の話し方をモデル化することです。ユーザー研究では、異なる性別、アクセント、または異なる言語を話す話者の音声でモデルを駆動したときにも有望な結果が得られています。これらの結果は、ゲーム内の会話、低コストのローカリゼーション、仮想現実アバター、テレプレゼンスなどに応用できる可能性があります。

CCS の概念: • 計算方法論 → アニメーション、ニューラルネットワーク、回帰ベースの教師あり学習、隠れた表現の学習、その他のキーワード: 顔のアニメーション、ディープラーニング、オーディオ

エンドツーエンドのネットワークアーキテクチャ

以下では、ネットワークのアーキテクチャと、オーディオ処理の詳細、および音声コンテンツからの感情状態の分離について説明します。

小さなオーディオウィンドウを入力として与えられた場合、ニューラルネットワークのタスクは、オーディオウィンドウの中央にある顔の表情を推測することです。顔の固定トポロジーメッシュ内のニュートラルポーズの頂点ごとの差分ベクトルとして、表情を直接表現します。ネットワークがトレーニングされると、オーディオトラック上でウィンドウをスライドさせてメッシュをアニメーション化し、各タイムステップでネットワークを個別に評価します。ネットワーク自体にはアニメーションの以前のフレームの記憶はありませんが、実際には一時的に安定した構造を生成することができます。

アーキテクチャの概要

私たちのディープニューラルネットワークは、1 つの特殊目的レイヤー、10 個の畳み込みレイヤー、および 2 つの完全接続レイヤーで構成されています。図 1 と表 1 に示すように、これを 3 つの概念単位に分割します。

まず、オーディオウィンドウをフォルマント分析ネットワークに入力して、発音を制御するために使用する時間変化する音声特徴のシーケンスを生成します。ニューラルネットワークは、まず固定関数の自己相関分析を使用してオーディオから元の共鳴ピーク情報を抽出し (原文のセクション 3.2 を参照)、次に 5 つの畳み込み層を使用してこの情報を最適化します。トレーニングを通じて、畳み込み層はイントネーション、強勢、特定の音素など、顔のアニメーションに役立つ短期的な特徴を抽出することを学習できます。 5 番目の畳み込み層の出力は、そのような特徴が時間の経過とともにどのように変化するかを抽象的に表現したものです。

次に、その結果を発音ニューラルネットワークに入力します。ネットワークは、特徴の時間的変化を共有し、最終的にオーディオウィンドウの中央の顔のポーズを記述する抽象的な特徴ベクトルを決定する 5 つの畳み込み層で構成されています。

（学習された）感情状態の説明は、発音ニューラルネットワークへの二次入力として接続され、さまざまな表情や話し方を区別します（元のテキストのセクション 3.3 を参照）。感情状態を E 次元ベクトルとして表現し、それを発音ニューラルネットワークの各層の出力に直接連結することで、後続の層がそれに応じて動作を変更できるようにします。

各 l 番目のレイヤーは Fl×Wl×Hl 活性化関数を出力します。ここで、Fl は抽象特徴マップの数、Wl は時間軸の次元、Hl は共鳴ピークサイクルの次元です。共鳴ピーク解析ネットワークでは、1×3ストライド畳み込みを使用して、Hlを徐々に減らし、Flを徐々に増やします。つまり、Hl = 1、Fl = 256になるまで、元の共鳴ピーク情報を抽象的な特徴の方へシフトします。同様に、発音ニューラルネットワークでは、3×1 畳み込みを使用して Wl を削減します。つまり、異なる時間領域 (時間的近傍) からの情報を組み合わせることで時間軸をサブサンプリングします。

表 1 にリストされている特定のパラメータを選択したのは、これらのパラメータがデータセットを使用してトレーニングする際に一貫して良好なパフォーマンスを発揮し、適切な数のトレーニングエポックも確保できることがわかったためです。結果はレイヤー数や特徴マップの数にそれほど左右されませんが、過剰適合を避けるために 2 つの異なる段階で畳み込みを調整する必要があることがわかりました。重要なのは、フォルマント分析ネットワークはどの時点でも同じ操作を実行するため、異なる時間オフセットで同じトレーニング例を使用できることです。

発音ニューラルネットワークは、対象の顔のポーズを総合的に表す 256+E 個の抽象的な特徴のシリーズを出力します。これらの特徴を出力ネットワークに入力して、トラッキングメッシュ内の 5022 個の制御頂点の最終的な 3D 位置を生成します。出力ネットワークは、データに対して単純な線形変換を実行する、完全に接続したレイヤーのペアです。最初のレイヤーは入力特徴セットを線形基底関数の重みにマッピングし、2 番目のレイヤーは対応する基底ベクトルの加重合計を計算し、それを使用して最終的な頂点の位置を表します。 2 番目のレイヤーを 150 個の事前計算済み PCA モジュールにプリセットします。これにより、トレーニングデータの変動の 99.9% が総合的に説明されます。理論的には、固定された基底を使用して前のレイヤーを効果的にトレーニングし、150 個の PCA 係数を生成できます。しかし、トレーニング中に基底ベクトルが独自に進化できるようにすると、より良い結果が得られることがわかりました。

オーディオ処理

ネットワークの主な出力は音声オーディオ信号であり、ネットワークに入力する前に 16 kHz モノラル信号に変換されます。実験では、各チャンネルの音量を正規化して、ダイナミックレンジ[-1、+1]全体を利用できるようにしましたが、ダイナミックレンジ圧縮、ノイズ低減、プリエンファシスフィルターなどの処理は行いませんでした。

表 1 の自己相関層は、入力オーディオウィンドウをコンパクトな 2D 表現に変換し、その後に畳み込み層が続きます。このアプローチは、音声信号を線形フィルタ（声道）と励起信号（声帯）の混合としてモデル化した論文「音声生成のソースフィルタモデル」[Benzeghiba et al. 2007; Lewis 1991]に触発されたものです。線形フィルタの共振周波数 (フォルマント) が音声の音素内容に関する重要な情報を持っていることはよく知られています。アクティベーション信号は、話者の声のピッチ、音色、その他の特徴を表すことができます。この信号は顔のアニメーションには重要ではないと想定しているため、さまざまな話者に対するネットワークの一般化を改善するために、主にフォルマントに依存しています。

線形予測符号化 (LPC) は、ソースとフィルタの分離を実行するための標準的な方法です。 LPC は信号をいくつかの短いフレーム信号に分割し、最大自己相関係数 K に従って各フレーム信号の線形フィルタ係数を計算し、逆フィルタリングを実行して励起信号を抽出します。フィルタの共振周波数は自己相関係数の値に完全に依存するため、ほとんどの処理手順をスキップし、自己相関係数を瞬間共振ピーク情報の表現として直接使用することを選択します。このアプローチは、自己相関係数が本質的に信号の圧縮形式を表し、その周波数情報が元の信号のパワースペクトルとほぼ一致するため、直感的に理解できます。この表現は畳み込み層が特定の周波数帯域の瞬間スペクトルを推定する方法を簡単に学習できるため、畳み込みネットワークに適しています。

私たちの実験では、520 ミリ秒のオーディオを入力として取ります (260 ミリ秒の履歴サンプルと、予想される出力ポーズに関する 260 ミリ秒の将来のサンプル)。この値を選択したのは、ネットワークに過剰なデータ（過剰適合につながる）を供給せずに、音素の共調音などの関連する効果をキャプチャできるためです。出力オーディオウィンドウを 2 倍のオーバーラップで 64 個のオーディオフレームに分割します。これにより、各オーディオフレームは 16 ミリ秒 (256 サンプル) に対応し、連続するフレーム間に 8 ミリ秒 (128 サンプル) の間隔ができます。各オーディオフレームでは、DC コンポーネントを削除し、標準の Hann ウィンドウを使用して時間的なエイリアシングの影響を軽減します。 ***、自己相関係数 K = 32 を計算し、合計 64×32 の入力オーディオウィンドウスカラーを取得しました。個々の音素を識別するには、より小さな自己相関係数（例：K = 12）で十分ですが、後のレイヤーでもピッチの変化を検出できるように、元の信号に関するより多くの情報を保持することを選択します。

私たちのアプローチは、音声認識におけるこれまでのほとんどの方法とは異なります。これまでのほとんどの方法では、分析ステップは通常、メル周波数ケプストラム係数 (MFCC)、知覚線形予測係数 (PLP)、ラスタフィルタリングなどの専用の方法に基づいています [Benzeghiba et al. 2007]。これらの方法は、音素を非常にうまく線形分離でき、隠れマルコフモデルに適しているため、広く使用されています。初期のテストでは、入力データのさまざまな表現を試し、私たちのアプローチの方が自己相関係数が大幅に優れていることがわかりました。

図 2. 演者が話していないときのアニメーションはどのように見えるでしょうか? これらは、演者が話していないトレーニングセットから取得したサンプルフレームです。

感情状態の表現

同じ発話が異なる表情に対応する可能性があるため、発話から顔のアニメーションを推測することは本質的に曖昧な作業です。これは特に目と眉毛に当てはまります。目と眉毛は発話の生成に直接関係がないからです。このような曖昧なタスクは、トレーニングデータに、ほぼ同一の音声入力で大きく異なる出力ジェスチャが生成されるケースが必然的に含まれるため、ディープニューラルネットワークで対処するのは困難です。図 2 は、入力オーディオクリップが完全に無音の場合の、矛盾するトレーニングデータの例をいくつか示しています。ネットワークにオーディオデータ以外の追加データが利用可能な場合、ネットワークは矛盾する出力の統計的平均を出力するように学習します。

これらの曖昧なタスクを解決するための私たちのアプローチは、ネットワークに二次的な入力を提供することです。各トレーニング例を少量の追加の隠しデータに関連付けることで、ネットワークが正しい出力ポーズを明確に推測するのに十分な情報を持つようになります。理想的には、この追加データは、さまざまな表現、話し方、自己相関パターンなど、オーディオ自体からは推測できない、特定のサンプルの時間領域内のすべてのアニメーション関連の特徴をエンコードする必要があります。簡単に言えば、二次入力で演奏者の感情状態を表現する必要があります。トレーニングデータの曖昧さを解消することに加えて、二次入力は推論にも役立ちます。これにより、特定のボーカルトラックに対してさまざまな感情状態を組み合わせて、結果として得られるアニメーションを効果的に制御できます。アニメーションで感情的な状態を実現するための1つのアプローチは、トレーニングサンプルをその明らかな感情に応じてラベル付けまたは分類することです[Anderson et al. 2013; Cao et al. 2005; Deng et al. 2006; Wampler et al. 2007]。

ただし、このアプローチは、事前定義されたタグがトレーニングデータを適切に区別できることを保証できないため、理想的ではありません。事前に定義されたマーカーに頼るのではなく、データ主導のアプローチを採用しました。この方法のトレーニングプロセス中に、ネットワークは感情状態の簡潔な表現を自動的に学習します。この方法では、十分に多様な感情のセットが与えられれば、キャラクターの映像から意味のある感情状態を抽出することさえできます。私たちは感情状態を E 次元ベクトルとして表現します。ここで、E は調整可能なパラメーターであり、テストでは 16 または 24 に設定し、ガウス分布から抽出されたランダムな値でコンポーネントを初期化します。

このようなベクトルは各トレーニングサンプルに割り当てられ、これらの隠れた変数を格納するマトリックスを「感情データベース」と呼びます。表 1 に示すように、発音ニューラルネットワークのすべての層の活性化関数は感情状態に従います。このようにして、感情状態は損失関数の計算グラフの一部になります (原文のセクション 4.3 を参照)。E はトレーニング可能なパラメーターであるため、バックプロパゲーション中にネットワークの重みが更新されると更新されます。 E 次元における 2 つの効果のバランス。 E が低すぎると、感情状態によってトレーニングデータの変化を明確にすることができず、オーディオ反射が最適ではなくなります。 E が高すぎると、すべての感情状態が狭くなりすぎて、一般的な推論に使用できなくなります (原文のセクション 5.1 を参照)。

感情データベースの潜在的な問題は、感情データベースを効果的に制約できない場合、オーディオに存在する情報を明示的に保存するように学習する可能性があることです。制約がない場合、ほとんどの表情を決定する E ブレンドシェイプの重みが保持され、オーディオの役割が弱まり、ネットワークがトレーニング中に提示されなかったデータを処理できなくなる可能性があります。

設計上、オーディオデータによって提供される情報は、520 ミリ秒間隔内の短期的な効果に限定される必要があります。したがって、感情状態に短期的な変化が含まれることを禁止することで、感情状態に重複した情報が含まれるのを防ぐことができます。感情状態の長期的な影響を具体的に含めることも推論に役立ちます。感情状態が一定である場合、ネットワークが合理的なアニメーションを生成することも望まれます。この目的のために、損失関数に専用の正則化項を導入することで感情データベースの急激な変化にペナルティを課すことができ、トレーニング中に感情状態が徐々に平坦化されるようになります。私たちのアプローチの主な制限は、瞬きや目の動きが音声と関係がなく、ゆっくりと変化する感情状態によって表現できないため、それらを適切にモデル化できないことです。

感情状態を発音ニューラルネットワークのすべての層に結び付けるのは冗長に思えるかもしれませんが、実際にはそうすることで結果が大幅に改善されることがわかりました。これは、感情状態の役割が複数の抽象化レベルでアニメーションを制御することであり、抽象化レベルが高くなるほど学習が難しくなるためだと推測しています。前のレイヤーに接続すると、共同関節などの細かいアニメーション機能を正確に制御できるようになりますが、後のレイヤーに接続すると、出力ポーズを直接制御できるようになります。直感的に、個々のポーズが適切に表現されている場合、感情状態はトレーニングの初期段階では後のレイヤーに接続され、トレーニングの後期段階では前のレイヤーに接続されるはずです。

<<: アリババのナレッジグラフが完全公開、最先端の人工知能技術が雲奇カンファレンスで輝く

>>: 報告書：人工知能は5年以内に人間の雇用を著しく脅かすだろう