最近、マサチューセッツ大学アマースト校のヤン・チョウ博士とそのチームは、「MakeItTalk」と呼ばれる深い構造を持つ新しい方法を提案しました。音声信号とポートレート画像を入力として与えると、モデルは話者の知覚の音声アニメーション グラフを生成します。 誰もが表現力豊かなアニメーションを望んでいます! フェイシャルアニメーションは、映画制作、ビデオストリーミング、コンピューターゲーム、仮想アバターなど、多くの分野で重要な技術です。 数多くの技術的成果があるにもかかわらず、リアルな顔のアニメーションを作成することは、コンピューター グラフィックスにおいて依然として課題となっています。 まず、顔の表情全体には顔全体のすべての部分の相互関係が含まれており、高次元のマルチイメージでは顔のダイナミクスが支配的であり、その中でも頭の姿勢が最も重要であるため、顔の動きと発話の調整は困難な作業です。 第二に、話し手はそれぞれ話し方が異なり、唇を一貫してコントロールするだけでは話し手の性格を理解するだけでなく、さまざまな個性を表現することもできます。 上記の問題に対処するために、Yang Zhou 博士と彼のチームは、「MakeItTalk」と呼ばれる深い構造を持つ新しい方法を提案しました。 これは、入力としてオーディオと顔の画像のみを必要とする、深いアーキテクチャを備えた新しい方法で、プログラムはリアルな「トーキングヘッドアニメーション」を出力します。 次に、MakeItTalk がどのようにして写真を「話させる」のかを見てみましょう。 声を上げてください!魔法の MakeItTalk とは何ですか?MakeItTalk は、顔の特徴、顎、頭の姿勢、眉毛、鼻を認識し、音刺激によって唇を変化させることができる、新しいディープラーニングベースのアーキテクチャです。 このモデルは LSTM と CNN に基づいており、話者の口調や内容に合わせて表情や頭の動きを変化させることができます。
基本的に、MakeItTalk は入力オーディオ信号からコンテンツとスピーカーを分離し、結果として得られる抽象表現から対応するアニメーションを抽出します。 唇と隣接する顔との調整も特に重要です。話者の情報は、表情豊かな頭部アニメーションを生成するために必要な他の表情や頭部の動きを取得するために使用されます。 MakeItTalk モデルは、リアルな人間の顔の会話画像と非リアルな漫画の会話画像の両方を生成できます。 音+画像=「話す」? MakeItTalk はどのようにそれを実現するのでしょうか?次の図は、リアルな話し手を生成するための完全な方法とアプローチを示しています。 (1)音声クリップと単一の顔画像を使用して、音声と連動した話者認識ヘッドアニメーションを作成できます。 (2)トレーニング段階では、市販の顔検出器を使用して入力ビデオを前処理し、マーカーを抽出します。入力オーディオから基本モデルをトレーニングして、音声コンテンツをアニメーションとマーカーに正確に抽出します。 (3)高精度な動きを得るために、入力音声信号の内容と話者の埋め込みを分離してランドマークの推定を行う。この目的のために、音声変換ニューラル ネットワークを使用して音声コンテンツを抽出し、音声コンテンツを検出します。 (4)内容は話者に依存せず、唇と隣接部分の共通の動きを捉えており、発話内容は動きの特徴と話者の頭部の動きの残りの部分を変調している。 (5)誰がその単語を発したか、つまり話者のアイデンティティに応じて、目、鼻、頭が動くにつれて唇の大きさと形が広がります。 (6)最後に、変換された画像を生成するために、MakeItTalkはラベルから画像を合成するための2つのアルゴリズムを使用します。 キャンバス アートやベクター アートなどの非フォトリアリスティックな画像の場合、ドロネー三角形分割に基づいた特定の歪み方法が適用されます。 リアルな画像の場合、自然な顔を直接変換する画像間変換ネットワーク(pix2pix と同じ)を構築します。 最後に、すべての画像フレームとオーディオがミックスされ、ヘッドアニメーションが生成されます。 著者について このプロジェクトの作者は、上海交通大学で電子工学の学士号を取得し、その後ジョージア工科大学で修士号を取得し、現在はマサチューセッツ大学アマースト校のコンピュータグラフィックス科学研究グループでコンピュータサイエンスの博士課程に在籍しています。
著者のホームページのアバターも様式化されている Yang Zhou はコンピューターグラフィックスと機械学習の分野で働いています。主に、ディープラーニング技術を使用して、アーティスト、スタイリスト、アニメーターがより良いデザインを作成できるようにすることに重点を置いています。 デザインに AI 遺伝子も追加したい場合は、Yang Zhou の論文リストが間違いなく良い選択です。アニメーション生成とマルチモーダルディープラーニングに関する研究は数多くあります。 |
<<: この履歴書はAIの助けを借りて作成されたことが判明しました。 !
>>: 本番環境のMLを再現できない場合は、ワークフローに問題がある可能性があります。
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[[349278]]今は「顔を見る時代」であり、「顔をスキャンする時代」でもあります。明らかに、後者...
[[422314]]近年、都市化と道路交通建設の加速により、自動車旅行の需要が継続的に増加しており、...
C++ プログラミング言語でのテンプレートの適用は、比較的複雑な適用技術です。今日は、C++ kmp...
[[195601]]ディープラーニングは機械学習のサブセットであり、さまざまな方法を使用して人工知能...
おそらく今回、私たちは本当に人類の歴史における特異点に立っているのかもしれない。最近、MIT のカー...
今日の大手企業が AI におけるいくつかの大きな課題をどのように克服しているか。概要:多くの企業はビ...
著者: ユン・チャオ[51CTO.com からのオリジナル記事]人工知能ソリューションの応用が進むに...
ディープラーニング モデルを本番環境に導入することは、優れたパフォーマンスのモデルをトレーニングする...
海外メディアの報道によると、9月30日、キングス・カレッジ・ロンドンと世界的な製薬会社グラクソ・スミ...
「新しいインフラ」は新たな方向性を表しています。新旧の成長原動力の転換という文脈において、「新インフ...
9月末、OpenAIはChatGPTのマルチモーダル機能の禁止を解除すると発表しました。マルチモーダ...
中国・北京—2018年8月15日、ロボット産業の「ワールドカップ」であり、世界的なインテリジェントテ...
全国的な「オンライン授業」が始まって1か月、湖北省以外の省では新型コロナウイルスの新規感染者もそれほ...