1. ミュージックXRメーカーMusic XR Makerは、テンセントミュージック初のオーディオおよびビデオ研究所である天琴ラボから生まれました。AI技術を通じて音楽とエンターテインメントのオーディオビジュアル体験を向上させることに取り組んでいます。また、テンセントミュージック初のオーディオおよびビデオ技術研究開発センターでもあります。 Tianqin Lab のビデオとビジョンに関する主な業務には 2 つの側面があります。1 つは Music XR Maker と画像レンダリング技術であり、もう 1 つはビデオ理解、音楽ビデオ化、ビデオ品質の向上などのビデオ関連です。 1. デジタルヒューマンテクノロジースタックにおける音楽ドライブの位置づけデジタル ヒューマン テクノロジー スタックでは、音楽主導の位置付けは次の 3 つの部分に分けられます。 イメージ構築:イメージ構築のプロセスでは、モデルの作成、写真撮影による顔のピンチ、撮影モデリング、衣服の生成などの技術が関係します。 キャラクター駆動型: キャラクター駆動型は 2 つのシステムに分かれています。1 つ目はストーリーの登場人物をベースとし、舞台裏で実際の人物が操作するシステムです。2 つ目は AI 駆動型です。オーディオとビジョンの面では、両方のシステムには対応する実装があります。オーディオサウンドの面では、室内の人間が室内の人間の声を直接使用し、AI駆動型では話すためのTTSテクノロジーと、歌のための対応する歌唱テクノロジーを備えています。顔キャプチャーに関しては、動画内の人物の表情をリアルタイムでキャプチャーできます。AI生成には、話す唇の形状生成、歌う唇の形状生成、話す表情生成、歌う表情生成などが含まれます。動きやジェスチャーの面では、対応するモーションキャプチャーやジェスチャーキャプチャーもあります。音楽の分野では、対応するダンスの動きの生成や楽器のジェスチャーの生成もあります。 視覚的なレンダリング: 確立されたモデルが正常に駆動された後、一般ユーザーがモデルを確認できるようにする必要があります。これには視覚的なレンダリングが含まれます。例えば、バーチャルアイドルの動画が各種動画プラットフォームに配信されたり、バーチャルキャスターがバーチャルライブ放送を開始したり、インタラクティブなエンターテインメントや多人数での交流が行われたりします。 2. 音楽主導型研究開発システム「Music XR Maker」の構築Music XR Maker は音楽に焦点を当てており、音楽コンテンツに基づいて仮想要素を作成するものと言えます。本質的には、音楽主導の AI 主導プロジェクトです。駆動可能なプロジェクトには、ボーカル合成、歌の唇の形の生成、ダンスの動きの生成、楽器のジェスチャーの生成、歌の表情の生成などがあり、シーンの照明効果やステージデザインも後続のイテレーションで徐々に追加されます。 Music XR Maker 音楽主導型研究開発システムの構築には以下が含まれます。 データソース: Music XR Maker システムの構築は、データ レベルで 2 つの部分に分かれています。まず、モデリング アクションと唇の形状の生成にはデータ ソースが必要です。現在、ほとんどのソースは、モーション キャプチャまたはフェイシャル キャプチャ データ、およびジェスチャー キャプチャ データです。次に、データは音楽に関連しているため、音楽のスタイル、感情、音楽のメロディー、エネルギー、歌のリズム、段落など、音楽を理解する非常に強力な能力が必要です。 AI 生成: 基本データが利用可能になると、コア AI によって生成されたアルゴリズムを通じて 2 つのデータが相関されます。アルゴリズムには2種類あります。1つはエンドツーエンドモデルで、分類予測モデル、関連点予測、生成モデルなどが含まれます。もう1つはAIアレンジ生成アルゴリズムで、比較的複雑で、複数のステップが含まれます。また、同様の検索または推奨方法を使用します。リコール、ソート、再配置の3つの段階に分けられます。リコール段階では、入力信号が解析されたデータに関連付けられます。ソート段階では、曲のリズム、曲の人気、パーソナライズなどに応じてソートされます。再配置段階では、テンポの連続性、段落の関連性などに調整が行われます。 3D レンダリング: AI 生成を通じて運転データを取得した後も、完全な商品化チェーンを開くには 3D レンダリングが必要であり、これは不可欠なリンクです。まず、一般的に使用されている Unity や UE などのレンダリング エンジンが必要です。また、SMPL、GLB、FBX などのプロフェッショナルな 3D データ形式も必要です。さらに、Blender、Maya などの生産性向上ツールも必要です。 製品への応用:企業にとって、最後のリンクは、実際に特定の製品に適用することです。実用化には2種類あります。1つは、QQ MusicのMusic World、Music LiveのCloud Disco Live、KugouのKK Show、TMElandなどに代表される、ユーザー参加型のインタラクティブエンターテイメントアプリケーションです。もう1つは、公開されているFanbaoやEncoreなどのエンターテイメント企業でより一般的になっているバーチャルヒューマンの代表と、継続的に開発されているバーチャルヒューマンプロジェクトです。公開されているシーンには、バーチャルアイドルビデオ、バーチャルライブ放送、重要なノードでのバーチャルコンサートなどがあり、すべてバーチャルアイドルが披露される場所です。 2. 音楽で生成されるデジタルヒューマンダンス1. バーチャルヒューマンダンスの制作方法デジタルヒューマンダンスを生成する方法は 3 つあります。 モーションキャプチャースタジオ:最新のマルチアイモーションキャプチャー機器と慣性キャプチャーを使用することで、得られる効果はまさに映画レベルであり、現在入手可能な最高の効果でもあります。しかし、価格が高い、人件費や設備費が高いなどの問題があります。アプリケーションシナリオとしては、高品質のビデオ出力に使用できます。 ビデオ再生:単眼モーションキャプチャーに属し、通常の低精度のシーンではうまく機能します。ただし、非常に激しいテンポの速いダンスに使用する場合、特に高精度のモデルに使用する場合は、効果の詳細が失われます。この方法は人件費が比較的低いため、精度の低いモデルのシナリオでよく使用されます。ビデオ複製には、他の方法では実現できない非常に明らかな利点があり、それはホットスポットを非常にうまくキャプチャできることです。最近はショートビデオプラットフォームで人気のダンスが定期的に公開されています。この方法を使えば、人気のダンスをリアルタイムで素早く再現できます。 音楽ベースの生成: 純粋にアルゴリズムによる生成であり、効果はデータの品質とアルゴリズム自体に依存します。問題はデータの入手が難しいことですが、シナリオを大量生産できるという利点があります。バッチシナリオでは、高品質のビデオを補完することができ、音楽に基づいてダンスを生成するこのソリューションは、日常のビデオ出力に使用できます。 2. 音楽で生成されるデジタルヒューマンダンスの業界ソリューション音楽で生成されるデジタルヒューマンダンスのソリューションは業界に数多く存在し、大まかに次のようになります。 生成ベースのソリューション: 非常に想像力豊かなソリューションですが、商用利用においては制御できない状況が発生する可能性があります。 コードブックに基づく: 生成されたソリューションと比較して、コードブックやその他の方法を追加することで改善され、生成されたダンス ルールに一定の制約が課せられます。これは非常に優れたソリューションです。 ダンスの振り付けをベースにしているため、実験の難易度と実装の実現可能性が高くなります。 商業目的でダンスを制作する際には、考慮すべき要素が 3 つあります。第 1 に、ダンスの動き自体が美しくなければなりません。第 2 に、ダンスの動きが音楽のリズムやリズムと調和していなければなりません。第 3 に、音楽とダンスのスタイルも一貫していなければなりません。そのため、AIによる振り付けの際には、音楽自体の特徴や音楽のリズムなど、音楽の特性に重点が置かれ、ダンスの属性、スタイル、感情、スピードなど、ダンスもそれに応じてマッチングされます。一般的に、商業的なダンス生成は、元のオーディオ ファイルを取得した後、いくつかの方法でオーディオの特徴を抽出し、その特徴をダンスの動きに回帰させ、最後にこれらの動きを適切につなぎ合わせます。 3. TME天琴ソリューション以下は、TME Tianqin ソリューションの生成アルゴリズムのスクリーンショットです。音楽が取得されると、一度に 1 フレームずつ小さなセグメントにカットされます。次に、フレームごとに、メロディー、リズム、音楽とダンスを最もよく表すその他の特徴など、対応する音楽属性の特徴が抽出されます。次に、最も適切なダンス セグメントがマッチングされます。同時に、音楽のリズムとスタイルの種類に基づいて、呼び出されたセグメントが並べ替えられ、あまり適していないセグメントが除外されます。最後に、対応するセグメントがつなぎ合わされて、完全なダンスが形成されます。ここでも問題が起こります。ダンスの動きでは、前部セグメントと後部セグメントの接続に問題が生じる可能性がありますが、これは、スムージング アルゴリズムを使用して遷移を行うことで解決できます。 このソリューションは実装が比較的簡単で、直接使用できます。しかし、このソリューションには想像力が欠けており、生成されたソリューションの多様性がやや乏しいため、いくつかの問題があります。 もう 1 つのソリューション セットは、生成に基づいています。オーディオ信号を入力すると、対応する元のサンプルオーディオが対応するダンスに関連付けられます。入力モデルでの処理後、元のダンスの動きに復元されます。このプロセスでは、より広い意味を表現するために、オーディオ信号とダンス信号の特性を可能な限り一致させる必要があります。 音楽によって生成されたデジタルヒューマンダンスが完成すると、主観的な評価を行うことができます。同じ曲について、生成されたダンスとハンドKダンスの動きが比較のために一般ユーザーに送信されます。 2つの比較方法が選択されます。1つ目の方法は、生成された結果とハンドKの結果を直接比較し、ユーザーにどちらが優れているかを選択させることです。2つ目の方法は、生成された結果とハンドKの結果を個別に採点することです。評価の結果、2つの方法の結論は類似しており、生成された結果は手Kの効果に近く、全体的な効果は良好であることがわかりました。 4. デジタルヒューマンダンスの商業化への道デジタルヒューマンダンスの商業的道筋は次のとおりです。 まず、モーションキャプチャースタジオ撮影とCPハンドKにより最高の効果が得られ、バーチャルアイドルやバーチャルキャスターの高品質なMVやイメージプロモーションビデオに応用され、同時にこのような高品質なダンスデータも保存されます。 第二に、単一目的のビデオ再生は、主にバーチャルアンカー、バーチャルアイドル、およびユーザーインタラクティブエンターテイメントシナリオ向けの人気ダンスを生成するために使用されます。生成されたデータは手動でスクリーニングして、中程度の品質のダンスデータを保持できます。 最後に、以前に保持した高品質のダンスデータと中品質のダンスデータをAIダンス生成モデルのデータソースとして使用します。生成されたダンスデータは量産データとして使用され、バーチャルアイドル、バーチャルアンカー、ユーザーインタラクティブエンターテイメントシナリオで使用され、より多くのダンスムーブメントを量産します。 3. 歌でデジタル人口が増加1. 歌を歌うことでデジタル人口問題解決歌唱駆動型デジタル人口には 2 つの実装スキームがあります。 ① プロフェッショナルな顔キャプチャソリューション:プロフェッショナルな機器とサポートソフトウェアにより、最高の効果と無制限の表現ベースが実現します。超リアルな仮想人間シーンで広く使用されています。 ② 通常の光学カメラソリューション:これは通常の携帯電話カメラで実現できます。効果は一般的なシナリオでは完全に許容可能で、標準は 52 BS です。一般的な仮想人間のシナリオに適用可能です。 2. 唇の動きに基づくデータセット構築リップシンク駆動型データの構築では、KugouソフトウェアのユーザーのK歌唱ビデオ映像が保存され、ユーザーのドライ歌唱データも記録されます。上記の単眼モーションキャプチャソリューションを通じて、歌唱シーンを唇形状認識によって認識し、唇形状BSデータを取得し、それを保持されたユーザーの歌唱ドライボイスデータと組み合わせて、同時に歌唱唇形状駆動モデルに入力します。 歌唱主導型と話し声主導型には違いがあります。話すときは口の動きが速くなりますが、歌うときは一息で歌わなければならないため、口の動きはより連続的になります。同時に、話すときの口の動きの振幅は歌うときほど大きくないため、特別な歌唱唇主導型モデルが作成されます。 3. TMEリップ駆動モデルTME リップドリブン モデル ソリューションは、2 つのデータ部分を同時に使用します。1 つはユーザーが入力したドライ ボイス データ、もう 1 つは歌詞ファイルです (歌詞ファイルは、各単語の正確なタイムスタンプを取得するために、歌詞ファイルとオーディオを揃えるように事前処理されます)。入力されたオーディオと歌詞はエンコーダーによって処理された後、融合されます。融合結果は別の顔マッチング予測モジュールに入力され、現在のフレームの歌詞とオーディオ情報を以前のすべてのフレームの情報と組み合わせてデコーダー プロセスを実行します。最後に、曲全体が変更に一致するように予測され、必要なモデル パラメータに変換されます。 4. リアルタイムソリューション上記は非同期で動画を生成するシナリオです。リアルタイムの問題を解決するための考慮事項は次のとおりです。まず、オフラインでプリセットの BlendShape を生成し、テスト ファイルとドライ ボイス データを入力します。ドライ ボイスは 2 つの部分から成ります。1 つは以前のユーザーが歌った優れた作品のドライ ボイスです。もう 1 つは曲の元の歌手です。元の歌手のドライ ボイスはテクノロジによって抽出され、その後、さまざまなファイルと包括的なドライ ボイスが以前の唇の形状モデルによって駆動され、プリセットの BlendShape が得られます。実際に実装すると、ユーザーのリアルタイムドライサウンドがオーディオマッピングモデルを通過してリアルタイムオーディオ分析結果が得られ、それが以前のプリセットブレンドシェイプとマージされて最終的にリアルタイムブレンドシェイプが得られます。これにより、リアルタイムの問題が解決され、同時にリップシンク生成の効果も実現されます。 リアルタイム ソリューションの関連テクノロジはすでに利用されており、Kugou 8.0 の QQ ショーで体験できます。1 つのシナリオでは、ユーザーが歌い始めるとカラオケ ショーのインターフェイスが表示され、歌っている間に QQ ショーの仮想人物の動きと唇の形を見ることができます。もう 1 つは、カラオケ ルームのシナリオで同様の体験ができるというものです。 4. 歌声がデジタルヒューマンの歌唱表現を駆動するデジタルヒューマンの歌う唇の動きを完成させた後、その人間がかなりつまらないように見えることに気付きました。プロの歌手のパフォーマンスを分析すると、歌うときに感情を表現するには、唇の形に加えて、顔の表情、身振り、動きがすべて同時に存在する必要があることがわかりました。この3つが1つになった完全なパフォーマンスだけが、歌手のその時の強い感情を際立たせることができます。 1. 歌唱表現データの収集歌唱を駆動するデジタルヒューマンの歌唱表現の実現にはデータ収集が必要である。データ収集の際には、まず表情付きの歌唱ビデオサンプルを探し、フェイスキャプチャーで表情を取得し、モーションキャプチャーで動きを取得し、ハンドキャプチャーでジェスチャーを取得します。次に、表情、動き、ジェスチャーを組み合わせて歌唱表情セグメントを作成し、手動で表情ラベル付けした後、歌唱表情ライブラリに格納します。 2. 歌唱表現の合理的な推進歌唱表現を収集した後、合理的に駆動する必要があります。歌詞のテキスト解析により、歌唱時の歌詞の表現情報を取得し、歌唱パフォーマンス全体の表現トーンを判定することができます。このとき、曲全体または曲の特定の部分に表現を挿入するのに適した、さまざまな種類の表現の膨大なライブラリから適切な表現を選択できます。 V. 要約と展望過去2年間で、バーチャル人物やメタバースに関連する多くのプラットフォームや製品が発売されました。エンターテインメント会社、有名人、大手商業会社、大規模なニュースキャスター、一般ユーザーなど、多くの人が独自のバーチャルイメージを持っており、バーチャルイメージはますます一般的になっています。 コストの問題、管理の問題、そしてバーチャルイメージの魂がバーチャルアイドル自身のものか、それとも中の人のものかなど、中の人はますます多くの問題に直面しています。 画像作成技術、ビジュアル駆動技術、音声・歌声合成技術など、AI駆動技術は急速なアップグレードに直面しています。 TMEは、音楽を核とした技術を構築しており、音楽駆動型のデジタルヒューマンダンス、デジタルヒューマンの歌唱唇の動き、デジタルヒューマンの歌唱表現など、将来的には他の側面も登場する予定です。 全体的に、デジタルヒューマンの未来はテクノロジーにあります。 6. 質疑応答Q1: モーション キャプチャ データまたはパブリック データセットをモデル駆動型にリダイレクトする際に問題が発生した場合はどうすればよいですか?A1: 確かにリダイレクトの問題はあります。主なプロセスは、まずいくつかの標準モデルにリダイレクトし、次に手動で問題のあるデータを検出して分類することです。問題を小規模に手動で解決できる場合は修復し、解決できない場合はデータを破棄します。 Q2: 音楽によって生成されたデジタルヒューマンダンスの客観的な評価方法は何ですか?A2: 音楽からデジタルヒューマンダンスを生成する分野は主観的なので、生成されたものが元のものと同じになることはありません。元のものと同じであれば意味がありません。したがって、音楽によって生成されたデジタルヒューマンダンスの評価は、より主観的なものになります。 Q3: 現在は主に漫画タイプのデジタルヒューマンを研究しているのですか?A3: 現在、私たちの研究は主に漫画タイプのデジタルヒューマンを対象としており、リアルなバーチャルヒューマンについては研究しておりません。 Q4: 接合の単位は計量単位ですか?A4: スプライシングの単位は測定単位ではありません。リズムに合わせて音楽を分割するなど、細かい作業も必要です。ダンスクリップを数秒カットするだけではなく、後でつなぎ合わせやすいようにカットする必要があります。 |
<<: ChatSQL: ChatGPT を有効にしてプレーンテキストで SQL クエリを作成できるようにする
>>: 犯罪者をターゲットにした新しい生成AIツールについて知っておくべきこと
最近、ウォール・ストリート・ジャーナルの記事によると、一部のベンチャーキャピタリストは、生成型人工知...
8月24日、市場調査会社ガートナーの最新予測によると、 AI向けハードウェアの世界販売収益は2023...
[[413820]]グラフは、ソーシャル ネットワークからバイオインフォマティクス、ロボット工学の...
人工知能の応用はまだ機械学習タスクに限定されていますが、アルゴリズムとハードウェアは徐々に融合してお...
さまざまな公共交通機関を頻繁に利用する人にとって、安全性と質の高い体験は最も重要です。人工知能やモノ...
近年の人工知能の発展スピードは驚異的で、あらゆる分野で専門的なAIが登場しています。上海では以前、無...
コンピューター ビジョンの分野では、You Only Look Once (YOLO) アルゴリズム...
[51CTO.com からのオリジナル記事] ライブショー「ビッグネームがやってくる」の今回のエピソ...
[[412010]]ロボット、つまり自動化と AI の総称は、私たちの周りにはどこにでもあります。...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
AIによって仕事が奪われるのではないかと心配する人が多い中、ある企業が世界初のAIヒューマノイドロボ...
データと機械学習アルゴリズムから得られる洞察は非常に貴重ですが、ミスは評判、収益、さらには命を奪う可...
2017年以降、ディープラーニングの概念が再び浮上し、AIは世界で最もホットな産業となりました。起...