デジタルヒューマンのための大規模モデル

デジタルヒューマンのための大規模モデル

ビッグモデルはソフトウェア業界全体を変えるでしょう。その代表的な製品の一つがデジタルヒューマンです。では、デジタルヒューマンとは何でしょうか?デジタルヒューマンにはどのような主要テクノロジーが関係していますか?大規模モデルはデジタルヒューマンの開発にどのような影響を与えるのでしょうか?

1. デジタルヒューマンとは何ですか?

現在、デジタル ヒューマンの定義は比較的統一されていません。人間のデジタル ツインをデジタル ヒューマンと定義する人もいれば、仮想世界で人間の行動をする存在をデジタル ヒューマンと定義する人もいれば、3D 人間モデルをデジタル ヒューマンと呼ぶ人もいます。たとえば、韓国の学術界では、デジタル ヒューマンを、デジタル技術を使用して、リアルな人間の外観、言語、動作姿勢、身体的特徴を備えた仮想 3D 人間モデルを作成することと定義しています。市場調査会社 IDC は、デジタル ヒューマンを「人工知能技術を使用して生成された、人間の外見、知覚、対話、表現機能を備えたデジタル仮想キャラクター」と定義しています。

一般的に、人々はデジタルヒューマンと呼んでいますが、これは仮想世界に存在し、「人間」のような特徴を持つ、集合的な技術によって作成されたデジタル画像です。これは、メタバース内の自然人が仮想空間と時間を認識するための主な媒体であり、人間とコンピュータの統合インタラクションを実現するための不可欠な部分であり、メタバースの経済的付加価値セクターです。デジタル人間、自然人間、ロボットが一緒になってメタバースの「三元性」を構成します。

デジタルヒューマンはさまざまな環境を認識し、人間のニーズに応じて「アバター」イメージを形成できます。人間とコンピュータの相互作用は、知性、感情、思慮深さといった特性を備え、デジタル人間は人間の知識、記憶、思考、感情を再現し、社会システム、生産システム、経済システムにおいて自然人との仮想的かつ現実の共生を実現します。

デジタルヒューマンの 3 つの主な特徴は、仮想化、擬人化、知能です。技術的な観点から見ると、デジタルヒューマンは非物理的な世界に存在し、コンピュータグラフィックス、グラフィックスレンダリング、モーションキャプチャ、ディープラーニング、音声合成などのコンピュータ技術によって作成され、複数の人間の特性(外見特性、人間のパフォーマンス能力、人間のインタラクション能力など)を備えた総合的な製品です。

2. デジタルヒューマンの一般的な設計プロセス

デジタルヒューマンは、技術的には、柔軟な実在の人物を駆動するタイプと、ディープラーニングに基づくコンピューティングを駆動するタイプに分けられます。

2.1 実在の人間が動かすデジタルヒューマン

実在人物駆動型は、動きの柔軟性、インタラクティブ効果などの面で明らかな利点があります。一方では、映画やテレビのコンテンツ作成における制作コストを削減し、映画やテレビ業界の敷居を下げ、映画やテレビレベルのコンテンツを消費者レベルに変換することを促進できます。一方、バーチャルアイドルや重要な生放送では主に使用され、デジタルの人々が大規模な生放送や現地ロードショーなどのインタラクティブで断片的な活動を完了するのに役立ちます。

一般的な設計プロセスは次のとおりです。

  1. 画像デザインとモデリング:原画の描画、フェイシャル、3Dモデリング
  2. モデリング バインディング: キー ポイント バインディングの数と位置は、最終的な効果に影響します。
  3. パフォーマンスキャプチャ: 体の形、表情、目、ジェスチャーなどの重要な変化をキャプチャします。
  4. 運転とレンダリング:制作に合わせてデジタルヒューマンのパフォーマンスをリアルタイムで運転し、特定の方法で音声を設定する
  5. コンテンツを生成して対話する: ライブ放送またはアクションを録画してコンテンツを生成します

2.2 計算駆動型デジタルヒューマン

コンピューティング主導のデジタルヒューマンの最終的な効果は、音声合成、NLP 技術、音声認識などの技術によって共同で影響を受けます。さまざまな知覚技術の既存の商業化能力は特定の方向性をサポートするのに十分ですが、理想的な全体的な効果を達成するには、企業は同時に 3 つの側面で強力な総合能力を備えている必要があります。

一般的な設計プロセスは次のとおりです。

  1. デザインイメージ: データを収集する
  2. イメージモデリングとバインディング: イメージモデルを設計し、キーポイントバインディングを実行します。
  3. さまざまなドライバー モデルをトレーニングします。ディープラーニングを使用して、音声、画像、表現パラメータ間の潜在的なマッピング関係を学習します。
  4. コンテンツ制作: 入力された音声に基づいて、唇の動き、表情などのパラメータを予測し、GAN を使用して最適なフレームを選択し、各フレームで音声とデジタルヒューマン画像を組み合わせます。
  5. レンダリングを実行して最終コンテンツを生成します。

写真

3. ビッグモデルがデジタルヒューマンに力を与える

生成 AI の台頭により、デジタル ヒューマン業界に根本的な変化がもたらされました。

従来のデジタルヒューマン技術は主にプリセットパラメータと限られたモデルトレーニングに依存していましたが、ビッグモデル技術はほぼ無制限のトレーニングパラメータと自律生成機能を提供し、デジタルヒューマンをよりリアルで多様なものにします。ビッグモデルには、デジタルヒューマンのイメージ、動き、表情、唇の形、声などの要素が含まれています。各ユーザーは、個人データに基づいてデジタルヒューマンをトレーニングできます。

大規模なモデルにより、2D デジタル ヒューマンの効率が大幅に向上します。 AI の生成能力は、2D デジタル ヒューマンに自然に適しています。市場には 2D デジタル ヒューマン カスタマイズ ツールが多数存在し、そのロジックは基本的に同じです。つまり、コピーライティングの素材を入力するだけで、デジタル ヒューマン イメージを生成できます。

3D デジタル ヒューマンのワークフローは、2D ヒューマンのワークフローよりもはるかに複雑です。大規模なモデルを使用すると、デジタル ヒューマンの制作コストを 10 分の 1 から 100 分の 1 に削減でき、仮想デジタル ヒューマンの制作サイクルを数か月から数時間に短縮することもできます。デジタルヒューマンの生産コストは数百万元から数万元に削減される。

大型モデルは、3D デジタルヒューマンの作成の難しさを直接的に軽減するだけでなく、デジタルヒューマンに魂を注入します。これまで、3Dモデリングは従来のCG技術に依存しており、モーションキャプチャーには大量の現実データの収集が必要でした。現在では、大規模なビデオモデルに基づくデジタルヒューマンツールプラットフォームに基づいて、アルゴリズムが効率的に3Dモデルを生成し、顔の細部をよりリアルに処理できるため、表情やリップシンクの品質が向上します。

さらに重要なのは、ビッグモデルがデジタルヒューマンの自然言語理解能力をほぼ解決しており、マルチモーダルビッグモデルこそがデジタルヒューマンの真の魂であるということです。しかし、創造力の限界は、大規模なモデルの蓄積、計算能力の蓄え、そしてそれらが生み出す新たな能力に頼ることで間違いなく改善され、その結果は人によって異なります。

4 デジタルヒューマンの評価指標

社会学における人体の研究は、自然主義的身体観と社会構成主義的身体観という 2 つの主要な方向に分かれています。自然主義的な身体観は人間の肉体的属性である「肉体」を強調し、社会構成主義的な身体観は人間の社会的属性である「社会的身体」を強調します。機能的観点から見ると、どちらの身体観も人間の道具的属性である「身体化」に焦点を当てています。これを踏まえて、デジタルヒューマン総合指標は、社会学における自然人の「身体観」をデジタル人間の評価概念に導入し、デジタルヒューマン「三体」指標評価体系を形成します。

写真

5. デジタルヒューマン産業チェーン

市場セグメントにおける中国と海外の競争には大きな違いがあります。現在、中国と海外の共通市場は仮想コンテンツの自動生成ですが、外観の詳細、プリセットテンプレート、サポートシステムなどには大きな違いがあります。海外では、コンサルタントやアシスタントとして心のケアを提供するデジタルヒューマンや、デジタルヒューマンを構築するためのアプリケーションへの関心が高まっていますが、国内企業はバーチャルなカスタマーサービスシナリオへの関心が高まっています。バーチャルライブストリーミングへの注目度の高さは、わが国独自の方向性です。

写真

6. デジタルヒューマンの種類と応用分野

デジタルヒューマンの応用は、サービス指向のデジタルヒューマンとアイデンティティ指向のデジタルヒューマンに分けられます。現実のサービスに代わるバーチャルアンカーや、バーチャルIP内のバーチャルアイドルが現在市場のホットスポットとなっています。

写真

6.1 Bサイドアプリケーション

現在、デジタルヒューマン製品は、インターネットマーチャントの24時間ローテーションを実現する仮想アンカー、サービスホールでのセルフサービスビジネスのための仮想フロントデスク、リクエストを自動的に処理する仮想カスタマーサービスなど、Bサイドのシナリオで主に使用されています。Bサイドの消費者は依然として市場の主要構成要素です。

  1. コンテンツ制作モデルの再構築
  2. デジタルコンテンツ制作の効率と品質を向上
  3. ファン経済の再定義
  4. ブランドコミュニケーションの支援
  5. ブランドイメージの変革
  6. ブランドとユーザーを近づける
  7. 新しいタイプの商品配送が電子商取引を強化
  8. デジタル変革を推進
  9. 企業の品質と効率性の向上を支援

6.2 Cエンドアプリケーション

デジタルヒューマン製品のCエンドの応用シナリオには、写真をアップロードして亡くなった親戚や友人を再現する仮想親戚や友人、子供の教育に役立つ仮想家庭教師、自己メディアの公開アカウントを監視する仮想編集者などがあります。 C エンドのアプリケーション シナリオには、まだ大きな探索の可能性があります。

  1. ユーザーの生活に参加する
  2. より真実で理想の自分を追求する
  3. 本物の手話ホストの不足を緩和する
  4. 聴覚障害者のコミュニケーション問題を効果的に解決する
  5. 人々のアシスタント、友人、パートナーになる

7つのデジタルヒューマン応用例: ブランドIP

IP のプレゼンテーションは、抽象的なブランド コンセプトを具体的に具体化したものです。ブランドが消費者に喚起したい感情的な共鳴をもたらし、独自の特徴によってブランドを他のブランドと区別します。企業ブランドは、IP イメージを通じて宣伝されることが多いです。数年前のハイアール兄弟のように、ダイナミックな IP イメージは親近感を伝え、視聴者の共感を引き出し、ブランドイメージをより鮮明で活気のあるものにすることができます。現在、ブランドはヒューマノイドIPを立ち上げ始めており、2Dアニメーション表示から3D立体プレゼンテーションへと進化し、視聴者との距離を縮めるために、より擬人化された効果を追求しています。

しかし、一方的なコミュニケーションでは、視聴者の参加意識を十分に喚起することはできません。同ブランドは、インテリジェントな音声インタラクションを備えたデジタルヒューマンIPを立ち上げ、それを仮想アシスタントキャラクターやコンパニオンキャラクターにして、ユーザーが特定の問題に対処するのを支援します。 IP との長期的な付き合いにより、ユーザーはより深い感情を育み、「育成」体験を形成することさえ可能となり、IP のカスタマイズ感覚が向上します。デジタルヒューマン IP のアイデンティティは、ペット、パートナー、子供、クラスメートなどになります。ユーザーは、仮想 IP が自分自身によって形作られるときに起こる変化を目撃できるだけでなく、その過程で自分自身の成長についての洞察を得ることもできます。

8. デジタルヒューマンが直面する問題と課題

デジタルヒューマンにも技術的なボトルネックがあり、いくつかの新たな問題もあります。

8.1 技術的な課題

特に計算デジタルヒューマンの場合、大規模で高品質のトレーニングデータサンプルの制限により、一般化を達成することは現在の課題のままです。リアルなデジタル人間はますます人間らしくなっていますが、それでも「不気味の谷効果」を打破する必要があります。

感情的なコミュニケーションは技術的なボトルネックです。現在はまだモーションキャプチャー技術が主流であり、デジタルヒューマンの表現基準では眉の曲がりや筋肉の震えなど微細な表情まで伝えることができないため、動画で人物が表現する感情を十分に伝えることは難しい。人間とデジタル存在とのコミュニケーションの過程では、テキストのみを伝えることができ、その背後にある感情的な意味や感情を直接伝えることはできません。さらに、デジタルヒューマンには感情的な AI アルゴリズムの適用が欠けています。人の発話の感情を判断して応答を変え、感情の傾向を変えてより人間的なやりとりを実現する方法がありません。大規模なマルチモーダルモデルは、この問題を部分的に解決できる可能性があります。

8.2 人間に優しい問題

デジタルヒューマンが作り出す新しい人間と機械の関係は、人間の組織活動に強制的に埋め込まれた一種の「異物」となる可能性がある。人間組織がそのような知的埋め込みオブジェクトに対して免疫反応を示すかどうかについては、現時点では十分な個別事例データが得られず、有効な判断が困難である。つまり、多数のデジタル人材が職場に就き、職務を担うようになると、組織行動にどのような変化が起こるかはまだ分からない。

8.3 倫理的問題

インテリジェント テクノロジーのコア アルゴリズムは、テクノロジーと倫理的問題を密接に組み合わせています。特定のインテリジェント アルゴリズムによってサポートされるデジタル ヒューマンは、特定の価値観や倫理的傾向を持つ可能性があり、ディープラーニングやビッグ データの影響を受けて、特定の「邪悪な」傾向さえ持つ可能性があります。

8.4 法的問題

プライバシー保護は不変のテーマです。実物のプロトタイプでデジタル人物を作成するには、大量の情報を収集する必要があり、この情報の大規模かつ違法な提供は、プライバシー保護を軽視または無視する現象を反映しています。プライバシーとセキュリティの権利の一部は実際のユーザーに属し、他の部分は自己認識を発達させたデジタルの人々に属します。ディープ合成技術は人間の顔を再現するために使用できますが、ネットワーク技術の段階的な発達と肖像権の保護の欠如により、インターネットからキャプチャされた大量のビデオと画像のディープ合成の問題が法的リスクになっています。

仮想空間はデジタルヒューマンを作成するための基礎構造であるため、仮想ネットワークの管轄はデジタルヒューマンを客観的に計画するための基礎となります。法的管轄権を得るには、まずサイバー犯罪の発生場所を特定する必要がありますが、仮想空間における犯罪行為が最初および最終的にどこで発生するかを特定することは困難です。

開発者にとって、「セーフハーバー原則」はネットワークサービスプロバイダーの責任免除原則です。具体的には、権利者からの通知を受けた後、ネットワークサービスプロバイダーは法律に従って侵害作品、実演、オーディオおよびビデオ製品へのリンクを切断し、賠償責任を負わないことになります。

9. まとめ

デジタルヒューマンは、将来の人工知能のビッグモデルにとって最も重要なアプリケーションのエントリポイントです。ビッグモデルのエンパワーメントを通じて、デジタルヒューマンの製品開発は、まずデジタル資産の所有権の確認、独自の技術運用、IP の継続的な反復と進化に依存する独立したイノベーション能力を強化する必要があります。同時に、あらゆるメディアを対象としたマルチモーダルコミュニケーションシステムと継続的なイベントマーケティングシステムを構築し、デジタルピープルのコミュニケーションコンテンツの制作、発表、自己発信のソースを提供し、コミュニケーションの影響力を継続して高めていく必要があります。パーソナライズされたコミュニケーション コンテンツを探索し、パーソナライズを通じてターゲット ユーザーを引き付け、ユーザーの定着率を維持し、ロイヤルティと口コミを向上させます。さらに、当社は社会的価値の普及を重視し、仮想デジタル人物に社会奉仕の属性を付与し、業界の影響力と自身の信頼性を高めます。

デジタルヒューマンは複雑すぎると思うなら、音声ロボットから始めるのもいいでしょう。双十一が近づいているので、私が参加した最近の翻訳をお勧めしたいと思います。音声ロボットの製品マネージャーのデスクマニュアルとして使用できるだけでなく、デジタルヒューマンの設計にも大いに役立ちます。

<<:  Red Hat は Ansible の自動化に IBM Watsonx コード生成を採用

>>:  2024年の人工知能の6つの主要な発展トレンド

ブログ    
ブログ    

推薦する

スマートテクノロジーは高齢化問題の解決に役立つでしょうか?

世界保健機関によれば、2050年までに世界中で約20億人が60歳以上になると予想されています。これら...

最新の! 2018年中国プログラマーの給与と生活に関する調査レポート

中国インターネット情報センター(CNNIC)が発表した第41回中国インターネット発展統計報告によると...

...

漫画解釈: よく使われる機械学習アルゴリズムのトップ 10 を簡単に理解する

この記事を通じて、ML でよく使用されるアルゴリズムについて常識的に理解することができます。コードや...

ディープラーニングは自動運転車にとって何を意味するのでしょうか?

[[348074]]自動運転車でディープラーニングを使用すると、歩行者の行動を理解したり、最短ルー...

...

ニューラル ネットワークの BP アルゴリズムが発明されるまでになぜ長い時間がかかったのでしょうか?

ローズブラットは 1950 年代にパーセプトロンを提案し、多層ニューラル ネットワークの BP アル...

...

AIの力を集めよう!中国のチームが初めてネイチャー誌に中国のAIの状況に関する論文を発表した。

[[332234]] AI若手科学者連盟の主導のもと、国内の大学教授15名とビジネス界のAIリーダ...

自動運転のためのリアルタイム測位技術の詳細説明

1 概要自動運転車 (AV) が安全で効率的な運転を実現するには、リアルタイムで正確かつ堅牢な位置特...

生成 AI: サイバーセキュリティにとっての恩恵か、それとも災いか?

脅威の状況が絶えず変化する中、高度なサイバー攻撃に対する防御手段として、生成型人工知能 (GAI) ...

...

Excelを使用してPIDアルゴリズムを学習する

1. PIDの紹介モーター制御この方法ではフィードバックはありません。つまり、入力数値を完全に信じて...

RVフュージョン!自動運転におけるミリ波レーダーとビジョンフュージョンに基づく3D検出のレビュー

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...