マイクロソフトがテキスト読み上げアバター AI ツールを発表: Azure プラットフォームをベースに仮想 3D デジタル人物を作成可能

マイクロソフトがテキスト読み上げアバター AI ツールを発表: Azure プラットフォームをベースに仮想 3D デジタル人物を作成可能

IT Homeは11月16日、MicrosoftがIgniteカンファレンスでAzure AI Speech用の「Azure AI Speech テキスト読み上げ(TTS)アバター」というAIツールを発表したと報じた。人間のリアルな仮想アバター(デジタルヒューマン)を生成できるとしている。このツールは現在、プレビュー版として一般公開されている。

マイクロソフトは、ユーザーはAzure AI Speechのテキスト読み上げ(TTS)アバターを使用して、「テキストを入力して内容を話す」ことに基づいて仮想アバターを作成し、それを実際の写真トレーニングと組み合わせて、実際の人々に基づいた「インタラクティブなチャットボット」を作成できると述べた。これは、企業のマーケティング、ビジネス、または顧客サービスのシナリオで使用できる。

この Azure AI Speech テキスト読み上げ (TTS) アバターは、主にテキスト アナライザー、TTS サウンド シンセサイザー、TTS 仮想アバター シンセサイザーの 3 つのモジュールで構成されていると報告されています。

テキスト アナライザーは、まずユーザーが入力したテキストを分析し、音素シーケンスを生成します。 TTS サウンド シンセサイザーの TTS 音声モデルは、ユーザーが入力したテキストの音響特性を予測し、サウンドを合成します。最後に、ニューラルネットワーク音声合成モデルアバターが、上記の音響特徴に基づいてキャラクターの唇の形状画像を予測し、最終的に仮想アバター画像を形成します。

マイクロソフトは、従来のバーチャルアバターの制作には時間と労力がかかり、専用の撮影環境の整備が必要で、撮影後の編集作業にもかなりのコストがかかると説明した。現在、マイクロソフトの最新の Azure AI Speech テキスト読み上げ (TTS) アバター サービスを使用することで、初期モデルが確立された後は、ユーザーはテキストを入力するだけで、さまざまな製品紹介やインタラクティブ ビデオなどを作成できます。 Microsoft Azure OpenAI サービスとニューラル ネットワーク TTS 機能を組み合わせることで、より自然なインタラクティブ エクスペリエンスを提供することもできます。

IT Home は、Microsoft が、ユーザーは Azure AI Speech TTS アバターを使用して、企業文化ビデオ、製品紹介、カンファレンスでの CEO のデジタル アバターなど、さまざまなビデオ コンテンツを一括作成できると主張していることを発見しました。また、仮想ライブデジタルヒューマン、チャットロボット、ビジネスロボット、オンライン教育用の AI 教師などを作成することもできます。

Microsoft は、Azure AI Speech のテキスト読み上げ (TTS) アバターが Azure サブスクライバー向けに提供され、さまざまな言語をサポートしていると述べました。ユーザーは、プリセットのアバター オプションから希望のキャラクターを選択したり、独自のアバターをカスタマイズしたりできます。

ユーザーが独自の仮想アバターをカスタマイズしたい場合は、キャラクターのビデオ クリップを一括アップロードする必要があります。Azure プラットフォームはこれらのビデオをオンラインで処理して仮想アバターを生成します。キャラクター本体と音源は分離されており、ユーザーは公式が提供するデフォルトの音源を選択したり、独自のトレーニング音源をアップロードしたりすることができます。

<<:  NVIDIA が TensorRT-LLM の新バージョンをプレビュー: 推論能力が 5 倍に向上、8GB 以上のグラフィック カードがローカルで実行可能、OpenAI の Chat API をサポート

>>:  ロビン・リー:AIネイティブ時代の「冷たい」思考と「熱い」ドライブ

ブログ    
ブログ    

推薦する

張宏江:AIは開発を支配する次の法則になるかもしれない

9月11日午前、北京人工知能研究院会長の張宏江博士がHICOOL 2021グローバル起業家サミットに...

...

新しいターミナルゲームプレイ: 「ゼロコード」スクリプトベースのガイダンス

著者 | 宋涛、尚賢、小斌 他アプリガイダンスは端末上でのマインドセット構築の重要な手段です。私たち...

DALL·E 3のベンチマーク!メタ最強の文豪エミュの技術レポートを公開

数日前、OpenAIはDALL·E 3をリリースしたばかりで、ビジュアルイメージは再び新たな段階に上...

Google のロボットアームはハンカチなど、柔らかいものも硬いものもつかむことができます。 ICRA 2021が承認されました

現在、ロボットに関する研究は、主に特定の形状の物体を掴むためのロボットアームの設計に焦点を当てていま...

Google Deepmind、楽器とボーカルで音楽を生成するLyria AIオーディオモデルを発表

11月21日、Deepmindは楽器とボーカルで音楽を生成できるLyriaというオーディオモデルをリ...

Bespin Global: AI技術を活用してクラウドネイティブのインテリジェントな運用・保守方法を構築

【51CTO.comオリジナル記事】序文最近、Bespin Globalの共同創設者であるBrad ...

強力な人工知能まであとどれくらいでしょうか?まず、これらの5つの数学の問題を解くのに10年から20年かかります

[[272461]] 7月30日、成都ハイテクゾーンの景栄会で開催された2019年世界人工知能サミッ...

AI教育を普及させるために「幼少期から始める」という考え方は、学校、親、社会にますます受け入れられつつあります。

[[254737]]小中学生の91.7%が、AI関連のコンテンツについて学ぶことに多少なりとも非常...

CPU、GPU、NPU、FPGA はディープラーニングでどのように優位性を発揮するのでしょうか?

AIの応用が広まるにつれ、ディープラーニングは現在のAI研究と応用の主流の方法となっています。膨大...

...

...

アクセス制御における生体認証の応用と開発

現在、アクセス制御にはより高度な技術と新しいアプリケーション市場があります。アクセス制御システムで現...

Stack Overflow が ChatGPT に対抗し、VS Code と連携する独自開発の生成 AI ツールをリリース

数日前、Stack Overflow コミュニティのトラフィックが大幅に減少したというニュースがあり...

ジェネレーティブAIがファッション業界にもたらす変化

業界ではデザインやスキンケアに AI 技術が活用されています。一部の企業は、生成ツールを超えて、コン...