マイクロソフトがテキスト読み上げアバター AI ツールを発表: Azure プラットフォームをベースに仮想 3D デジタル人物を作成可能

マイクロソフトがテキスト読み上げアバター AI ツールを発表: Azure プラットフォームをベースに仮想 3D デジタル人物を作成可能

IT Homeは11月16日、MicrosoftがIgniteカンファレンスでAzure AI Speech用の「Azure AI Speech テキスト読み上げ(TTS)アバター」というAIツールを発表したと報じた。人間のリアルな仮想アバター(デジタルヒューマン)を生成できるとしている。このツールは現在、プレビュー版として一般公開されている。

マイクロソフトは、ユーザーはAzure AI Speechのテキスト読み上げ(TTS)アバターを使用して、「テキストを入力して内容を話す」ことに基づいて仮想アバターを作成し、それを実際の写真トレーニングと組み合わせて、実際の人々に基づいた「インタラクティブなチャットボット」を作成できると述べた。これは、企業のマーケティング、ビジネス、または顧客サービスのシナリオで使用できる。

この Azure AI Speech テキスト読み上げ (TTS) アバターは、主にテキスト アナライザー、TTS サウンド シンセサイザー、TTS 仮想アバター シンセサイザーの 3 つのモジュールで構成されていると報告されています。

テキスト アナライザーは、まずユーザーが入力したテキストを分析し、音素シーケンスを生成します。 TTS サウンド シンセサイザーの TTS 音声モデルは、ユーザーが入力したテキストの音響特性を予測し、サウンドを合成します。最後に、ニューラルネットワーク音声合成モデルアバターが、上記の音響特徴に基づいてキャラクターの唇の形状画像を予測し、最終的に仮想アバター画像を形成します。

マイクロソフトは、従来のバーチャルアバターの制作には時間と労力がかかり、専用の撮影環境の整備が必要で、撮影後の編集作業にもかなりのコストがかかると説明した。現在、マイクロソフトの最新の Azure AI Speech テキスト読み上げ (TTS) アバター サービスを使用することで、初期モデルが確立された後は、ユーザーはテキストを入力するだけで、さまざまな製品紹介やインタラクティブ ビデオなどを作成できます。 Microsoft Azure OpenAI サービスとニューラル ネットワーク TTS 機能を組み合わせることで、より自然なインタラクティブ エクスペリエンスを提供することもできます。

IT Home は、Microsoft が、ユーザーは Azure AI Speech TTS アバターを使用して、企業文化ビデオ、製品紹介、カンファレンスでの CEO のデジタル アバターなど、さまざまなビデオ コンテンツを一括作成できると主張していることを発見しました。また、仮想ライブデジタルヒューマン、チャットロボット、ビジネスロボット、オンライン教育用の AI 教師などを作成することもできます。

Microsoft は、Azure AI Speech のテキスト読み上げ (TTS) アバターが Azure サブスクライバー向けに提供され、さまざまな言語をサポートしていると述べました。ユーザーは、プリセットのアバター オプションから希望のキャラクターを選択したり、独自のアバターをカスタマイズしたりできます。

ユーザーが独自の仮想アバターをカスタマイズしたい場合は、キャラクターのビデオ クリップを一括アップロードする必要があります。Azure プラットフォームはこれらのビデオをオンラインで処理して仮想アバターを生成します。キャラクター本体と音源は分離されており、ユーザーは公式が提供するデフォルトの音源を選択したり、独自のトレーニング音源をアップロードしたりすることができます。

<<:  NVIDIA が TensorRT-LLM の新バージョンをプレビュー: 推論能力が 5 倍に向上、8GB 以上のグラフィック カードがローカルで実行可能、OpenAI の Chat API をサポート

>>:  ロビン・リー:AIネイティブ時代の「冷たい」思考と「熱い」ドライブ

ブログ    
ブログ    
ブログ    

推薦する

2024 年のクラウド コンピューティング セキュリティの 5 つのトレンドと進歩

クラウドの世界を探ってみましょう。ただし、単なるクラウドではなく、未来のクラウドです。具体的には、2...

ディープラーニングの限界と将来

[[227297]]注: この記事は、Keras の作者である François Chollet に...

李開復氏は、AIが今後20年間で5つの主要産業に大きな影響を与えると予測している。

最近、Sinovation Venturesの創設者であるKai-Fu Lee氏が「AIの急速な時代...

IBMは信頼性の低い量子コンピューティングの問題を克服し、エラー軽減を使用して有用な計算を実現し、Natureの表紙を飾った。

量子コンピューティングは長い間、特定の問題に関して従来のコンピューティングよりも高速であると期待され...

...

...

...

MITが家中に設置できる紙のように薄いスピーカーを開発

MITのエンジニアたちは、あらゆる表面を音源に変えることができる紙のように薄いスピーカーを開発した...

能力と信頼性の両方を備えることはできますか? GPT-4やGeminiなどのマルチモーダルモデルの評価レポートはこちら

2023 年には、マルチモーダル大規模モデルの飛躍的な発展が見られるでしょう。マルチモーダル大規模言...

AI は清華大学の博士号取得者がラップの歌詞を書くのを手伝い、次のレベルに進みました。AI はクロストークを行うことができるのでしょうか?

今年、「中国の声」の話題は音楽そのものの議論からは程遠いが、これは重要ではない。注目されているのは、...

エネルギー分野における人工知能の機会と課題

エネルギー部門は、現代経済において最も強力かつ収益性の高い部門の 1 つです。しかし、ほとんどのエネ...

顔認識は、セキュリティ市場におけるおやつか定番か?

ITS114の統計によると、2019年のわが国のセキュリティとスノーブライトプロジェクトの数千万プ...

人工知能を使ってエッセイを採点するのは信頼できると思いますか?

現在、5Gは世界的な注目を集めていますが、人工知能の開発は依然として力強いままです。各分野における技...

AIがスマート交通建設を推進し、警察ドローンの高速任務を加速

スマート交通とは、モノのインターネット、空間認識、クラウドコンピューティング、モバイルインターネット...

2023 年までにデータセンターで注目される AI と ML の 10 大アプリケーション

人工知能 (AI) と機械学習 (ML) は、データセンター分野の重要なテクノロジーとなっています。...