あらゆる人間の声を再現できるAI技術

あらゆる人間の声を再現できるAI技術

ポッドキャスト業界は、よりリラックスした、自然でカジュアルなオーディオストーリーテリングへと移行しています。あまり深刻な言葉を使わないこのコミュニケーション形式は、司会者と聴衆の間のコミュニケーション距離を縮めることにも成功しました。

[[343209]]

つまり、アンカーは、コンテンツの理解と応答の難しさを軽減するために、できる限り話し言葉を使用します。まさにこの理解しやすいという利点のせいで、音声ナレーションはますます人気が高まっており、関連する調査データもこの発展傾向を証明しています。

Statistaが発表した統計によると、米国のポッドキャストリスナー数は2018年に7,500万人に達し、2024年までに月間リスナー数は1億6,400万人に増加すると予測されています。ポッドキャストリスナーの年平均成長率は、2019年から2023年の間に17%に達すると予測されています。

2020年、アメリカ人の4分の3がポッドキャストが何であるかを正確に知っており、調査対象者の半数以上(55%)がすでにポッドキャストを聴き始めています。世界で最も収益の高いポッドキャストであるジョー・ローガンの「The Joe Rogan Experience」は、2019年に最大5,000万ドルの売上を上げ、毎月2億回近くダウンロードされました。

現在、ポッドキャスト業界が直面している主な問題は、コンテンツの独立性を維持しながら、業界の急速な成長をサポートするために必要なリソースをどのように入手するかということです。最後に、人工知能などの画期的な技術によってもたらされた音声複製機能は、重要な解決策、少なくとも部分的な解決策となる可能性があるという点に触れておきます。

ニクソン プロジェクトを例に挙げてみましょう。このプロジェクトでは、AI 技術が人間の音声効果と何ら変わらない音声効果を完全に再現できることが説得力を持って実証されました。 MITの研究者、ジャーナリスト、アーティストのチームが、音声クローン会社RespeecherおよびVDR会社Canny AIと協力し、初の月面着陸通話の模擬トランスクリプトを作成した。ただし今回は、宇宙飛行士のアームストロングとオルドリンがミッションに失敗し、月面に取り残されている。

彼らは、当時のニクソン米大統領が月面着陸の悲劇的な失敗を世界に発表するビデオを「偽造」した。

ポッドキャストとAIが出会うとき

コンピューターによる音声処理の主な課題は、ロボットのような発音を避けながら、人間の表現とそのさまざまなニュアンスを再現することです。微妙な音の変化を識別して再現することに関しては、AI ベースの音声変換技術が実現可能な開発の道筋を示しています。

Apple Sir、Amazon Alexa、Microsoft Cortana、Google Assistant などの音声アシスタントは、依然としてテキスト読み上げ技術を使用しています。この技術は確かに便利ですが、異なる音声タイプを実現するのは困難です。 Siriを例にとると、老人の音声効果を実現するには、膨大な録音済みファイルを導入する必要があるだけでなく、Siriは音声ファイルに含まれていない単語を処理することもできません。この点で、AI を活用した音声変換は新たなブレークスルーとなりました。

AI音声クローンをポッドキャストに適用するにはどうすればいいでしょうか?

人工知能は音声の複製を実現できるだけでなく、あらゆるポッドキャスト プログラムのすべての音声効果を完璧に複製することもできます。ここで使用されているのは、「スマートカクテル」と呼ばれる古典的なデジタル信号処理アルゴリズムと専用のディープ生成モデリング技術です。これにより、コンテンツ制作者は、これまで実現が困難だった録音効果(たとえば、アナウンサーに他の仕事がある場合や、亡くなった声優の声を再現する必要がある場合)を解決するために、最も適切な音声を使用することができます。

ポッドキャスト制作分野における音声クローン技術の使用例をいくつか紹介します。

1. 有名人を番組に呼ぶ

有名な俳優や作家、アスリートなどを番組に参加させることは難しいですが、AI技術を使って彼らの声を再現すれば、わざわざスタジオまで来てもらうことなく、簡単に同じ効果を得ることができます。これにより、リスナーは好みの声を聞くことができ、番組制作者やタレントは手間を省くことができる。

2. 昔の音を再発見する

音声クローンにより、亡くなった俳優が再び声を出すことができるようになります。ケネディ大統領に歴史ポッドキャストのナレーションをしてもらいたいですか? 問題ありません。音声変換技術により、彼の声を正確に再現できます。そうです、単に「似ている」のではなく、本当に完璧な再現です。

3. 長時間の作業を強いることなく、子どもの声を使って読み聞かせる

子どもたちが話すのを聞くのはいつも興味深いことです。興味は必ずしも内容に反映されるのではなく、むしろ声、調子、イントネーションに反映されます。しかし、子供たちと一緒に働くのは非常に大変です。音声合成技術により、プロの俳優が子供のセリフを読み上げ、それを子供っぽい声の効果音に変換できるため、番組制作プロセスが大幅に簡素化されます。

4. ポッドキャストのタイムリーな放送を確実にするために、番組制作の進捗を迅速に進める

AIは人間の声を瞬時に再現し、短時間で高品質なターゲット音声結果を提供します。

要約する

2017 年、世界のポッドキャスト市場は最大 2 億 2,000 万ドルの広告収入をもたらし、毎年倍増しています。ユーザーエンゲージメントの向上は、潜在的な広告主を引き付ける中核的な原動力となるでしょう。さらに、ポッドキャスト内の広告は実は非常に効果的で、調査によれば、そのような広告の視聴完了率はほぼ 90% に達しています。

さらに、広告主は特定のポッドキャスト番組に対して最大 30 ドルの CPM (インプレッション 1,000 回あたりのコスト) を支払う用意もあります。これだけ聞くとあまりイメージがわかない数字かもしれませんが、Facebook の広告表示 1,000 回あたりのコストは約 6 ドルです。

オンラインテレビがゆっくりと、しかし確実にケーブルテレビに取って代わっているように、ポッドキャストや従来のラジオにも同じことが起きているようです。そして、従来のラジオ広告の観点から見ると、ポッドキャスト業界は少なくともさらに 200 億ドルの収益をもたらす可能性があります。冒頭でも述べたように、ポッドキャストはもともとラジオを聴いていなかった層を多く取り込むことができるため、収益成長への期待は大きい。

これらの調査数値は、ポッドキャストビジネスが今後も長く存続することを示していますが、オーディオコンテンツの制作者にとっては、より効率的かつ効果的な番組制作方法を見つけることが急務となっています。

おそらく、AI 音声クローン技術は、ポッドキャスト業界がコンテンツの独立性とプログラム制作リソースの要件の完璧なバランスを見つけるのに役立つ究極のソリューションです。

<<:  人工知能技術は成熟しており、AI音声業界は幅広い発展の見通しを迎えている

>>:  バイトダンスが声明を発表:アルゴリズムや技術の移転は行われていない

ブログ    
ブログ    

推薦する

...

自動運転の未来 - 4Dミリ波レーダー

現在、自動運転車の知覚の実現は、車両に搭載されたレーザーレーダー、車載カメラ、ミリ波レーダーなどのセ...

...

iSoftStone ロボットカスタマーサービス Rglam (Ange): ナレッジグラフと NLP エンジンを備えた高精度の会話型ロボットの構築

企業のデジタル変革が深まるにつれ、人工知能技術はますます成熟し、ロボットによる顧客サービスは数千の業...

張衛斌:金融ビッグデータリスク管理モデリングは単なるデータとアルゴリズム以上のもの

2016年3月、中国データ最高責任者連盟が「中国ビッグデータ産業の発展に影響を与える100人」大規模...

EleutherAIが200億パラメータのGPT風モデルを発表: GPT-3とは異なり、無料でオープン

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

中国聯通の専門家:5Gは5つの側面からAIを取り入れるべき

5Gは大規模なアンテナシステムと超高密度ネットワーク技術を採用し、スペクトル共有やD2Dなどの複雑な...

...

...

マイクロソフト、画像やテキスト内のネガティブなコンテンツを削減する Azure AI コンテンツ セーフティを発表

海外メディアの報道によると、マイクロソフトは10月20日、アプリケーションやサービス内の有害な人工知...

AIがピークを迎える中、CIOはクラウドコンピューティングのコスト戦略を強化

AIがピークを迎える中、CIOはクラウドコンピューティングのコスト戦略を強化クラウド コンピューティ...

...

AI投資から利益を得るための3つの鍵

人工知能 (AI) の専門家や機械学習 (ML) サービスの利用可能性が高まるにつれて、AI は多く...

人工知能企業が利益を上げるのは難しいと言われていますが、具体的に何が難しいのでしょうか?

[[272155]] 2016年にAlphaGoが「人間対機械」の競争に勝利して以来、人工知能への...