AI声優が偽の声を本物らしくする方法

AI音声スタートアップ企業のソナンティックは、オーディオディープフェイクで小さな進歩を遂げ、からかったり誘惑したりといった微妙な感情を表現できる合成音声を作成したと発表した。同社によれば、進歩の鍵は音声に非言語音を取り入れることであり、AIモデルを訓練して、小さな息づかいの口笛やちょっとした冗談、半ば隠れた笑い声を再現し、AIの声に本物の生体認証特性を与えるという。

ソナンティックの研究目標は、人工知能が怒り、恐怖、幸福、悲しみ、愛情などの微妙な感情をシミュレートできるかどうかを確認することです。

ソナンティック社の最高経営責任者ジーナ・クレシ氏は、同社のソフトウェアを「サウンド版Photoshop」と表現している。そのインターフェースでは、ユーザーは合成したい音声を入力し、話し方のトーンを指定して、その多くが実際の俳優をモデルにした AI 音声のコレクションから選択することができます。これは決してユニークな製品ではありません (Descript などの競合他社も同様の製品を販売しています) が、Sonantic はカスタマイズのレベルが競合他社よりも深いと述べています。

感情の選択肢には、怒り、恐怖、悲しみ、幸福、喜びなどがあります。今日の新しい選択肢には、いちゃつく、恥ずかしがり屋、からかう、自慢するといったことも含まれます。「ディレクターモード」では、音声のピッチを調整したり、音声の強さを上げたり下げたりできるほか、笑い声や呼吸音などの非言語的な音も調整できます。

これが Sonantic の主な機能です。パフォーマンスを監督、制御、編集、形成する機能です。現在、同社の顧客のほとんどはゲームスタジオやエンターテインメントスタジオですが、同社は他の業界にも進出しています。同社は以前、メルセデス・ベンツとの協力（車載デジタルアシスタントのカスタマイズ）に合意したばかりだった。

しかし、この種のテクノロジーではよくあることですが、Sonantic の成果の真のベンチマークは、洗練された PR 対応のデモではなく、機械学習モデルのオーディオです。

AI音声の効果を最大化するために人工的な最適化が行われます。これは、自動運転車など、多くの AI の取り組みに当てはまります。自動運転車は、非常に基本的な運転の自動化には成功していますが、人間の能力の最後の最も重要な 5% を達成するのにまだ苦労しています。つまり、完全に自動化され、完全に信頼できる AI 音声合成が実現されるまでには、まだ長い道のりがあるということです。

しかし、技術的な問題そのものを超えて、ソナンティックの研究は他の疑問も提起している。例えば、誘惑AIを導入することの倫理性は何か？このようにリスナーを操作するのは公平か？そして、なぜソナンティックは誘惑アバターを女性にしたのか？（この選択は、男性優位のテクノロジー業界における微妙な性差別なのか？）

ソナンティック社は、スパイク・ジョーンズ監督の2013年の映画「her」にインスピレーションを受けたという理由だけで女性の声を選んだと述べた。この映画では、主人公はサマンサという女性の人工知能アシスタントに恋をする。一方、ソナンティックは、新技術の開発に伴う倫理的なジレンマを認識しており、AI音声をどのように、どこで使用するかについて非常に慎重になっていると述べた。

CEO の Qureshi 氏は次のように語っています。「これが、私たちがエンターテインメント事業にこだわる最大の理由の 1 つです。最高のエンターテインメント製品やシミュレーションに使用されているからです。」

AI音声合成を他のエンターテイメント製品と比較するのは合理的です。結局のところ、映画やテレビ番組では何が本物かがわかります（それらはすべて偽物だからです）。

しかし、AI によって、このような操作が大規模に展開されるようになり、個々のケースへの影響にはあまり注意が払われなくなることにも留意することが重要です。たとえば、世界中で（国内も含め）、人々は AI チャットボットと関係を築き始め、恋に落ちることさえあります。これらのロボットに AI 生成の音声を追加すれば、ロボットの能力は確実に高まりますが、こうしたシステムや他のシステムをどのように設計すべきかという疑問が生じます。 AI の音声が説得力のある口説き方をできるとしたら、あなたに何をさせるのでしょうか?

<<: ディープラーニングモデルアーキテクチャを視覚化する6つの一般的な方法の概要

>>: 人工知能アルゴリズムが核融合の応用に一歩近づく