AI声優が偽の声を本物らしくする方法

AI声優が偽の声を本物らしくする方法

AI音声スタートアップ企業のソナンティックは、オーディオディープフェイクで小さな進歩を遂げ、からかったり誘惑したりといった微妙な感情を表現できる合成音声を作成したと発表した。同社によれば、進歩の鍵は音声に非言語音を取り入れることであり、AIモデルを訓練して、小さな息づかいの口笛やちょっとした冗談、半ば隠れた笑い声を再現し、AIの声に本物の生体認証特性を与えるという。

ソナンティックの研究目標は、人工知能が怒り、恐怖、幸福、悲しみ、愛情などの微妙な感情をシミュレートできるかどうかを確認することです。

ソナンティック社の最高経営責任者ジーナ・クレシ氏は、同社のソフトウェアを「サウンド版Photoshop」と表現している。そのインターフェースでは、ユーザーは合成したい音声を入力し、話し方のトーンを指定して、その多くが実際の俳優をモデルにした AI 音声のコレクションから選択することができます。これは決してユニークな製品ではありません (Descript などの競合他社も同様の製品を販売しています) が、Sonantic はカスタマイズのレベルが競合他社よりも深いと述べています。

感情の選択肢には、怒り、恐怖、悲しみ、幸福、喜びなどがあります。今日の新しい選択肢には、いちゃつく、恥ずかしがり屋、からかう、自慢するといったことも含まれます。 「ディレクター モード」では、音声のピッチを調整したり、音声の強さを上げたり下げたりできるほか、笑い声や呼吸音などの非言語的な音も調整できます。

これが Sonantic の主な機能です。パフォーマンスを監督、制御、編集、形成する機能です。現在、同社の顧客のほとんどはゲームスタジオやエンターテインメントスタジオですが、同社は他の業界にも進出しています。同社は以前、メルセデス・ベンツとの協力(車載デジタルアシスタントのカスタマイズ)に合意したばかりだった。

しかし、この種のテクノロジーではよくあることですが、Sonantic の成果の真のベンチマークは、洗練された PR 対応のデモではなく、機械学習モデルのオーディオです。

AI音声の効果を最大化するために人工的な最適化が行われます。これは、自動運転車など、多くの AI の取り組みに当てはまります。自動運転車は、非常に基本的な運転の自動化には成功していますが、人間の能力の最後の最も重要な 5% を達成するのにまだ苦労しています。つまり、完全に自動化され、完全に信頼できる AI 音声合成が実現されるまでには、まだ長い道のりがあるということです。

しかし、技術的な問題そのものを超えて、ソナンティックの研究は他の疑問も提起している。例えば、誘惑AIを導入することの倫理性は何か?このようにリスナーを操作するのは公平か?そして、なぜソナンティックは誘惑アバターを女性にしたのか?(この選択は、男性優位のテクノロジー業界における微妙な性差別なのか?)

ソナンティック社は、スパイク・ジョーンズ監督の2013年の映画「her」にインスピレーションを受けたという理由だけで女性の声を選んだと述べた。この映画では、主人公はサマンサという女性の人工知能アシスタントに恋をする。一方、ソナンティックは、新技術の開発に伴う倫理的なジレンマを認識しており、AI音声をどのように、どこで使用するかについて非常に慎重になっていると述べた。

CEO の Qureshi 氏は次のように語っています。「これが、私たちがエンターテインメント事業にこだわる最大の理由の 1 つです。最高のエンターテインメント製品やシミュレーションに使用されているからです。」

AI音声合成を他のエンターテイメント製品と比較するのは合理的です。結局のところ、映画やテレビ番組では何が本物かがわかります(それらはすべて偽物だからです)。

しかし、AI によって、このような操作が大規模に展開されるようになり、個々のケースへの影響にはあまり注意が払われなくなることにも留意することが重要です。たとえば、世界中で(国内も含め)、人々は AI チャットボットと関係を築き始め、恋に落ちることさえあります。これらのロボットに AI 生成の音声を追加すれば、ロボットの能力は確実に高まりますが、こうしたシステムや他のシステムをどのように設計すべきかという疑問が生じます。 AI の音声が説得力のある口説き方をできるとしたら、あなたに何をさせるのでしょうか?


<<:  ディープラーニングモデルアーキテクチャを視覚化する6つの一般的な方法の概要

>>:  人工知能アルゴリズムが核融合の応用に一歩近づく

推薦する

顔認識は安全ですか?どのような個人情報を慎重に保護すべきでしょうか?

デジタル化が進むにつれ、消費者は便利なインターネットサービスを体験できるようになり、携帯電話でタオバ...

機械学習ソート入門 LTR - 線形モデル

[[207418]]多くの検索専門家は、「機械学習を通じて最適な重みを取得し」、それを検索クエリに使...

...

...

Python が Java や C/C++ に勝って機械学習に最適な言語である理由!

Python は、1989 年にオランダ人の Guido van Rossum によって発明され、...

生死に関わる問題:病院のICU病棟で人工知能は何ができるのか?

病院の集中治療室 (ICU) では、重病の患者を一日中一連の機器に接続し、いつでもバイタルサインを監...

TensorFlow 機械学習の初心者向けガイド: 線形回帰を実装するには?

TensorFlow 入門記事: 初心者でも理解できる TensorFlow 入門小学校で受けた理...

5400億パラメータの大規模モデル進化ツリーが大幅に更新されました!最も詳細なプロンプトスキルを備えた85ページのLLM開発履歴

4月にリリースされるや否や開発者コミュニティで話題となった大規模言語モデルの概要が更新されました!こ...

チームメイトが機械の場合: CISO が AI について尋ねるべき 8 つの質問

AI は、私たちが行うほぼすべての方法を変えています。私たちが行くところすべてで、かつては人間が行っ...

ヘルスケアにおける人工知能:現在と未来

IDCが発表した最新データによると、ソフトウェア、ハードウェア、サービスを含む世界の人工知能の収益は...

いつ表面的に調べ、いつ深く掘り下げるべきか - 機械学習は1ページで説明できるものではありません

機械学習、ディープラーニング、人工知能の台頭は議論の余地のない事実となり、コンピュータサイエンスの分...

2019年に解決すべき11のAI倫理的ジレンマ

ビッグデータダイジェスト制作編集者: Luan Hongye、Aileen今こそAIの倫理について議...

リアルタイムの洞察を強化: コンピューター ビジョンとエッジ コンピューティングの相乗効果

今日の急速に変化する世界では、最先端技術のシームレスな統合がイノベーションの基盤となっています。その...

ディープラーニングの将来の発展に向けた3つの学習パラダイム:ハイブリッド学習、コンポーネント学習、簡易学習

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...