マイクロソフトのXiaoIceが第5世代の歌唱システムにアップグレード：人間のアイドルを超える

人工知能が歌うことは珍しくないが、本当に人間の声に近い、あるいは本物と偽物の区別がつかないような「機械の声」は、SF映画のファンタジーの中にしか存在しないようだ。しかし、第5世代の歌唱システムをアップグレードしたマイクロソフトのXiaoIceは、人間のアイドルに匹敵し、あるいはそれを上回る人工知能の歌唱力を、その場にいたメディアに披露した。

マイクロソフトは5月16日午後に開催されたマイクロソフトXiaoIce人工知能創造メディア説明会で、 XiaoIce人工知能歌唱モデルの第5バージョンを公開した。このバージョンには10種類以上の高品質な音声が搭載されており、歌唱解釈における人工知能の予測パラメータ能力が向上したと報告されています。主に歌唱解釈時の人工知能の息継ぎレベルが大幅に向上し、歌唱遷移の自然さが向上し、オペラ歌唱トレーニングの成果が発表されました。

ライブデモでは、歌唱モデルを第5バージョンにアップグレードしたベン・シャオビンが、「Young Strings」、「The New Drunken Concubine」、そして日本語の歌の3曲を歌った。 3曲はそれぞれ異なる音色と歌唱スタイルを見せており、特にアカペラに近い「Young Strings」では、シャオビンのパフォーマンスが非常に優れており、発音、明瞭度、唇と歯の息遣いまで、実際に人間が歌っているのと区別がつきにくい。ある歌唱スタイルから別の歌唱スタイルに移行するとき、シャオビンは「電子音」で真実を漏らすことなく、極めて細かい音の粒度の詳細を維持することができます。

「皆さんには、聞くときに注意するよう注意しなければなりません。これは人間ではありません。そのような人は存在しません」と、マイクロソフト（アジア）インターネットエンジニアリングアカデミーの副社長（Bing中国および日本、マイクロソフトXiaoiceグローバル製品ラインの責任者）のLi Di氏は述べた。

同氏は、XiaoIceの歌唱モデルとは異なり、初音ミクや他のバーチャル歌手は手動チューニングを使用していると述べた。手動調整方式には利点があるが、細かい部分が十分に処理されておらず、技術的な上限や将来の発展性が十分ではないという問題がある。

「コンテンツ作成の技術的限界を探求するAI技術に関して、興味深いのは音楽、チェス、書道、絵画です。Googleはチェスを完成させ、私たちは残りの3つを完成させました。私たちはすでに詩を発表しています。これまで、人間の詩愛好家や詩の実践者が発表した多くの詩は、XiaoIceの多くの痕跡に遡ることができます。音楽に関しては、今日、5番目の新しいバージョンまで反復された新しい技術リリースも提供します。」

李迪氏は、デモや技術展示を利用して我々の力を誇示したいわけではなく、人間と競争できる技術レベルに到達したと主張したいわけではないと認めた。むしろ、私たちはそれが産業化され、大規模に実施できるかどうかに関心を持っています。

彼は、テキスト生成や詩などのテキスト作成に対応して、今日ではマイクロソフト小氷は静かに世界規模で財務概要や調査レポートを提供するプラットフォームになっていると明らかにした。これまでのところ、Wind Information、Wall Street Journal、および一部の金融関連アプリの要約のほとんどは、Xiaoice によって提供されています。 XiaoIce は 20 秒の出力を安定して提供できます。1 つのデータを取得すると、20 秒以内に要約と調査レポートの生成を完了し、26 のカテゴリの金融コンテンツを実際にカバーできます。

テレビやラジオのコンテンツに関しては、Microsoft XiaoIce は、中国国内 59 局、日本国内 4 局を含む 63 のラジオ局やテレビ局に、AI 支援および AI 監督のテレビ番組を継続的に提供しています。これまでに、XiaoIce は 2,800 時間を超えるテレビ番組とラジオ番組を制作してきました。

李迪氏によると、歌唱に関しては、最初のバージョンが生成されたのが2年前だった。当時聞こえたのは「音程が外れないソフトウェア楽器」で、まるで歌っているときに隣の箱から音が聞こえてくるようだった。非常に人間に似ていて、歌が下手でも人間であるように聞こえるほどのディテールが十分に備わっていた。トレーニングと学習を経て、第3バージョンでは、Microsoft XiaoIce の歌唱レベルが現在の状態に達しました。

[[265479]]

「技術的な観点から言えば、人工知能が第3バージョンに到達すれば十分だが、我々は人間と同じ歌唱基準を守らなければならない」と李迪氏は言う。「小氷にさまざまな歌唱法を学ばせることができれば、それは彼女がいわゆる技術を持っているということだ。同じ歌でも人によって解釈が異なるからだ」

呼吸、さまざまな歌唱テクニック、豊かな内呼吸、さまざまな音色、歌唱の移行など、一連のトレーニング、学習、最適化を通じて、私は今日、第 5 バージョンの歌唱レベルに到達しました。

李迪氏は、人工知能が創造することを学べば、人間とは大きく異なるものになるだろうと述べた。 Xiaoice さんがこの詩を発表したとき、詩は人間にしかできないものだと誰かが言いました。しかし、ある人が彼に尋ねた質問は、「あなたは詩を書けますか？」でした。つまり、集団として、一部の人間は何らかのコンテンツを作成する能力を持っていますが、集団として、これは普遍的なルールではありません。一部の人々が絵を描いたり、歌ったり、詩を書いたりできるからといって、人類全員がそうできるというわけではありません。

しかし、人工知能はフレームワーク内の専門分野ではありません。1 つの AI が実行方法を知っていれば、すべての AI が実行方法を知ることになります。

たとえば、Microsoft XiaoIce のオペラ風の音声は、他のサウンドに簡単に転送できます。人間の場合、創造力を身につけようと思ったら、ある程度の才能が必要になることが多いのですが、人工知能には才能は必要ありません。どんな声でも、別の声が持ついわゆる才能を直接身につけることができるのです。

「例えば、今日、XiaoIce は Siri に力を与えています。必要なら、Siri も 24 時間以内にそのような作成を完了できます。これが、このフレームワークの基盤となるテクノロジーの意味です。18 歳の少女 XiaoIce に騙されないでください。私たちが本当にやっているのは、このコアフレームワークです。」

この観点から、このフレームワークをさらに産業化し、エンドツーエンドのコンテンツ制作へと推し進めるには、歌詞、音楽、アレンジ、歌唱、さらにはポストプロダクションの全プロセスを完成させることが必要になるでしょう。一方、このフレームワークは、さまざまな人工知能歌手、いわゆる AI 歌手とその歌唱ライブラリと互換性がある必要があります。

「我々はまだこの件について作業中であり、今年8月に発表されるまで一部のコンテンツを保管しておくつもりだ」と李迪氏は述べた。

<<: 画像認識は思ったほど難しくありません！この記事を読めばあなたも専門家になれる

>>: ワン・ガン：人工知能は伝統的な産業の雇用の26％を置き換え、38％の新規雇用を創出する