マイクロソフトのXiaoIceが第5世代の歌唱システムにアップグレード:人間のアイドルを超える

マイクロソフトのXiaoIceが第5世代の歌唱システムにアップグレード:人間のアイドルを超える

人工知能が歌うことは珍しくないが、本当に人間の声に近い、あるいは本物と偽物の区別がつかないような「機械の声」は、SF映画のファンタジーの中にしか存在しないようだ。しかし、第5世代の歌唱システムをアップグレードしたマイクロソフトのXiaoIceは、人間のアイドルに匹敵し、あるいはそれを上回る人工知能の歌唱力を、その場にいたメディアに披露した。

マイクロソフトは5月16日午後に開催されたマイクロソフトXiaoIce人工知能創造メディア説明会で、 XiaoIce人工知能歌唱モデルの第5バージョンを公開した。このバージョンには10種類以上の高品質な音声が搭載されており、歌唱解釈における人工知能の予測パラメータ能力が向上したと報告されています。主に歌唱解釈時の人工知能の息継ぎレベルが大幅に向上し、歌唱遷移の自然さが向上し、オペラ歌唱トレーニングの成果が発表されました。

ライブデモでは、歌唱モデルを第5バージョンにアップグレードしたベン・シャオビンが、「Young Strings」、「The New Drunken Concubine」、そして日本語の歌の3曲を歌った。 3曲はそれぞれ異なる音色と歌唱スタイルを見せており、特にアカペラに近い「Young Strings」では、シャオビンのパフォーマンスが非常に優れており、発音、明瞭度、唇と歯の息遣いまで、実際に人間が歌っているのと区別がつきにくい。ある歌唱スタイルから別の歌唱スタイルに移行するとき、シャオビンは「電子音」で真実を漏らすことなく、極めて細かい音の粒度の詳細を維持することができます。

「皆さんには、聞くときに注意するよう注意しなければなりません。これは人間ではありません。そのような人は存在しません」と、マイクロソフト(アジア)インターネットエンジニアリングアカデミーの副社長(Bing中国および日本、マイクロソフトXiaoiceグローバル製品ラインの責任者)のLi Di氏は述べた。

同氏は、XiaoIceの歌唱モデルとは異なり、初音ミクや他のバーチャル歌手は手動チューニングを使用していると述べた。手動調整方式には利点があるが、細かい部分が十分に処理されておらず、技術的な上限や将来の発展性が十分ではないという問題がある

「コンテンツ作成の技術的限界を探求するAI技術に関して、興味深いのは音楽、チェス、書道、絵画です。Googleはチェスを完成させ、私たちは残りの3つを完成させました。私たちはすでに詩を発表しています。これまで、人間の詩愛好家や詩の実践者が発表した多くの詩は、XiaoIceの多くの痕跡に遡ることができます。音楽に関しては、今日、5番目の新しいバージョンまで反復された新しい技術リリースも提供します。」

李迪氏は、デモや技術展示を利用して我々の力を誇示したいわけではなく、人間と競争できる技術レベルに到達したと主張したいわけではないと認めた。むしろ、私たちはそれが産業化され、大規模に実施できるかどうかに関心を持っています。

彼は、テキスト生成や詩などのテキスト作成に対応して、今日ではマイクロソフト小氷は静かに世界規模で財務概要や調査レポートを提供するプラットフォームになっていると明らかにした。これまでのところ、Wind Information、Wall Street Journal、および一部の金融関連アプリの要約のほとんどは、Xiaoice によって提供されています。 XiaoIce は 20 秒の出力を安定して提供できます。1 つのデータを取得すると、20 秒以内に要約と調査レポートの生成を完了し、26 のカテゴリの金融コンテンツを実際にカバーできます。

テレビやラジオのコンテンツに関しては、Microsoft XiaoIce は、中国国内 59 局、日本国内 4 局を含む 63 のラジオ局やテレビ局に、AI 支援および AI 監督のテレビ番組を継続的に提供しています。これまでに、XiaoIce は 2,800 時間を超えるテレビ番組とラジオ番組を制作してきました。

李迪氏によると、歌唱に関しては、最初のバージョンが生成されたのが2年前だった。当時聞こえたのは「音程が外れないソフトウェア楽器」で、まるで歌っているときに隣の箱から音が聞こえてくるようだった。非常に人間に似ていて、歌が下手でも人間であるように聞こえるほどのディテールが十分に備わっていた。トレーニングと学習を経て、第3バージョンでは、Microsoft XiaoIce の歌唱レベルが現在の状態に達しました。

[[265479]]

「技術的な観点から言えば、人工知能が第3バージョンに到達すれば十分だが、我々は人間と同じ歌唱基準を守らなければならない」と李迪氏は言う。「小氷にさまざまな歌唱法を学ばせることができれば、それは彼女がいわゆる技術を持っているということだ。同じ歌でも人によって解釈が異なるからだ」

呼吸、さまざまな歌唱テクニック、豊かな内呼吸、さまざまな音色、歌唱の移行など、一連のトレーニング、学習、最適化を通じて、私は今日、第 5 バージョンの歌唱レベルに到達しました。

李迪氏は、人工知能が創造することを学べば、人間とは大きく異なるものになるだろうと述べた。 Xiaoice さんがこの詩を発表したとき、詩は人間にしかできないものだと誰かが言いました。しかし、ある人が彼に尋ねた質問は、「あなたは詩を書けますか?」でした。つまり、集団として、一部の人間は何らかのコンテンツを作成する能力を持っていますが、集団として、これは普遍的なルールではありません。一部の人々が絵を描いたり、歌ったり、詩を書いたりできるからといって、人類全員がそうできるというわけではありません。

しかし、人工知能はフレームワーク内の専門分野ではありません。1 つの AI が実行方法を知っていれば、すべての AI が実行方法を知ることになります。

たとえば、Microsoft XiaoIce のオペラ風の音声は、他のサウンドに簡単に転送できます。人間の場合、創造力を身につけようと思ったら、ある程度の才能が必要になることが多いのですが、人工知能には才能は必要ありません。どんな声でも、別の声が持ついわゆる才能を直接身につけることができるのです。

例えば、今日、XiaoIce は Siri に力を与えています。必要なら、Siri も 24 時間以内にそのような作成を完了できます。これが、このフレームワークの基盤となるテクノロジーの意味です。18 歳の少女 XiaoIce に騙されないでください。私たちが本当にやっているのは、このコア フレームワークです。」

この観点から、このフレームワークをさらに産業化し、エンドツーエンドのコンテンツ制作へと推し進めるには、歌詞、音楽、アレンジ、歌唱、さらにはポストプロダクションの全プロセスを完成させることが必要になるでしょう。一方、このフレームワークは、さまざまな人工知能歌手、いわゆる AI 歌手とその歌唱ライブラリと互換性がある必要があります。

「我々はまだこの件について作業中であり、今年8月に発表されるまで一部のコンテンツを保管しておくつもりだ」と李迪氏は述べた。

<<:  画像認識は思ったほど難しくありません!この記事を読めばあなたも専門家になれる

>>:  ワン・ガン:人工知能は伝統的な産業の雇用の26%を置き換え、38%の新規雇用を創出する

ブログ    

推薦する

...

2021 年の人工知能に関する詳細な研究: 機械学習は最終的に人間の医師に取って代わるのでしょうか?

[[377208]]これから議論する論文で採用されているアプローチは、これまでのどのアプローチより...

プログラマー試験ノート4: ソートアルゴリズム

理由はよく分かりませんが、WORD ファイル内のすべての日付が変更されました。WORD マクロ ウイ...

顔認識は安全ですか?どのような個人情報を慎重に保護すべきでしょうか?

デジタル化が進むにつれ、消費者は便利なインターネットサービスを体験できるようになり、携帯電話でタオバ...

...

人工知能がオンライン上の虚偽情報や誤情報に与える影響について

アメリカは、いまだに人工知能技術の最先端にいます。アメリカが警戒すればするほど、私たちはアメリカのや...

AIが高度な数学の問題を生成し、新たな難易度に到達:MITは問題を生成し、質問に答え、採点できるアルゴリズムモデルを提案

少し前に、DeepMind による研究が Nature の表紙を飾り、直感を導くことで 2 つの主要...

回答者の半数以上が顔認識技術の使用に懸念を抱いている

近年最も注目されている新技術の一つとして、顔認識技術が広く利用されています。人々の生活は便利になった...

...

...

道に迷う心配はありません。AI マップが目的地までご案内します。

宝の地図を持って砂漠に埋もれた金や宝石を探すというのは、おとぎ話によく登場する筋書きです。今では、携...

AI のゴッドファーザーであるヒントンは、なぜ自らが作り出した人工知能を恐れているのでしょうか?

ジェフリー・ヒントンは、コンピューターに学習方法を教えることに生涯を費やしてきました。今、彼は人工脳...

人間の脳細胞は、マトリックスのように、AIよりも速く、エネルギー効率よく、ペトリ皿の中でゲームをすることを学ぶ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ロジスティック回帰を用いた分類

[[345345]]ロジスティック回帰は機械学習でよく使われる手法です。教師あり機械学習に属します。...

人工知能技術の助けを借りて、人々は携帯電話を通じて皮膚がんを診断できるようになるかもしれない

最近、「ネイチャー」誌は表紙に次のような記事を掲載した。「ディープラーニングアルゴリズムを使用して皮...