19 世紀以前、人々が集まるときには、人生の物語を語り、感情や考えを伝えるために、常に最も原始的な歌や楽器が使われていました。当時の音楽は流れるような、瞬間的なものでした。 1857年以降、録音の出現により、人々はいつでもどこでも優れた音楽を楽しむことができるようになりました。この形態では、音楽は決まった物語となり、聴衆は受動的な受け手となりました。 時間が経ちます。 2023年現在、人工知能は音楽の形を変えつつあり、便利な操作を通じて、一般の人々が簡単に音楽作品を制作できるようになっています。 「ギターを弾く」から「AIを弾く」まで、音楽制作が手の届く範囲になってきています。 ベテランアナリストのマーク・マリガン氏は、何十年も音楽業界を観察してきた。少し前に、同氏は自身のブログにこう書いている。「音楽業界は重大な局面を迎えている。AIは音楽の未来を変えるだろう。今や、瓶の中の精霊は広大な空へと飛び去ってしまったのだ。」 合成「歌う歴史」ファンとしては、今年最も人気のある曲の 1 つがステファニー・サンが歌う「Hair Like Snow」だとは思わなかったかもしれません。もっと正確に言えば、AI の Stefanie Sun です。 オルタナティブシンガー「Fa Ruxue」の突然の人気は、ネット上で創作の波を引き起こし、AIシンガーの概念を広め、音楽分野における人工知能の巨大な可能性をより多くの人々に感じさせました。 しかし、AI歌手といえば、多くの人の最初の反応は、人気のバーチャル歌手である初音ミクと洛天依であるはずです。ファンは、声も容姿もほぼ完璧であるこれらの AI 歌手に驚嘆するが、コンピューターを使用して音楽を合成する技術が 1950 年代にすでに登場していたことを知らない人も多いだろう。不完全な統計によれば、歌声合成の歴史は 70 年に及ぶ。
長く秘密裏に進化してきたボーカル合成技術において、AI シンガーの登場は画期的な製品と言えるでしょう。この成長の歴史を理解するには、次の 2 つの重要なポイントを理解しておく必要があります。 まず、AI 歌手に関わる技術は、主に歌声合成 (SVS) と歌声変換 (SVC) の 2 つのカテゴリに分類され、主な開発は歌声合成、つまり SVS にあります。第二に、一般的に、歌声合成はスプライシング合成とAI合成の2つの主要な方向に分けられ、開発の過程で前者から後者へと徐々に進化しています。 一般によく知られている有名バーチャルシンガーの初音ミクや洛天誅は、技術的にはスプライシング合成方式を採用しており、当初はVOCALOIDエンジン(ソフトウェア)を採用していました。このタイプのスプライシングおよび合成エンジンは、手動調整に依存しています。調整可能なパラメータと調整の精度は、クリエイティブな効果に直接影響します。完全に手動で調整することは、初心者が始めるのが難しく、制作にはより多くの労力が必要です。 UP司会のYou ADC Iアシスタントは、スプライシング合成は異なる発音の録音、アレンジ、スプライシングを通じて歌を合成するものなので、音域が広く編集の自由度が高いという利点があるが、一貫性が欠けるとし、「結局、本質的には一連のオーディオ素材だ」と述べた。 スプライシング合成からAI合成への移行プロセスは、技術革新であると言えます。従来のスプライシング合成とは異なり、AI合成は人工知能技術を使用して、ボーカルサンプルの歌唱法、発音、声、スタイルなどを深く学習し、その人がどのように歌うかを推測してそれを模倣します。 2009年に名古屋工業大学が開発した隠れマルコフモデルを用いた「Sinsy」。その後、CeVIOがSinsyをベースに音符やテキストを入力することで歌ったり話したりする機能を開発したが、これはスプライシングを伴わない最古の歌声合成エンジンであった。 Synthesizer V がリリースされた時点では、すでに人工ニューラル ネットワーク (人間の脳の活動を模倣する機械学習モデル) が組み込まれ始めており、これは人工知能技術とスプライシング合成を組み合わせ、両方の利点を統合していることを意味します。 Microsoft XiaoIce X studio も初期の AI エンジンの 1 つです。無料で使用できますが、現時点では他のエンジンに遅れをとっています。それに比べて、ACE は完全な後発で、Synthesizer V と同じ第一層のパフォーマンス層にあります。昨年 5 月、Luo Tianyi も ACE との提携を発表し、ACE エンジン サウンド ライブラリを立ち上げました。初期の頃、ACE は音楽作成コミュニティも提供していました。 AI合成エンジンは、人工知能計算によって自動的にサウンドを合成し、使用前に大きな変更を必要としないことが多いです(計算結果に基づいてパラメータを直接変更することもできます)。これにより、一方では製造コストが削減され、他方では、生成されるサウンドは非常に自然で滑らか、かつリアルで、動作しきい値が低くなります。 しかし、UPの司会者@HarryKamski氏は、AI合成の欠点は、音域が限られてしまうこと、また合成方法が明確ではないため「独自の考え」を持ち、チューナーの考えに完全に従うことができないことが多いことだと紹介しました。 「AI ステファニー・サン」の裏側にある歌唱力の変化SVS ボーカル合成が商業分野で人気を博す一方で、オープンソースの芽もさまざまな音楽コミュニティで密かに成長しています。そして数か月前にインターネット上で「AI ステファニー・サン」が突然爆発的に普及したことにより、SVC(歌声変換)が主流に躍り出ました。 「AI ステファニー・サン」は、広く普及しているSVS技術のルートとは異なり、歌声変換、つまりSVC技術を採用しています。両者の技術原理とユーザーエコシステムは異なります。両者の違いについて話すとき、UPの司会者Dian Guozichaが絵を描きました。 UP の司会者、Dian Guomeicha 氏は、SVS AI と SVC のどちらを使用してオーディオを生成する場合でも、まずは AI モデルを作成するためにサウンドを収集する必要があると説明しました。収集されたサウンドの品質が高いほど、モデル出力のサウンド品質も高くなります。このモデルでは、SVS はテキストとメモを入力するだけで新しいオーディオを生成できます。他の干渉がなければ、オーディオの音質は変わりません。 SVC モデルは、コンテンツを生成するために、まず既存のオーディオを入力する必要があります。良質のモデルに質の悪いオーディオを入力すると、出力されるオーディオも悪くなります。 つまり、「AI ステファニー・サン」のような AI 歌手は、本質的には AI 対応のボイスチェンジャーと理解できます。これは、元の歌詞、歌唱法、トーンなどを維持しながら、ソースオーディオの音色と声をターゲット歌手のものに置き換えます。したがって、最終的なプレゼンテーション効果は、ソースオーディオの歌唱レベルに大きく依存します。 SVS テクノロジーと比較すると、SVC は登場してからまだそれほど時間が経っていません。日本では初期に、入力したテキストを音声読み上げに変換できるボイスロイドという音声合成ソフトをリリースしました。当時は主にゲーム実況や料理チュートリアル、読書のお供などに使われていました。しかし、リアルタイムのニーズを考えると、テキスト入力は不便であるため、後に「Siren VOICE」などの AI ボイスチェンジャーが登場しました。これらは、当時は基本的に商用のクローズドソース ソフトウェアでした。 SVC がコミュニティで本格的に普及したのは、VITS (音声合成モデル) に基づくオープンソースおよびフリー ソフトウェアが登場してからであると言えます。 話題の「AIステファニー・サン」の誕生のきっかけについて、ここで触れておかなければならない人物が一人いる。VITSやSoftVCなどのプロジェクトをベースにAI音声変換ソフトso-vits-svcを開発した、国内の歌声合成マニアであるRcellだ。このソフトをベースに「AIステファニー・サン」などのAI歌手が誕生した。 so-vits-svc はオープンソースで無料であり、ローカルでトレーニングできるため、広く使用されています。so-vits-svc に加えて、他の SVC ソフトウェアには RVC、DiffSVC などがあります。 「AI ステファニー・サン」の成功に加え、SVC 技術の台頭により、個人の音楽的興味にさらなる可能性がもたらされました。 今年3月、UP司会者のYou ADC I補佐が、故歌手本喜さんが歌った「時計は反対方向」という曲をビリビリ動画にアップロードし、90年代以降の世代に数え切れないほどの思い出を呼び起こした。ネットユーザーは動画の下で感想や回想を述べ、7,000件以上のメッセージを残した。 UP司会者のYou ADC Iアシスタントは「現在、多くのネットユーザーがSVCを使って、アニメキャラクター、キャスター、有名人、さらには周囲の友人や親戚など、さまざまなキャラクターの音声ライブラリをトレーニングしています。有名人に限らず、誰の声でもトレーニングできます。SVC音声ライブラリはトレーニングが複雑ではないため、二次創作で非常に人気があります」と語った。 そのため、「AIステファニー・スン」が人気を博した後、「AIフェイ・ウォン」「AIジェイ・チョウ」「AIイーソン・チャン」が次々と登場し、歌の翻案を追求したり、亡くなった歌手を追悼したり、また違ったアプローチで郭徳剛に情熱的な日本アニメのOPを歌わせたりした。 新しい人工知能技術が登場するたびに、AIが人間に取って代わるかどうかという問題についての議論が巻き起こります。 AI歌手の本質はピアノやギターのようなものだと考える人もいます。AI歌手は楽器であり、バーチャルアイドルになろうが、生産性ツールになろうが、人間から独立して存在することはできません。もちろん、歌唱力の低い歌手は危機感を持つべきかもしれない。 AI歌手のビジネス風景AI歌手がどのような性質のものであろうと、新製品が生き残れるかどうかの核心は、技術だけでなく、健全なビジネスモデルを確立できるかどうかにかかっています。 ビジネスモデルとしては、SVSが輩出した歌手は広告宣伝、周辺商品の販売、生放送、コンサート、楽曲リリースなど、IP産業とアイドル産業が融合したものが中心です。しかし、バーチャルアイドル業界は主にファン経済に依存しており、そのサークルもニッチであり、生計を立てたい人も多く、このビジネスが簡単にできるものではないことは想像に難くない。 最も人気のある初音ミクと洛天依は、どちらも新しい技術を最初に試した人たちの一人です。一方は最初に世界的ヒットとなり、もう一方は最初に中国市場に参入し、多くのファンを魅了しました。しかし、表面的な人気の裏で、AI歌手の成功は実に稀だ。二次元文化が最も盛んな日本でも、初音ミクに代表されるような真の成功を収めた人は少ないだろう。 アイドルをベースとしたビジネスモデルに加え、もう一つの収益源として音声ライブラリの販売があります。 UP司会のYou ADC I Assistantによると、正式にリリースされたSVS音声ライブラリのほとんどは、声優自身が許可したものです。SV AIやCeVIO AIなどのソフトウェアのAI音声ライブラリは、ほとんどが買い切りシステムを採用しています。価格で購入した後、彼らのAI合成サービスを一生使用できます。 さらに、Dianguo Fruit Teaは、関連企業も現在、生産性ツールとの組み合わせなど、市場の境界を拡大しようとしていると述べた。先月、日本エーアイはUnityと連携し、AIVOICE音声合成音声ライブラリとAIVOICE技術をベースにしたUnity拡張エディタをリリースすると発表し、ユーザーは複数のソフトウェアを切り替えることなく、Unity上で直接音声コンテンツを合成できるようになる。 それに比べて、SVC の商用化の道は狭くなっています。商用ソフトウェアはあるものの、すでにオープンソースや無料の SVC が多数存在する中で、商用 SVC の利点をいかにアピールするかが大きな課題となっています。同時に、制作のハードルが低いため、SVCチャンネルはより混沌としており、低品質の作品が大量に溢れており、これもまた一部のユーザーの間で不満を引き起こしています。一方、音声は著作権者の同意なく収集されたため、SVCのAI歌手は元の歌手や作曲者の権利を侵害する可能性がある。 「グレーゾーン」の影著作権紛争は、AI 歌手が直面する大きな実際的な問題です。 歌手やレコード会社にとって、自作曲を大量に継続的に発表しなければならない状況では、著作権を認めたり損害賠償を求めて訴訟を起こしたりするのは現実的ではありません。最善の解決策は、入力側に焦点を当て、AI ツールが事前に承認されたデータセットから学習できるようにすることです。これにより、レコード会社や出版社は収益を拡大する機会を得ることになり、音楽著作権は新たなビジネスモデルの到来を告げることになるかもしれない。 このような新しいビジネスモデルは空想ではありません。 最近の報道によると、Googleとユニバーサルミュージックは、アーティストの声と音楽を使って曲を作るためにAIのライセンスを取得する交渉を行っているという。関係者によると、両者の協議はAI技術を使った音楽著作権の提携に関するものだったという。ファンが合法的にAI楽曲を作成し、著作権者に支払いができるツールを開発し、歌手が参加するかどうかを自由に選択できるようにしたいとしている。交渉はまだ初期段階にあり、当面は製品は発売されない。さらに、ワーナーミュージックもグーグルと交渉中であることが明らかになった。 著作権に加えて、音声合成には他の法的リスクも存在します。 声は強い個人的な属性を持ち、歌手が生き残るための基盤となります。 「音声保護」は民法にも明記されている。民法第1023条によると、「氏名等の使用許可については、肖像権の使用許可に関する規定に従う。自然人の音声の保護については、肖像権の保護に関する規定に従う。」したがって、本人の許可なくSVC技術で音声を偽造することは、間違いなく本人の人格権益の侵害である。 UPの司会者ヘン・ジヘン氏は「テクノロジーは悪用される可能性もある。例えば、人気俳優がセリフのスキルが低く、声を変えて自分の吹き替えにしたり、将来、歌手の歌を本人が歌うのではなく、他人が声を変えて歌うようになるだろう」と指摘。さらに、偽の録音やスピーチを偽造したり、詐欺を働いたり、噂を流して他人を中傷したりすることもでき、今年はAI合成音声を使った通信詐欺の事例が数多く摘発されている。 AI シンガーが開発する上で、法的およびビジネス モデルの両方が克服しなければならないハードルですが、これが AI シンガーが人工知能技術の主要な応用分野となることを妨げるものではありません。 AI シンガーは音楽創造の境界を絶えず拡大し、音楽文化に無限の可能性を注入しています。 |
<<: 深い思考 | 大規模モデルの機能の限界はどこにあるのでしょうか?
[[351523]] 1. 顔認識技術の紹介生体認証技術として、顔認証は非侵入的、非接触、フレンドリ...
研究者らが開発した新しい技術は、機械学習モデルの推論と人間の推論を比較し、ユーザーがモデルの行動パタ...
[[422090]]オックスフォード大学の研究によると、機械学習モデルは従来の物理ソルバーに比べて物...
多くの小売業者にとって、2020年のコロナウイルスの流行は、その存続と運営に深刻な影響を及ぼしました...
[[425799]] Java のガベージ コレクションに関しては、私と同じように、多くの友人が、...
四足歩行ロボットはもはや誰にとっても馴染みのない存在ではないはずです。ほとんどの人はメディアや企業の...
参加者が50の文章を話している間に神経活動が収集されました。機械学習アルゴリズムは、収集されたデータ...
[[252430]]ビッグデータダイジェスト制作編纂者:江宝尚今年 9 月に開催された Deep L...
人工知能については人々の想像力は尽きることがなく、小説や映画でも長い間最もホットな話題となってきまし...
著者についてCtrip の自然言語処理と大規模言語モデル アルゴリズムの専門家である Terry は...
ディープラーニングに関する理論コースを受講した後、多くの人が独自のプロジェクトを構築してみることに興...
執筆者:ユン・チャオ「今日は、Stack Overflow にとってエキサイティングな新時代の始まり...