機械学習の発展が吹き替え技術の向上にどのように役立つか

機械学習の発展が吹き替え技術の向上にどのように役立つか

翻訳者 | 李睿

校正 | 梁哲、孫淑娟

人工知能 (AI) テクノロジーはここ数年で急速に発展し、ビジネス プロフェッショナルにディープラーニング モデルを提供しています。 AI がオーディオの世界で大きなインパクトを与えるには、まだ時間がかかるでしょうが、ビデオや画像処理の分野ではすでに AI の台頭が見られます。

人工知能の一部として、機械学習は吹き替え技術の使用方法を変えました。 Cortana、Siri、Alexa などのよく知られている音声アシスタントの多くは、ダビング技術を使用しています。また、人工知能技術の進歩により、AI によって生成される音声はこれまで以上にリアルになり、自然な音声処理も向上しました。

この記事では、機械学習と人工知能の進歩と、それが音声技術の進歩にどのような影響を与えるかについて説明します。

1. 機械学習が音声技術をどのように改善するか

(1)よりスマートなオーディオ

音声テクノロジーの需要が高まり始めるにつれて、自動音声認識 (ASR) プロバイダーは、より多くの人々のニーズを満たすために音声認識製品の革新を強化しています。

音声認識技術のユーザー数は増加しており、市場規模も拡大しています。ある調査によると、世界の音声認識市場は2026年までに220億ドルに成長するだろう。この大きな変化は自動音声認識 (ASR) に挑戦し、その革新を推進し、異なる国や地域 (オーストラリア、イングランド、スコットランド、米国など) の英語を母国語とする人々が使用する異なる方言など、同じ言語の異なる方言にうまく対処することを可能にします。

自動音声認識 (ASR) は、機械学習 (ML) と人工知能 (AI) の両方の機能によって駆動される場合にのみ、同じ言語の異なる方言で話された単語をテキストに変換できます。さらに、言語からより多くの方言やアクセントを認識することができます。つまり、いつの日か、世界中で使用されているあらゆる音声技術で、リアルな AI 音声ジェネレータが使用されるようになるのです。

オーディオ技術における機械学習の実際の例には、次のようなものがあります。

  • iZotope & Neutron 2: Intimate Track Assistant は、人工知能と機械学習機能を使用してプリセットされた楽器を検出し、ユーザーに直接トラッキング支援を提供します。また、オーディオ内の会話を分離するユーティリティも備えています。
  • LANDR: デジタルオーディオ処理に関するパラメータを設定するために人工知能と機械学習に完全に依存している自動オーディオマスタリングサービス。
  • Google Wavenet: 生成オーディオ録音のための学習モデル。

(2)データが原動力

コンピュータによる音波の処理は音声認識の最初のステップであり、ここで音声がデータに変換されます。したがって、音声認識ソーシャル エンジニアリングを成功させるには、プロセスに次の内容を含める必要があります。

  • 音声コレクションのサンプルは完全にアクセス可能であり、信頼できる音声データベースが存在します。
  • データセットを特徴付ける特徴の数が少ないため、アルゴリズムの学習能力を向上させる有用な特徴が排除されます。
  • 機械学習アルゴリズムは、信頼性の高い分類子を作成し、機械学習アルゴリズムが新しい観察のためのトレーニング サンプルから学習できるようにするために使用されます。

最後に、ディープラーニングは音声認識技術に適用可能であり、あらゆる環境での日常使用において正確性を維持するため、音声認識システムは特定の環境でスムーズに動作することができます。

実際には、音声認識システムを作成したい開発者には、大量のトレーニング データが必要です。経済的に意味があるなら、正しい転写データを収集するには数百万ドルの費用がかかる可能性があります。この方法でのみ、音声認識システムは転写されたデータに基づいて適切にトレーニングされます。

(3)人工知能と機械学習におけるデジタル信号処理

オーディオ処理における人工知能と機械学習の応用はまだ初期段階ですが、ディープラーニング手法により、現在オーディオ業界の大多数のユーザーに無視されている信号処理の問題を別の角度から取り組むことができます。一般的なサウンドと信号処理を理解することは複雑であり、言葉で説明するのは困難です。

たとえば、2 人以上の人が話しているのを聞いた場合、2 人の間の会話のパラメータはどのように説明されるでしょうか。考慮すべき要素は多数ありますが、その一部を以下に示します。

  • 性格(年齢、性別、エネルギー)はこれらの音にどのように影響しますか?
  • 室内の音響と距離は理解度にどの程度影響しますか?
  • 会話中に発生する可能性のあるその他のノイズについてはどうでしょうか?

ご覧のとおり、ダビングの測定は多くのパラメータから導き出すことができ、それらに注意を払う必要があります。この文脈において、AI は人々が学習に必要な条件を作り出すための実用的な方法を提供することができます。

ディープ ニューラル ネットワークによるオーディオ処理は進歩していますが、解決すべき問題がまだ多く残っています。

  • 高忠実度のオーディオ再構築: 小型で低品質のマイク。
  • ルームシミュレーション: バイノーラル処理と残響用。
  • 選択的ノイズ低減: 車の交通などの特定の要素を除去します。
  • アナログ オーディオ シミュレーション: 非線形アナログ オーディオ コンポーネント間の複雑な相互作用を推定します。

(4)吹替アーティスト

ディープラーニング(機械学習)を使用して自然なサウンドを作成するための重要なステップは、プロセスにオリジナルのオーディオを用意することです。相対的に言えば、世界中の多くの企業がナレーションアーティストと協力して吹き替え製品を制作しています。ほとんどの声優は、AI 音声が使用されるたびにロイヤリティを受け取ることで、十分な報酬を得ています。

しかし、ナレーターも騙されるという問題に遭遇する可能性があります。ナレーションは録音されていたものの、ユーザーが誰なのか詳しくは分かりませんでした。たとえば、Siriのオリジナルの声を担当したスーザン・ベネットはスキャンソフト社と契約していたが、彼女は自分の録音が実際にはApple社向けに行われたことを知らなかった。彼女はナレーションの録音に対して一度だけ報酬を支払われただけで、継続的な収入は得られなかった。

さらに、ナレーションアーティストが直面している他の問題としては、現在の技術を考慮すると、業界内の契約や料金があまり改善されていないことが挙げられます。さらに、吹き替えは悪用される可能性があり、吹き替えアーティストの評判を損なう可能性さえあると考える人もいます。例えば、一緒に仕事をしたくない企業や下品な言葉に対しても使えます。

(5)ユースケースの増加

人工知能と機械学習により、カスタマイズされたエクスペリエンスを追加したり、ソリューションを見つけたり、サービスにアクセスしたり、最も自然な方法で製品を返品したりできるようになるため、音声テクノロジーは業界全体で成長を続けています。機械学習と AI が自然言語処理のユースケースをどのように変えているのか、いくつかの例を次に示します。

  • 消費者が注文する: 消費者業界における音声認識と文字起こしに関連するもう 1 つのアプリケーション。消費者はより迅速かつ効率的に注文できるようになります。顧客はメニュー全体を閲覧するのに時間を費やす代わりに、音声リクエストだけで数秒で注文することができます。
  • 仮想アシスタント: ある調査によると、2024 年までに市場には 84 億を超える音声アシスタントが登場すると予想されています。音声アシスタントは、IT ヘルプデスク チームなどをサポートできます。仮想アシスタントに多くのことを依頼することで、従業員は日々のタスクを完了する時間を増やし、時間をより効率的に活用できるようになります。
  • 顧客親密性分析: 小売企業は、コールセンターの会話をより適切に分析し、顧客を理解するために、オーディオ マイニング ソフトウェアを使い始めています。機械学習と人工知能を活用した自動音声認識 (ASR) は、顧客を正確に理解し、顧客との会話から貴重な洞察を引き出すことができます。

(6)音声認識技術は未来か?

音声認識技術は将来必ず輝くでしょう。 AI や機械学習の技術が進歩するにつれ、それらが活用されるシナリオも増えていくでしょう。さらに、声優陣にも枠が与えられる。これらは音声認識技術の向上に寄与するため、音声技術は人と話すときにさまざまな感情を伝えられるレベルまで発展する可能性があります。

2. 結論

これらは、機械学習と人工知能が過去数年間に音声技術にもたらした改善であり、これらの改善が今後も発展し続ける理由です。いつの日か、音声技術が進歩し、人間と話すのと同じように音声アシスタントと話せるようになるかもしれません。

企業側としては、音声テクノロジーをビジネス戦略に組み込む方法を検討する必要があります。結局のところ、世界は新たな出発点と技術的な道へと移行しており、音声認識技術をビジネスに統合すれば、目立つ存在となるでしょう。

オリジナルリンク: https://www.smartdatacollective.com/machine-learning-advances-are-improving-voice-over-audio-technology/

<<:  アリババDAMOアカデミーが新しいオープンソースフレームワークを開設:プライバシー保護コンピューティングの分野に参入し、フェデレーテッドラーニングが大手プレーヤーを迎える

>>:  トランスフォーマーの層が 2 層未満で、注意ブロックのみの場合、GPT-3: 問題を起こそうとしていますか?

ブログ    
ブログ    
ブログ    

推薦する

オペレーターの人工知能への道

1年間の開発を経て、人工知能の技術とアプリケーションは、特に通信業界で徐々に爆発的に増加しました。 ...

2021 年の人工知能、データ サイエンス、機械学習のトレンドの概要

人工知能とデータサイエンス、機械学習のトレンドとデータ分析AIはますますあらゆるビジネス戦略の一部に...

...

ワンクリックで動画をアニメーションに変換できるAIツールが人気。様々な格闘技の動きをスムーズに変換でき、無料でオンラインでプレイできます。

テキスト、画像、ビデオ、すべてをアニメーション化できます。見てください、ほんの少し前まで二人の男が格...

2021年に自動運転はどのように発展するのでしょうか?

EEtimesより翻訳2021年に自動運転車はどうなるでしょうか。自動運転業界の昨年の業績は平凡で...

アルゴリズム エンジニアはなぜ一日中データを扱うのでしょうか。また、どのような種類のデータを扱うのでしょうか。

[[353273]]なぜ私たちはモデルをほとんど作らないのでしょうか?アルゴリズムエンジニアの仕事...

2021 年に注目すべき 8 つのロボティック プロセス オートメーションのトレンド

【51CTO.com クイック翻訳】今日、ロボティック・プロセス・オートメーション(RPA)は、企業...

暑い天候でのドローン飛行の安全ガイド:理解できましたか?

夏が進むにつれて気温もどんどん高くなっていきます。最近クウェートの気温は50℃~70℃に達したと報じ...

人工知能のインダストリー4.0指標8つ

インダストリー 4.0 における AI イニシアチブの主要な運用指標と主要業績評価指標 (KPI) ...

スーパーアプリの3つの成功例

スーパーアプリは、より多くの顧客を引き付けるための革新的な戦略です。さらに、多数のサービスを 1 つ...

1 つの記事で AI エージェント テクノロジーを理解する

環境と自律的に対話し、収集したデータに基づいて決定を下し、人間の介入を最小限に抑えてシナリオベースの...

米国は自動運転に関する最も厳しい新規制を発行:L2〜L5を完全にカバー、今月30件のテスラ事故が調査された

[[408307]] IT Homeは6月30日、米国東部時間6月29日に米道路交通安全局(NHTS...

CIO が AI を活用して地位を向上させる 3 つの方法

組織内の利害関係者の視点から IT の役割を理解することは、IT がどのように変革する必要があるかを...

中国科学院の張雲泉氏:コンピューティング能力は定量化可能であり、インテリジェントコンピューティングは公共サービスになる

[[410843]] 7月9日、2021年世界人工知能大会の期間中に開催された「新世代人工知能コンピ...