こんにちは、音声認識について学びましょう!

こんにちは、音声認識について学びましょう!

[51CTO.com からのオリジナル記事] 音声認識は自動音声認識とも呼ばれ、人間の音声に含まれる語彙内容をキーストローク、バイナリ コード、文字列などのコンピューターが読み取り可能な入力に変換することを目的としています。簡単に言えば、音声信号を機械が認識・理解するプロセスを通じて対応するテキストやコマンドに変換する高度な技術です。そのため、「機械の聴覚システム」に例えられることが多いです。

音声認識技術は学際的な分野であり、信号処理、パターン認識、確率論と情報理論、発声機構と聴覚機構、人工知能など、幅広い分野をカバーしています。

[[231824]]

過去20年間、ビッグデータやディープラーニングなどの技術の発展、およびコンピューティング能力の継続的な向上により、音声認識技術も大きな進歩を遂げ、研究室から市場へと移行し始めました。今後10年間で、音声認識技術は産業、家電、通信、自動車エレクトロニクス、医療、ホームサービス、民生用電子機器などさまざまな分野に進出すると予想されています。今日は、私たちが日常生活で遭遇する音声認識についてお話ししましょう。

リアルタイム翻訳音声翻訳機

私が子どもの頃、アイドルドラマでよく見ていたのは、お金持ちのお嬢様(若旦那)、世界中を旅する、8ヶ国語を話す、そして数え切れないほどのファンがいるという設定でした。 。 。 。

[[231825]]

考えてみれば、設定が幼稚過ぎてメアリー・スーな部分もあるものの、複数の言語を堪能というすごいスキルは本当に羨ましいです。なんせ、私は「元気?」と聞かれたら無意識に「元気、ありがとう、あなたは?」と返事をしてしまうタイプですから。 。 。 。

[[231826]]

私のように語学力に乏しい人間にとって、音声翻訳機は異なる文字や言語の壁を取り払うことができる「魔法の武器」とも言えるでしょう。近年、AIの応用と普及により、音声翻訳機は新しい分野に進出し、性能、効率、有効性が大幅に向上しました。文章全体の完全翻訳のサポート、数十の言語での双方向翻訳、複数機インターコム...同じ言語を話さない数人が集まり、音声翻訳機のみでコミュニケーションをとるシーンを想像してみてください。それはとても魔法のようです。

音声翻訳に加えて、一部の翻訳機には画像翻訳機能も備わっており、聞いたり話したりした内容だけでなく、見た内容も理解できます。

もちろん、ビジネス交渉や技術交流など、専門的要求が高い場面では、音声翻訳機の全体的な性能はまだ向上させる必要があります。しかし、日常の旅行や観光で遭遇する単純なコミュニケーションに関しては、音声翻訳機は依然として容易に対応できます。今では母は私が世界中を旅することを心配する必要がなくなりました。

音楽認識アプリ

街中で聞き慣れたメロディーに出会ったのに、歌詞がはっきり聞き取れない、そんな状況に遭遇したことがある人は多いのではないでしょうか。この世でそれを見逃してしまうかもしれないのは残念です。 。 。 。

大学に入学したばかりの頃、ルームメイトと、いつか機械に向かってメロディーを数行ハミングすれば、機械が自動的に曲を認識してタイトルを教えてくれるようになるだろうと空想したことがあったのを覚えています。意外にも、この夢はわずか数年で実現しました。

現在、多くのソフトウェアが、試聴による曲の識別機能をサポートしています。基本的な原理は、携帯電話のマイクでサンプリングし、音楽の音源、つまりサンプルを収集し、ネットワークを使用して収集した音源のバンドデータを会社のサーバーに送信することです。迅速なデータ分析と識別の後、曲名、リードシンガー、アルバム名などの取得された音楽関連情報が携帯電話に送信され、ソフトウェアに表示されます。

これで、お気に入りのメロディーを聴き逃したことを後悔する必要がなくなりました。

音を確認したらまさに探していた曲です!

人間とコンピュータの対話型スマートスピーカー

誰かが部屋に一人でいて、他の人と楽しそうに会話しているのを見たら、慌てないでください。その人は精神病ではなく、スマートスピーカーとコミュニケーションを取っているだけかもしれません。

近年、スマートホームの人気が高まるにつれ、その性能も、当初の単一アイテムのリスニング、認識、コマンドの実行から、人間との日常的なインタラクティブな会話を行えるものへとアップグレードされてきました。その中でもスマートスピーカーは、あらゆるスマートホームの中でもCのポジションにデビューした人気の代表格といえるでしょう。

仕事で忙しいとき、スマートスピーカーはテイクアウトの注文、速達便の確認、電話料金のチャージを手伝ってくれます。退屈なときも一緒にゲームをしたり、ラブソングを歌ってくれたり。夜中に眠れないときも、詩から人生哲学まで、あらゆることを話してくれます。24時間対応で、ゲームをしているからといって無視されることも、ガールフレンドと買い物に出かけていると思って忘れることもありません。この観点から見ると、残りの半分はまったく不要のようですね~

上記以外にも、私たちの身の回りには音声認識が活用されている場面がたくさんあります。あなたはどんな場面を思い浮かべましたか?

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

[編集者:関崇 TEL: (010) 68476606]

<<:  人工知能とビッグデータの完璧な組み合わせ

>>:  人工知能の台頭が懸念を引き起こしています。私たちはどう対応すべきでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

超強力なTP-Link!北京大学と清華大学が共同で一般AI実験クラスを設立、朱松春氏が指導

史上最強の集団が力を合わせてAI開発に挑む?最近、北京大学の公式Weiboアカウントは、北京大学と清...

...

シンプルで効果的な新しい敵対的攻撃手法により、人気の Android アプリの DL モデルが破られることに成功

現在、多くのディープラーニング モデルがモバイル アプリに組み込まれています。デバイス上で機械学習を...

Zoomに狂った外国人がビデオ会議ロボットを開発、同僚たちはすでに大笑い

[[321983]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

...

例 | CNN と Python を使用した肺炎検出

導入こんにちは!数時間前にディープラーニング プロジェクトを終えたので、その成果を共有したいと思いま...

毎日のアルゴリズム: 完全順列問題

[[435870]]繰り返しのない数字のシーケンスが与えられた場合、そのシーケンスのすべての可能な順...

...

...

未来はここにあります。人工知能がもたらすリスクをどう軽減できるでしょうか?

この新しい時代に成功するには、企業のセキュリティは AI がもたらすリスクを軽減し、AI がもたらす...

ついに誰かが様々なStyleGANの大きな概要を作成した

[[435127]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

AI はビジネスのやり方を永久に変えるのでしょうか?

Google、Facebook、Twitterなど、世界中の大手テクノロジー企業が人工知能ソリュー...