こんにちは、音声認識について学びましょう!

こんにちは、音声認識について学びましょう!

[51CTO.com からのオリジナル記事] 音声認識は自動音声認識とも呼ばれ、人間の音声に含まれる語彙内容をキーストローク、バイナリ コード、文字列などのコンピューターが読み取り可能な入力に変換することを目的としています。簡単に言えば、音声信号を機械が認識・理解するプロセスを通じて対応するテキストやコマンドに変換する高度な技術です。そのため、「機械の聴覚システム」に例えられることが多いです。

音声認識技術は学際的な分野であり、信号処理、パターン認識、確率論と情報理論、発声機構と聴覚機構、人工知能など、幅広い分野をカバーしています。

[[231824]]

過去20年間、ビッグデータやディープラーニングなどの技術の発展、およびコンピューティング能力の継続的な向上により、音声認識技術も大きな進歩を遂げ、研究室から市場へと移行し始めました。今後10年間で、音声認識技術は産業、家電、通信、自動車エレクトロニクス、医療、ホームサービス、民生用電子機器などさまざまな分野に進出すると予想されています。今日は、私たちが日常生活で遭遇する音声認識についてお話ししましょう。

リアルタイム翻訳音声翻訳機

私が子どもの頃、アイドルドラマでよく見ていたのは、お金持ちのお嬢様(若旦那)、世界中を旅する、8ヶ国語を話す、そして数え切れないほどのファンがいるという設定でした。 。 。 。

[[231825]]

考えてみれば、設定が幼稚過ぎてメアリー・スーな部分もあるものの、複数の言語を堪能というすごいスキルは本当に羨ましいです。なんせ、私は「元気?」と聞かれたら無意識に「元気、ありがとう、あなたは?」と返事をしてしまうタイプですから。 。 。 。

[[231826]]

私のように語学力に乏しい人間にとって、音声翻訳機は異なる文字や言語の壁を取り払うことができる「魔法の武器」とも言えるでしょう。近年、AIの応用と普及により、音声翻訳機は新しい分野に進出し、性能、効率、有効性が大幅に向上しました。文章全体の完全翻訳のサポート、数十の言語での双方向翻訳、複数機インターコム...同じ言語を話さない数人が集まり、音声翻訳機のみでコミュニケーションをとるシーンを想像してみてください。それはとても魔法のようです。

音声翻訳に加えて、一部の翻訳機には画像翻訳機能も備わっており、聞いたり話したりした内容だけでなく、見た内容も理解できます。

もちろん、ビジネス交渉や技術交流など、専門的要求が高い場面では、音声翻訳機の全体的な性能はまだ向上させる必要があります。しかし、日常の旅行や観光で遭遇する単純なコミュニケーションに関しては、音声翻訳機は依然として容易に対応できます。今では母は私が世界中を旅することを心配する必要がなくなりました。

音楽認識アプリ

街中で聞き慣れたメロディーに出会ったのに、歌詞がはっきり聞き取れない、そんな状況に遭遇したことがある人は多いのではないでしょうか。この世でそれを見逃してしまうかもしれないのは残念です。 。 。 。

大学に入学したばかりの頃、ルームメイトと、いつか機械に向かってメロディーを数行ハミングすれば、機械が自動的に曲を認識してタイトルを教えてくれるようになるだろうと空想したことがあったのを覚えています。意外にも、この夢はわずか数年で実現しました。

現在、多くのソフトウェアが、試聴による曲の識別機能をサポートしています。基本的な原理は、携帯電話のマイクでサンプリングし、音楽の音源、つまりサンプルを収集し、ネットワークを使用して収集した音源のバンドデータを会社のサーバーに送信することです。迅速なデータ分析と識別の後、曲名、リードシンガー、アルバム名などの取得された音楽関連情報が携帯電話に送信され、ソフトウェアに表示されます。

これで、お気に入りのメロディーを聴き逃したことを後悔する必要がなくなりました。

音を確認したらまさに探していた曲です!

人間とコンピュータの対話型スマートスピーカー

誰かが部屋に一人でいて、他の人と楽しそうに会話しているのを見たら、慌てないでください。その人は精神病ではなく、スマートスピーカーとコミュニケーションを取っているだけかもしれません。

近年、スマートホームの人気が高まるにつれ、その性能も、当初の単一アイテムのリスニング、認識、コマンドの実行から、人間との日常的なインタラクティブな会話を行えるものへとアップグレードされてきました。その中でもスマートスピーカーは、あらゆるスマートホームの中でもCのポジションにデビューした人気の代表格といえるでしょう。

仕事で忙しいとき、スマートスピーカーはテイクアウトの注文、速達便の確認、電話料金のチャージを手伝ってくれます。退屈なときも一緒にゲームをしたり、ラブソングを歌ってくれたり。夜中に眠れないときも、詩から人生哲学まで、あらゆることを話してくれます。24時間対応で、ゲームをしているからといって無視されることも、ガールフレンドと買い物に出かけていると思って忘れることもありません。この観点から見ると、残りの半分はまったく不要のようですね~

上記以外にも、私たちの身の回りには音声認識が活用されている場面がたくさんあります。あなたはどんな場面を思い浮かべましたか?

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

[編集者:関崇 TEL: (010) 68476606]

<<:  人工知能とビッグデータの完璧な組み合わせ

>>:  人工知能の台頭が懸念を引き起こしています。私たちはどう対応すべきでしょうか?

ブログ    
ブログ    

推薦する

AIシナリオの実装を加速させる2019年北京人工知能産業サミットフォーラムが北京で成功裏に開催されました

2019年6月28日、北京で2019年北京人工知能産業サミットフォーラムが開催されました。主催は工業...

...

杭州妻殺害事件解決、警察AIも貢献

7月25日、杭州公安局は「杭州人妻殺害事件」について記者会見を開き、捜査結果を発表した。ネットユーザ...

機械学習における 5 つの現実的な問題とビジネスへの影響

今日、多くの企業は大量のデータを迅速に処理する必要があります。同時に、競争環境は急速に進化しているた...

...

PHP 再帰アルゴリズムとアプリケーションの紹介

PHP は動的な Web ページを開発するための最適なテクノロジーです。プログラミングに役立つ基本的...

...

無人スーパー、無人運転、無人宅配が実現すれば、職を失いそうな一般人はどうするのだろうか。

人工知能などの技術の発展により、無人技術がますます多く登場しています。 2030 年までに、8 億人...

オントロジーから始める:オペレータ関係マップの構築と応用

[[258543]]人類学者ロビン・ダンバーは、人間が親密な人間関係を維持できる最大人数は 150 ...

...

Google に行ったが、ディープラーニングはできなかった。Facebook の Tian Yuandong が人生の課題と選択について語る

初めての15分間のスピーチの準備に2か月を要し、卒業後すぐにGoogleに入社したものの歯車の一部に...

パンデミック後、AI教育はどのように存在していくのでしょうか?

現在の教育における人工知能の応用は、依然として「弱い人工知能」になりがちですが、教育の効率性を向上さ...

人工知能産業の急速な発展により、2021年以降、人工知能セキュリティの市場スペースは巨大になるでしょう。

[[439966]]人工知能は、人間の意識と思考の情報処理をシミュレートできるコンピュータ サイエ...

Geek+がダブル11の結果を発表:中国最大のインテリジェント倉庫ロボットネットワークが72時間で811万件の注文を配達

中国・北京(2019年11月21日) – 世界的に有名な知能ロボット企業であるG​​eek+は、今年...

地下鉄路線図のための高速経路探索アルゴリズム

1. 概要過去2日間、Blog Parkで地下鉄マップの実装について話していました。その前に、私もク...