こんにちは、音声認識について学びましょう!

こんにちは、音声認識について学びましょう!

[51CTO.com からのオリジナル記事] 音声認識は自動音声認識とも呼ばれ、人間の音声に含まれる語彙内容をキーストローク、バイナリ コード、文字列などのコンピューターが読み取り可能な入力に変換することを目的としています。簡単に言えば、音声信号を機械が認識・理解するプロセスを通じて対応するテキストやコマンドに変換する高度な技術です。そのため、「機械の聴覚システム」に例えられることが多いです。

音声認識技術は学際的な分野であり、信号処理、パターン認識、確率論と情報理論、発声機構と聴覚機構、人工知能など、幅広い分野をカバーしています。

[[231824]]

過去20年間、ビッグデータやディープラーニングなどの技術の発展、およびコンピューティング能力の継続的な向上により、音声認識技術も大きな進歩を遂げ、研究室から市場へと移行し始めました。今後10年間で、音声認識技術は産業、家電、通信、自動車エレクトロニクス、医療、ホームサービス、民生用電子機器などさまざまな分野に進出すると予想されています。今日は、私たちが日常生活で遭遇する音声認識についてお話ししましょう。

リアルタイム翻訳音声翻訳機

私が子どもの頃、アイドルドラマでよく見ていたのは、お金持ちのお嬢様(若旦那)、世界中を旅する、8ヶ国語を話す、そして数え切れないほどのファンがいるという設定でした。 。 。 。

[[231825]]

考えてみれば、設定が幼稚過ぎてメアリー・スーな部分もあるものの、複数の言語を堪能というすごいスキルは本当に羨ましいです。なんせ、私は「元気?」と聞かれたら無意識に「元気、ありがとう、あなたは?」と返事をしてしまうタイプですから。 。 。 。

[[231826]]

私のように語学力に乏しい人間にとって、音声翻訳機は異なる文字や言語の壁を取り払うことができる「魔法の武器」とも言えるでしょう。近年、AIの応用と普及により、音声翻訳機は新しい分野に進出し、性能、効率、有効性が大幅に向上しました。文章全体の完全翻訳のサポート、数十の言語での双方向翻訳、複数機インターコム...同じ言語を話さない数人が集まり、音声翻訳機のみでコミュニケーションをとるシーンを想像してみてください。それはとても魔法のようです。

音声翻訳に加えて、一部の翻訳機には画像翻訳機能も備わっており、聞いたり話したりした内容だけでなく、見た内容も理解できます。

もちろん、ビジネス交渉や技術交流など、専門的要求が高い場面では、音声翻訳機の全体的な性能はまだ向上させる必要があります。しかし、日常の旅行や観光で遭遇する単純なコミュニケーションに関しては、音声翻訳機は依然として容易に対応できます。今では母は私が世界中を旅することを心配する必要がなくなりました。

音楽認識アプリ

街中で聞き慣れたメロディーに出会ったのに、歌詞がはっきり聞き取れない、そんな状況に遭遇したことがある人は多いのではないでしょうか。この世でそれを見逃してしまうかもしれないのは残念です。 。 。 。

大学に入学したばかりの頃、ルームメイトと、いつか機械に向かってメロディーを数行ハミングすれば、機械が自動的に曲を認識してタイトルを教えてくれるようになるだろうと空想したことがあったのを覚えています。意外にも、この夢はわずか数年で実現しました。

現在、多くのソフトウェアが、試聴による曲の識別機能をサポートしています。基本的な原理は、携帯電話のマイクでサンプリングし、音楽の音源、つまりサンプルを収集し、ネットワークを使用して収集した音源のバンドデータを会社のサーバーに送信することです。迅速なデータ分析と識別の後、曲名、リードシンガー、アルバム名などの取得された音楽関連情報が携帯電話に送信され、ソフトウェアに表示されます。

これで、お気に入りのメロディーを聴き逃したことを後悔する必要がなくなりました。

音を確認したらまさに探していた曲です!

人間とコンピュータの対話型スマートスピーカー

誰かが部屋に一人でいて、他の人と楽しそうに会話しているのを見たら、慌てないでください。その人は精神病ではなく、スマートスピーカーとコミュニケーションを取っているだけかもしれません。

近年、スマートホームの人気が高まるにつれ、その性能も、当初の単一アイテムのリスニング、認識、コマンドの実行から、人間との日常的なインタラクティブな会話を行えるものへとアップグレードされてきました。その中でもスマートスピーカーは、あらゆるスマートホームの中でもCのポジションにデビューした人気の代表格といえるでしょう。

仕事で忙しいとき、スマートスピーカーはテイクアウトの注文、速達便の確認、電話料金のチャージを手伝ってくれます。退屈なときも一緒にゲームをしたり、ラブソングを歌ってくれたり。夜中に眠れないときも、詩から人生哲学まで、あらゆることを話してくれます。24時間対応で、ゲームをしているからといって無視されることも、ガールフレンドと買い物に出かけていると思って忘れることもありません。この観点から見ると、残りの半分はまったく不要のようですね~

上記以外にも、私たちの身の回りには音声認識が活用されている場面がたくさんあります。あなたはどんな場面を思い浮かべましたか?

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

[編集者:関崇 TEL: (010) 68476606]

<<:  人工知能とビッグデータの完璧な組み合わせ

>>:  人工知能の台頭が懸念を引き起こしています。私たちはどう対応すべきでしょうか?

ブログ    
ブログ    

推薦する

...

脳も分散強化学習を使用しているのでしょうか?ディープマインド社の新しい研究がネイチャー誌に掲載

分散強化学習は、囲碁やスタークラフトなどのゲームでインテリジェントエージェントが使用する手法ですが、...

...

マイクロソフトが積極的に顔認識データベースを削除した秘密は何でしょうか?

1. マイクロソフトはひそかに顔認識データベースを削除したマイクロソフトは、同社最大の公開顔認識デ...

再び攻撃! AI+教育に注力する学百軍は、年間10億元という小さな目標を設定

「今年末までに、学覇君は年間売上高10億元を確保するという小さな目標を達成する予定です」と張凱蕾氏は...

神経スタイル転送研究の概要: 現在の研究から将来の方向性まで

スタイル転送は最近人工知能の分野で注目されている研究テーマであり、Synced でも多くの関連研究が...

...

AF2を超える? Iambic、NVIDIA、Caltech が、状態固有のタンパク質-リガンド複合体の構造予測のためのマルチスケール深層生成モデルを開発

タンパク質と小分子リガンドによって形成される結合複合体は、生命にとって遍在し、不可欠です。科学者は最...

...

サイバーセキュリティの専門家が知っておくべきAI用語

人工知能の急速な発展により、私たちは第四次産業革命の真っ只中にいます。このデジタル時代において、サイ...

マスク氏:ニューラリンクが初めて人体にチップを埋め込み、製品化へ

マスク氏の脳コンピューターインターフェース企業ニューラリンクがついに人間に対する臨床研究を開始した。...

視線追跡は無視できない、視覚制御車はもうすぐ登場する

正直に言ってみましょう。ジョブズが2007年に初めてiPhoneをリリースしたとき、革命的な新時代が...

Python と Keras でシンプルな音声認識エンジンを作成する

音声認識とは、機械またはプログラムが話し言葉の単語やフレーズを認識し、機械が読み取り可能な形式に変換...