AI インテリジェント音声認識アルゴリズム パート 2

AI インテリジェント音声認識アルゴリズム パート 2

[[397599]]

1. ニューラルネットワーク

現在一般的に使用されている音声認識フレームワークは以下のとおりです。

この背後にある論理は

特徴抽出に使用されるニューラルネットワークのDNN技術

DNN テクノロジーは、CNN モデルと RNN モデルの 2 種類に分けられます。

2. デコーダー

デコーダー情報は、音響モデル、辞書、言語モデルから取得されます。ブロック図は次のとおりです。

2.1 音響モデル

一般的に使用される音響モデルは、ガウスモデルと隠れマルコフモデルの混合モデルである GMM-HMM です。

HMM モデルは時系列情報をモデル化します。HMM の状態が与えられた後、GMM はその状態に属する音声特徴ベクトルの確率分布をモデル化します。

2.2 辞書

辞書:発音辞書です。中国語ではピンインと漢字の対応、英語では発音記号と単語の対応です。

使用:

音響モデルによって認識された音素に基づいて、辞書内で対応する漢字(単語)または単語が検索され、音響モデルと言語モデルの間に橋渡しが行われ、両者が接続されます。

たとえば、次の単語マッピング テーブル:

2.3 言語モデル

言語モデルは、特定の言語用に構築された確率モデルであり、文の確率を計算するために使用されます。

次の2つのタイプに分けます。

2.3.1 N-gram統計言語モデル: N-gramモデル、スムージング

2.3.2 ニューラルネットワーク言語モデル:

ニューラルネットワーク言語モデルは、統計言語モデルとは異なり、n 要素の条件付き確率をカウントによって推定するのではなく、ニューラルネットワークを通じて直接モデル化して解決します。

使用:

1. どちらの単語の並びがより可能性が高いかを判断する

2. いくつかの単語が与えられたら、次の単語を予測する

例:

1.私はパーティーに行きました。

目は2つのバーティーに行きました。

2. 今何をしていますか?

<<:  映画品質の CG レンダリングを作成しましょう!スタンフォード大学の研究者がニューラル光学レンダリングを提案

>>:  AI インテリジェント音声認識アルゴリズム パート 1

ブログ    
ブログ    
ブログ    

推薦する

ディープラーニング: シンプルだが限界のあるソリューション

ディープラーニング:幾何学的視点ディープラーニングに関する最も驚くべき事実は、それがいかにシンプルで...

人工知能時代のデータストレージの未来

2024 年は、テクノロジーとデータの状況に大きな変化が起こる年になると予想されています。生成 AI...

地図メーカーの次の戦い:AI戦争

新しいインフラの下で、産業インターネット、5G基地局建設、都市間高速鉄道と都市間軌道交通、新エネルギ...

Gen-2 は AI 生成ビデオに革命をもたらします。一言で4K高画質映画が作れる。ネットユーザー「ゲームのルールを完全に変えた」

これは間違いなく、生成 AI の進歩における画期的な出来事です。深夜、Runway の象徴的な AI...

...

人間は機械化され、機械は人間化されるのです!起こっていることはさらに恐ろしいことだ。

科学技術の継続的な発展に伴い、人工知能は徐々に科学技術分野の主な研究方向になってきました。 「ロボッ...

...

...

海外メディア:人工知能はすでに自身のミスを警告できる

[[354534]]海外メディアは、人工知能は急速に発展しており、この分野における最新の技術的成果が...

銀行の二重生体認証実験:二重のトラブルか二重のセキュリティか?

2つの生体認証技術は顔認証と指紋認証です。実験では、両方ともモバイルデバイスを通じて実装され、2つ...

ブロックチェーンが人工知能に役立つ10の方法

ここでは、ブロックチェーンが AI を支援する 10 の方法と、それがもたらすメリットについて説明し...

企業が人工知能を導入する際に知っておくべき5つの誤解

[[392106]] AI は広く普及しているにもかかわらず、知識と認識のギャップにより、商業的な導...

優秀なプログラマーが開発効率を上げるために知っておくべき32のアルゴリズム

検索アルゴリズム - 指定された開始点から指定された終了点までのパスを計算するグラフ検索アルゴリズム...

AIによって殺された最初の人々を見てみましょう

過去2日間、「絵を当てようソング」がスクリーンのあちこちで流れていたその背後にあるAIブラックテクノ...

自動運転のためのマルチモーダルセンサーフュージョンの簡単な分析

マルチモーダル融合は、知覚ベースの自動運転システムにおける基本的なタスクであり、最近多くの研究者の関...