AI インテリジェント音声認識アルゴリズムパート 2

[[397599]]

1. ニューラルネットワーク

現在一般的に使用されている音声認識フレームワークは以下のとおりです。

この背後にある論理は

特徴抽出に使用されるニューラルネットワークのDNN技術

DNN テクノロジーは、CNN モデルと RNN モデルの 2 種類に分けられます。

2. デコーダー

デコーダー情報は、音響モデル、辞書、言語モデルから取得されます。ブロック図は次のとおりです。

2.1 音響モデル

一般的に使用される音響モデルは、ガウスモデルと隠れマルコフモデルの混合モデルである GMM-HMM です。

HMM モデルは時系列情報をモデル化します。HMM の状態が与えられた後、GMM はその状態に属する音声特徴ベクトルの確率分布をモデル化します。

2.2 辞書

辞書：発音辞書です。中国語ではピンインと漢字の対応、英語では発音記号と単語の対応です。

使用：

音響モデルによって認識された音素に基づいて、辞書内で対応する漢字（単語）または単語が検索され、音響モデルと言語モデルの間に橋渡しが行われ、両者が接続されます。

たとえば、次の単語マッピングテーブル:

2.3 言語モデル

言語モデルは、特定の言語用に構築された確率モデルであり、文の確率を計算するために使用されます。

次の2つのタイプに分けます。

2.3.1 N-gram統計言語モデル: N-gramモデル、スムージング

2.3.2 ニューラルネットワーク言語モデル:

ニューラルネットワーク言語モデルは、統計言語モデルとは異なり、n 要素の条件付き確率をカウントによって推定するのではなく、ニューラルネットワークを通じて直接モデル化して解決します。

使用：

1. どちらの単語の並びがより可能性が高いかを判断する

2. いくつかの単語が与えられたら、次の単語を予測する

例：

1.私はパーティーに行きました。

目は2つのバーティーに行きました。

2. 今何をしていますか?

<<: 映画品質の CG レンダリングを作成しましょう!スタンフォード大学の研究者がニューラル光学レンダリングを提案

>>: AI インテリジェント音声認識アルゴリズムパート 1

ブログ

PillarNeSt: Pillar ベースの 3D オブジェクト検出のパフォーマンスをさらに向上させるにはどうすればよいでしょうか?

ブログ

Raspberry Pi を搭載した MIT のヤドカリ型ロボットは「何でもできる」

ブログ

1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能

ブログ

NVIDIA H100の覇権に挑戦！ IBMは人間の脳をシミュレートしてニューラルネットワークチップを作成し、効率を14倍向上させ、AIモデルの電力消費問題を解決しました

ブログ

海外の子どもたちはみんなプログラミングを学んでいますが、彼らが学んでいるのはプログラミングではなく、プログラミング的思考なのです！

ブログ

老子のアルゴリズム思想の分析

ブログ

マイクロソフトの新しい研究：ドローンは推論能力を獲得し、画像を見るだけで判断できるようになる

ブログ

2020 DIGIXグローバルキャンパスAIアルゴリズムエリートコンペティションが成功裏に終了し、キャンパスのイノベーションを刺激

ブログ

AI インテリジェント音声認識アルゴリズムパート 2

PillarNeSt: Pillar ベースの 3D オブジェクト検出のパフォーマンスをさらに向上させるにはどうすればよいでしょうか?

Raspberry Pi を搭載した MIT のヤドカリ型ロボットは「何でもできる」

1 つの文で 10 万以上のコンテキストを持つ大規模モデルの真のパワーが発揮され、スコアが 27 から 98 に増加し、GPT-4 と Claude2.1 に適用可能

NVIDIA H100の覇権に挑戦！ IBMは人間の脳をシミュレートしてニューラルネットワークチップを作成し、効率を14倍向上させ、AIモデルの電力消費問題を解決しました

海外の子どもたちはみんなプログラミングを学んでいますが、彼らが学んでいるのはプログラミングではなく、プログラミング的思考なのです！

老子のアルゴリズム思想の分析

マイクロソフトの新しい研究：ドローンは推論能力を獲得し、画像を見るだけで判断できるようになる

2020 DIGIXグローバルキャンパスAIアルゴリズムエリートコンペティションが成功裏に終了し、キャンパスのイノベーションを刺激

推薦する

人工知能が両親の写真から子供の顔を合成し、ディープラーニングが親族関係を生成する

Open LLM リストが再び更新されました。Llama 2 よりも強力な「Duckbill Puss」が登場します。

機械学習の発展の歴史と啓蒙

ディープマインドAIは人間に対して84%の勝率を誇り、ウエスタンアーミーチェスで初めて人間の専門家のレベルに到達した。

リアルタイム AI と ML 向けの機能ストレージプラットフォーム

2017年中国・米国データサイエンス比較レポート：Pythonが年間平均給与11万ドルで1位

宇宙探査における人工知能の驚くべき7つの応用

この AI 商用リストをお見逃しなく: 生産上の問題はアプリケーションで解決できるかもしれません (続き)

持続可能な開発の達成において AI はどのような役割を果たすのでしょうか?

AIビッグモデルがインテリジェント交通の未来を切り開く？

EUがAIを活用して社会イノベーションを推進する方法

大規模な論文を読むための素晴らしいツールがここにあります! 67ページの論文を5秒で翻訳し、スクリーンショットを撮って直接質問し、Webページで試してみる

Stability AI、GPUなしでローカルで実行できるStable Code 3Bモデルをリリース

医療業界におけるAIアプリケーションは「ゴミを入れればゴミが出る」という状況を避けるべき