1. ニューラルネットワーク 現在一般的に使用されている音声認識フレームワークは以下のとおりです。 この背後にある論理は 特徴抽出に使用されるニューラルネットワークのDNN技術 DNN テクノロジーは、CNN モデルと RNN モデルの 2 種類に分けられます。 2. デコーダー デコーダー情報は、音響モデル、辞書、言語モデルから取得されます。ブロック図は次のとおりです。 2.1 音響モデル 一般的に使用される音響モデルは、ガウスモデルと隠れマルコフモデルの混合モデルである GMM-HMM です。 HMM モデルは時系列情報をモデル化します。HMM の状態が与えられた後、GMM はその状態に属する音声特徴ベクトルの確率分布をモデル化します。 2.2 辞書 辞書:発音辞書です。中国語ではピンインと漢字の対応、英語では発音記号と単語の対応です。 使用: 音響モデルによって認識された音素に基づいて、辞書内で対応する漢字(単語)または単語が検索され、音響モデルと言語モデルの間に橋渡しが行われ、両者が接続されます。 たとえば、次の単語マッピング テーブル: 2.3 言語モデル 言語モデルは、特定の言語用に構築された確率モデルであり、文の確率を計算するために使用されます。 次の2つのタイプに分けます。 2.3.1 N-gram統計言語モデル: N-gramモデル、スムージング 2.3.2 ニューラルネットワーク言語モデル: ニューラルネットワーク言語モデルは、統計言語モデルとは異なり、n 要素の条件付き確率をカウントによって推定するのではなく、ニューラルネットワークを通じて直接モデル化して解決します。 使用: 1. どちらの単語の並びがより可能性が高いかを判断する 2. いくつかの単語が与えられたら、次の単語を予測する 例: 1.私はパーティーに行きました。 目は2つのバーティーに行きました。 2. 今何をしていますか? |
<<: 映画品質の CG レンダリングを作成しましょう!スタンフォード大学の研究者がニューラル光学レンダリングを提案
>>: AI インテリジェント音声認識アルゴリズム パート 1
人工知能が両親の写真から子供の顔を合成、親族関係生成のためのディープラーニング 概要: この論文では...
OpenAI の GPT-3.5 や GPT-4 などのクローズドソース モデルの優位性に挑戦する...
[[188091]]近年、人工知能の目覚ましい発展、特にAlphaGoと韓国のチェスプレイヤー、イ・...
DeepMind はゲーム AI の分野で新たな成果を上げました。今回はチェスです。 AI ゲーム...
翻訳者 | 陳俊企業は通常、オンライン機能ストアを選択する前に、どのアーキテクチャが最も効率的でコス...
[[208216]] ***ニュースによると、Kaggleは最近、機械学習とデータサイエンスに関する...
宇宙探査は人類の最も挑戦的で刺激的な取り組みの一つです。これには、科学的知識、技術革新、そして人間の...
[[220537]]リアム・ヘーネル編纂者:趙怡雲、江宝尚、銭天培新年を前に、温翁氏は音声認識から...
長年にわたり、持続可能なエネルギーは科学者にとって大きな関心事である重要な分野でした。人々は、効果的...
2023年の初め、OpenAIが開発したChatGPTの出現により、インターネット業界の微妙なバラ...
2020年の新型コロナウイルスの世界的な蔓延は、人類にとって永遠の記憶となることは間違いないだろう。...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
文芸グラフィックの分野で非常に人気となっている Stability AI は、本日、2024 年向け...
ヘルスケア業界における人工知能と機械学習の価値と将来についての認識には大きな変化がありました。業界は...