Python と Keras でシンプルな音声認識エンジンを作成する

音声認識とは、機械またはプログラムが話し言葉の単語やフレーズを認識し、機械が読み取り可能な形式に変換する機能です。通常、これらのアルゴリズムの単純な実装では語彙が限られており、単語やフレーズしか認識できない可能性があります。ただし、Cloud Speech-to-Text や Amazon Transcribe などのより複雑なアルゴリズムには、豊富な語彙があり、方言、ノイズ、俗語が組み込まれています。

[[317333]]

この記事では、次のことを説明します。

音声テキスト変換の仕組み
音声を文字起こし用に処理する方法
Keras を使用した問題解決のためのディープラーニングモデル
このモデルを評価する一つの方法は
予測モデルをプロジェクトに統合するためのスクリプト

導入

音声は、単に声帯によって周囲の空気が振動することで生成される一連の音波です。これらの音波はマイクによって記録され、電気信号に変換されます。次に、信号は高度な信号処理技術を使用して処理され、音節と単語が分離されます。ディープラーニングの驚くべき進歩のおかげで、コンピューターは経験から音声を理解することも学べるようになりました。

音声認識は、音響および言語モデリングによるアルゴリズムを使用して機能します。音響モデリングは、音声とオーディオ信号の言語単位間の関係を表します。言語モデリングは、音を単語のシーケンスに一致させて、同じように聞こえる単語を区別するのに役立ちます。通常、再帰層に基づくディープラーニングモデルは、音声の時間的パターンを認識してシステム内の精度を向上させるために使用されます。隠れマルコフモデル (最初の音声認識アルゴリズムはこのアプローチを使用しました) などの他のアプローチも使用できます。この記事では、音響モデルについてのみ説明します。

信号処理

オーディオ波をアルゴリズムが処理できる要素に変換する方法はいくつかありますが、そのうちの 1 つ (このチュートリアルで使用する方法) は、等間隔のポイントで音波の高さを記録することです。

毎秒何千回も読み取り、その瞬間の音波の高さを表す数値を記録します。これは非圧縮の .wav オーディオファイルです。「CD 品質」のオーディオは 44.1 kHz (1 秒あたり 44,100 回の読み取り) でサンプリングされます。しかし、音声認識の場合、16khz (1秒あたり16,000サンプル) のサンプリングレートは、人間の音声の周波数範囲をカバーするのに十分すぎるほどです。

この方法では、オーディオは数値のベクトルで表され、各数値は 1/16000 秒間隔での音波の振幅を表します。このプロセスは、次の例に示すように、画像の前処理に似ています。

ナイキストの定理 (1933 — ウラジミールコテルニコフ) のおかげで、サンプリングレートが記録したい最高周波数の 2 倍以上であれば、数学を使用して間隔を置いたサンプルから元の音波を完全に再構築できることがわかっています。

Python ライブラリ

このタスクを実行するために、Anaconda 環境 (Python 3.7) と次の Python ライブラリを使用します。

iPython (バージョン 7.10.2)
ケラス (v 2.2.4)
リブロサ (v 0.7.2)
scipy (バージョン 1.1.0)
sklearn (バージョン 0.20.1)
サウンドデバイス (v 0.3.14)
テンソルフロー (v 1.13.1)
テンソルフロー GPU (v 1.13.1)
numpy (バージョン 1.17.2)

 tensorflow.compat.v1からConfigProto をインポートします
tensorflow.compat.v1からセッションをインポートする
インポートOS
 librosa をインポートする
IPython.displayをipdとしてインポートする
matplotlib.pyplot をpltとしてインポートします。
 numpyをnpとしてインポートする
scipy.ioからwavファイルをインポート
輸入警告
 
 config = ConfigProto()
 config.gpu_options.allow_growth = True  
 sess = セッション(config=config) 
 
警告をフィルターする( "無視する" )

1. データセット

私たちの実験では、TensorFlow が提供する音声コマンドデータセットを使用します。これは、何千人もの人々が発した 30 個の短い単語の 1 秒間の発話 65,000 回で構成されています。簡単な音声コマンドを理解できる音声認識システムを構築します。データセットはここからダウンロードできます。

2. オーディオ波形を前処理する

使用されたデータセットでは、一部のレコードの継続時間が 1 秒未満であり、サンプリングレートが高すぎます。そこで、音波を読み取り、次の前処理手順を使用してこの問題を解決してみましょう。実行する 2 つの手順は次のとおりです。

再サンプリング
1秒未満の短いコマンドを削除する

次の Python コードスニペットでこれらの前処理手順を定義しましょう。

 train_audio_path = './train/audio/'   
 
すべての波 = []
すべてのラベル = []
ラベル内のラベルの場合:
    印刷(ラベル)
    waves = [f for f in os.listdir(train_audio_path + '/' + label) if f.endswith( '.wav' )]
波の中のwavの場合:
        サンプル、sample_rate = librosa.load (train_audio_path + '/' + label + '/' + wav、sr=16000)
        サンプル = librosa.resample(サンプル、sample_rate、8000)
        len(サンプル数)== 8000の場合:
            all_wave.append(サンプル)
            all_label.append(ラベル)

上記から、信号のサンプリングレートは 16000 Hz であることがわかります。音声関連の周波数のほとんどは 8000 Hz であるため、8000 Hz に再サンプリングします。

2 番目のステップはラベルを処理することです。これは多目的問題なので、ここでは出力ラベルを整数エンコーディングに変換し、整数でエンコードされたラベルをワンホットベクトルに変換します。

 sklearn.preprocessingからLabelEncoder をインポートします
keras.utilsからnp_utilsをインポートする
 
 label_enconder = ラベルエンコーダー()
 y = label_encoder.fit_transform(すべてのラベル)
クラス = リスト(label_enconder.classes_)
 y = np_utils.to_categorical(y, num_classes=len(ラベル))

前処理ステップの最後のステップは、conv1d への入力が 3D 配列である必要があるため、2D 配列を 3D に再形成することです。

 all_wave = np.array(all_wave).reshape(-1,8000,1)

3. トレーニングセットと検証セットを作成する

ディープラーニングモデルを実行するには、2 つのセット (トレーニングと検証) を生成する必要があります。この実験では、データの 80% を使用してモデルをトレーニングし、残りの 20% を使用して検証しました。

 sklearn.model_selectionからtrain_test_split をインポートします
x_train、x_valid、y_train、y_valid = train_test_split(np.array(all_wave)、np.array(y)、stratify=y、test_size=0.2、random_state=777、shuffle= True )

4. 機械学習モデルのアーキテクチャ

私は Conv1d と GRU レイヤーを使用して音声認識用のネットワークをモデル化しています。 Conv1d は 1 次元のみで畳み込みを実行する畳み込みニューラルネットワークですが、GRU の目標は標準的な再帰型ニューラルネットワークの勾配消失問題を解決することです。 GRU は LSTM のバリエーションとも見なすことができます。この 2 つは設計が似ており、場合によっては同様に優れた結果を生み出すことができるためです。

このモデルは、よく知られている 2 つの音声認識方法、deepspeech h2 アルゴリズムと Wav2letter++ アルゴリズムに基づいています。次のコードは、Keras を使用して提案されたモデルを示しています。

 keras.layersからBidirectional、BatchNormalization、CuDNNGRU、TimeDistributed をインポートします
keras.layersからDense、Dropout、Flatten、Conv1D、Input、MaxPooling1D をインポートします。
 keras.modelsからモデルをインポート
keras.callbacksからEarlyStopping、ModelCheckpoint をインポートします
kerasからバックエンドをKとしてインポートします
K.clear_session() 
 
入力 = Input(shape=(8000,1))
 x = BatchNormalization(軸=-1、運動量=0.99、イプシロン=1e-3、中心= True 、スケール= True )(入力)
 #最初のConv1Dレイヤー
x = Conv1D(8,13, パディング= 'valid' 、アクティベーション= 'relu' 、ストライド= 1)(x)
 x = MaxPooling1D(3)(x)
 x = ドロップアウト(0.3)(x)
 # 2番目のConv1Dレイヤー
x = Conv1D(16, 11, パディング= 'valid' 、アクティベーション= 'relu' 、ストライド= 1)(x)
 x = MaxPooling1D(3)(x)
 x = ドロップアウト(0.3)(x)
 #3番目のConv1Dレイヤー
x = Conv1D(32, 9, パディング= 'valid' 、アクティベーション= 'relu' 、ストライド= 1)(x)
 x = MaxPooling1D(3)(x)
 x = ドロップアウト(0.3)(x)
 x = BatchNormalization(軸=-1、運動量=0.99、イプシロン=1e-3、中心= True 、スケール= True )(x)
 x = 双方向(CuDNNGRU(128, return_sequences= True ), merge_mode= 'sum' )(x)
 x = 双方向(CuDNNGRU(128, return_sequences= True ), merge_mode= 'sum' )(x)
 x = 双方向(CuDNNGRU(128, return_sequences= False ), merge_mode= 'sum' )(x)
 x = BatchNormalization(軸=-1、運動量=0.99、イプシロン=1e-3、中心= True 、スケール= True )(x)
 #レイヤーをフラット化
# x = フラット化()(x)
 #高密度レイヤー1
 x = Dense(256, activation= 'relu' )(x)
出力 = Dense(len(labels), activation= "softmax" )(x)
モデル = モデル(入力、出力)
モデル.要約()

注: このモデルのトレーニングに CPU のみを使用する場合は、CuDNNGRU レイヤーを GRU に置き換えます。

次のステップは、多クラス分類問題であるため、損失関数をカテゴリクロスエントロピーとして定義することです。

 model.compile(損失= 'categorical_crossentropy' 、オプティマイザー= 'nadam' 、メトリック=[ 'accuracy' ])

早期停止とモデルチェックポイントは、適切なタイミングでニューラルネットワークのトレーニングを停止し、各エポック後に最適なモデルを保存するためのコールバックです。

 early_stop = EarlyStopping(モニター= 'val_loss' 、モード= 'min' 、詳細=1、忍耐=10、min_delta=0.0001)
チェックポイント= ModelCheckpoint( 'speech2text_model.hdf5' 、モニター= 'val_acc' 、詳細= 1、save_best_only= True 、モード= 'max' )

バッチサイズ 32 で機械学習モデルをトレーニングし、ホールドアウトセットでパフォーマンスを評価してみましょう。

 hist = モデル.fit(
    x=x_train、
    y=y_train、
    エポック=100、
    コールバック=[early_stop,チェックポイント],
    バッチサイズ=32、
    検証データ=(x_valid,y_valid)
 ）

このコマンドの出力は次のとおりです。

5. 視覚化

時間の経過に伴う機械学習モデルのパフォーマンスを理解するために、視覚化を活用します。

 matplotlibからpyplotをインポートする
pyplot.plot(hist.history[ '損失' ], ラベル= '列車' )
 pyplot.plot(hist.history[ 'val_loss' ], ラベル= 'test' )
 pyplot.凡例()
 pyplot.show()

6. 予測

このステップでは、最適な重みを読み込み、オーディオを認識してテキストに変換するための関数を定義します。

 keras.modelsからload_modelをインポートする
モデル = load_model( 'speech2text_model.hdf5' ) 
 
 def s2t_predict(オーディオ、shape_num=8000):
    確率 = model.predict(audio.reshape(1,shape_num,1))
インデックス= np.argmax(prob[0])
戻りクラス[インデックス]

検証データに基づいて予測を行います。

ランダムにインポート
インデックス= random.randint(0,len(x_valid)-1)
サンプル = x_valid[インデックス].ravel()
 print( "オーディオ: " ,classes[np.argmax(y_valid[インデックス])])
 ipd.Audio(サンプル、レート=8000)

これは、ユーザーに音声コマンドを録音するように促すスクリプトです。独自の音声コマンドを録音し、機械学習モデルでテストすることができます。

サウンドデバイスをSDとしてインポート
サウンドファイルをSFとしてインポート
 
サンプルレート = 16000
期間 = 1 # 秒
ファイル名 = 'yes.wav'  
 print( "開始" )
 mydata = sd.rec( int (サンプルレート * 期間), サンプルレート=サンプルレート,
    チャネル=1、ブロッキング= True )
 print( "終了" )
 sd.wait()
 sf.write(ファイル名, mydata, サンプルレート)

最後に、保存した音声コマンドを読み取ってテキストに変換するスクリプトを作成します。

 #音声コマンドの読み上げ
テスト、test_rate = librosa.load ( './test/left.wav' 、 sr=16000)
 test_sample = librosa.resample(テスト、test_rate、4351)
印刷(test_sample.shape)
 ipd.Audio(テストサンプル、レート=8000) 
 
 #音声コマンドをテキストに変換する
s2t_predict(テストサンプル)