高度な長期短期記憶ネットワーク: 感情認識のためのより優れた時間依存性特性について

高度な長期短期記憶ネットワーク: 感情認識のためのより優れた時間依存性特性について

[51CTO.com からのオリジナル記事] Long Short-Term Memory Network (LSTM) は、このレイヤーの現在の状態が前の瞬間の状態に依存するという仮定を意味します。この「ワンステップ」の時間依存性により、シーケンス信号の動的特性をモデル化する LSTM の能力が制限される可能性があります。本稿では、この問題に対処するために、高度な長短期記憶ネットワーク (A-LSTM) を提案します。線形結合を使用して、複数の時点での現在の層の状態を組み合わせ、従来の LSTM の制限を克服します。本稿では、A-LSTM を感情認識に適用します。実験結果によると、従来の LSTM を使用するシステムと比較して、A-LSTM を使用するシステムは認識率を 5.5% 向上できることがわかりました。

背景

LSTM は現在 RNN で広く使用されています。これは、シーケンシャル信号のモデリングにおける RNN の応用を促進します。 LSTM には 2 つの入力があり、1 つは前のレイヤーから、もう 1 つはこのレイヤーの前の瞬間からのものです。したがって、LSTM は、このレイヤーの現在の状態が前の瞬間の状態に依存することを暗黙的に想定します。この「ワンステップ」の時間依存性により、シーケンス信号の動的特性をモデル化する LSTM の能力が制限される可能性があります (特に、時間依存性が長い時間軸にまたがるタスクの場合)。本稿では、従来の LSTM の限界を打ち破るためにこの問題に対処する高度な LSTM (A-LSTM) を提案します。 A-LSTM は線形結合を使用して、現在のレイヤーの状態を複数の時点に結合するため、1 ステップ前の状態だけでなく、さらに遡った履歴状態も確認できます。

本稿では、発話レベルでの感情認識タスクに A-LSTM を適用します。従来の感情認識は、平均、分散などの低レベルの記述子の統計を文全体から抽出することに依存しています。実際のアプリケーションでは、文章全体の中で長い沈黙や非音声音が含まれる場合があるため、このような統計は正確ではない可能性があります。本稿では、注意モデルに基づく重み付きプーリング再帰型ニューラル ネットワークを使用して、文レベルで特徴をより効果的に抽出します。

高度な長期短期記憶ネットワーク

A-LSTM は線形結合を使用して、複数の時点での現在のレイヤーの状態を結合します。線形結合は、注意モデルに似たメカニズムを使用して計算されます。具体的な計算式は以下のとおりです。

図1では、C'(t)は前の時間状態の線形結合です。この線形結合後の時間状態は、更新のために次の時点に入力されます。それぞれの更新は、前の瞬間だけではなく、複数の瞬間の組み合わせの更新であると想像できます。この組み合わせの重みは注意モデルによって制御されるため、A-LSTM は学習を通じて異なる時点間の重み比を自動的に調整できます。依存関係が長期間にわたる場合、遠い過去の歴史的状態が比較的大きな割合を占める可能性があります。逆に、より最近の歴史的状態が比較的大きな割合を占めることになります。

図1 展開されたA-LSTM

重み付きプーリング再帰型ニューラルネットワーク

図 2 注意ベースの重み付きプーリング RNN。

本稿では、感情認識のための注意モデルに基づく重み付きプーリング再帰型ニューラルネットワークを使用します(図 2 参照)。このニューラル ネットワークへの入力は、一連の音響信号です。注意モデルを使用すると、ニューラル ネットワークは各時点での重みを自動的に調整し、各時点での出力の加重平均 (加重プーリング) を実行できます。加重平均の結果は、シーケンス全体を特徴付けることができる式です。注意モデルの存在により、この表現の抽出には有効な情報が含まれ、無駄な情報(入力シーケンス内の長い無音部分など)が回避されます。これは、シーケンス全体の統計(opensmile によって抽出されたいくつかの最下位レベルの特徴など)を単純に計算するよりも優れています。 モデルをより適切にトレーニングするために、感情認識タスクに加えて、話者認識と性別認識という 2 つの補助タスクを追加しました。 システムパフォーマンスを向上させるために、このモデルでは A-LSTM を使用しました。

実験

実験段階では、IEMOCAP データセットから 4 つのカテゴリのデータ (幸せ、怒り、悲しみ、正常) を使用します。音声ファイルは全部で4490個あります。テストデータとして、男性話者 1 名と女性話者 1 名のデータをランダムに選択します。残りのデータはトレーニングに使用されます (データの 10% は検証データとして使用されます)。私たちは、加重平均 F スコア (MAF)、加重平均精度 (MAP)、および精度という 3 つの測定指標を使用します。

MECC、信号ゼロ交差率、エネルギー、エネルギーエントロピー、スペクトル重心、スペクトルフラックス、スペクトルロールオフ、12次元クロマベクトル、クロマ偏差、高調波比、音声基本周波数の合計36個の特徴を抽出しました。これらのシーケンス機能は、文全体のレベルで正規化された後、トレーニングまたはテストのためにシステムに送信されます。

この実験では、システムには 2 つのニューロン層があります。最初の層は完全に接続された層で、256 個の正規化された線形ユニットで構成されています。 2 番目の層は双方向の長短期記憶ネットワーク (双方向 LSTM (BLST)) です。両方向に合計 256 個のニューロンがあります。その後に、注意モデルに基づく重み付けプーリング層が続きます。上部には、それぞれ 3 つのタスクに対応する 3 つの柔軟な *** 値転送関数レイヤーがあります。 3 つのタスクに異なる重みを割り当て、感情認識には 1、話者認識には 0.3、性別認識には 0.6 の重みを割り当てました。 A-LSTM を適用する場合、第 2 層の BLSTM を双方向 A-LSTM に置き換え、他のすべてのパラメータは変更されません。ここで、A-LSTM は線形結合のために 3 つの時点の状態、つまり 5 時点前 (t-5)、3 時点前 (t-3)、1 時点前 (t-1) を選択します。実験結果は次のとおりです。

平均 LSTM は A-LSTM に似ています。唯一の違いは、選択された複数の時点の状態の線形結合を作成するときに、注意モデルを使用せず、単純に算術平均を取ることです。

結論は

従来の LSTM を使用するシステムと比較して、A-LSTM を使用するシステムはより優れた認識率を示します。加重プーリング プロセスは、すべての時点における出力の加重平均を実行するため、システム パフォーマンスの向上は、上位層でより多くの時点を確認するなどの他の要因ではなく、A-LSTM のより柔軟な時間依存モデルからのみ得られます。そして、この改善にかかるコストは、パラメータが数百増えるだけです。

著者: フェイ・タオ、 ガン・リウ

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  アマゾンがホームロボット「Vesta」を開発、2019年に販売開始

>>:  ITBハードドライブがあなたを待っています | 人工知能+ブロックチェーンの開発動向と応用に関する研究

ブログ    
ブログ    

推薦する

...

無人バスは無人タクシーよりも信頼性が高いでしょうか?

バスがプラットフォームに到着するのを待って、バスに乗り、カードをスワイプします。いつもの朝の通勤風景...

DeLu Deep Visionが蘇州スマート博覧会に登場、3Dフルスタックでマシンビジョンの新時代を切り開く

8月14日、2020年世界人工知能製品応用博覧会(AIExpo2020)が予定通り蘇州国際博覧センタ...

インテリジェントロボット:ハイエンド製造レベルの重要な指標

[51CTO.com からのオリジナル記事] ロボット製造は現在、知能ロボットの時代である 2.0 ...

ニューラル ネットワークを構築する超簡単な方法、あなたにもできます!

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

...

なぜスパムメールがこんなに多いのでしょうか? Redditの男が機械学習の残酷な現実を暴露

近年、AIのトレンドは高まるばかりで、毎年大規模な機械学習カンファレンスが盛んに開催されており、誰も...

患者が人工知能から得られる恩恵

今日では、データの分析や解釈、問題解決の支援など、以前は人間が行っていたタスクを実行する高度なマシン...

...

AIビッグモデルは今後も拡大し続けるのか?

人工知能は現在、ビジネスと金融のあらゆる側面に急速に導入されています。いくつかの刺激的な成功により、...

大規模データストレージソリューションの構築: MongoDB の水平拡張の検討

MongoDB は、大規模なデータ ストレージ ソリューションの構築に適した NoSQL データベー...

LeCun はそれを見て良かったと言っていました! Meta AI は音声、視覚、テキストで同時に SOTA を達成

人間の知能は「マルチモーダル学習」の総体であり、分類の境界を越えてさまざまな情報源や形式からの情報と...

...

sklearnのトレーニング速度が100倍以上向上、米「Fanli.com」がsk-distフレームワークをオープンソース化

この記事では、Ibotta (「Rebate Network」の米国版) の機械学習およびデータ サ...