高度な長期短期記憶ネットワーク: 感情認識のためのより優れた時間依存性特性について

高度な長期短期記憶ネットワーク: 感情認識のためのより優れた時間依存性特性について

[51CTO.com からのオリジナル記事] Long Short-Term Memory Network (LSTM) は、このレイヤーの現在の状態が前の瞬間の状態に依存するという仮定を意味します。この「ワンステップ」の時間依存性により、シーケンス信号の動的特性をモデル化する LSTM の能力が制限される可能性があります。本稿では、この問題に対処するために、高度な長短期記憶ネットワーク (A-LSTM) を提案します。線形結合を使用して、複数の時点での現在の層の状態を組み合わせ、従来の LSTM の制限を克服します。本稿では、A-LSTM を感情認識に適用します。実験結果によると、従来の LSTM を使用するシステムと比較して、A-LSTM を使用するシステムは認識率を 5.5% 向上できることがわかりました。

背景

LSTM は現在 RNN で広く使用されています。これは、シーケンシャル信号のモデリングにおける RNN の応用を促進します。 LSTM には 2 つの入力があり、1 つは前のレイヤーから、もう 1 つはこのレイヤーの前の瞬間からのものです。したがって、LSTM は、このレイヤーの現在の状態が前の瞬間の状態に依存することを暗黙的に想定します。この「ワンステップ」の時間依存性により、シーケンス信号の動的特性をモデル化する LSTM の能力が制限される可能性があります (特に、時間依存性が長い時間軸にまたがるタスクの場合)。本稿では、従来の LSTM の限界を打ち破るためにこの問題に対処する高度な LSTM (A-LSTM) を提案します。 A-LSTM は線形結合を使用して、現在のレイヤーの状態を複数の時点に結合するため、1 ステップ前の状態だけでなく、さらに遡った履歴状態も確認できます。

本稿では、発話レベルでの感情認識タスクに A-LSTM を適用します。従来の感情認識は、平均、分散などの低レベルの記述子の統計を文全体から抽出することに依存しています。実際のアプリケーションでは、文章全体の中で長い沈黙や非音声音が含まれる場合があるため、このような統計は正確ではない可能性があります。本稿では、注意モデルに基づく重み付きプーリング再帰型ニューラル ネットワークを使用して、文レベルで特徴をより効果的に抽出します。

高度な長期短期記憶ネットワーク

A-LSTM は線形結合を使用して、複数の時点での現在のレイヤーの状態を結合します。線形結合は、注意モデルに似たメカニズムを使用して計算されます。具体的な計算式は以下のとおりです。

図1では、C'(t)は前の時間状態の線形結合です。この線形結合後の時間状態は、更新のために次の時点に入力されます。それぞれの更新は、前の瞬間だけではなく、複数の瞬間の組み合わせの更新であると想像できます。この組み合わせの重みは注意モデルによって制御されるため、A-LSTM は学習を通じて異なる時点間の重み比を自動的に調整できます。依存関係が長期間にわたる場合、遠い過去の歴史的状態が比較的大きな割合を占める可能性があります。逆に、より最近の歴史的状態が比較的大きな割合を占めることになります。

図1 展開されたA-LSTM

重み付きプーリング再帰型ニューラルネットワーク

図 2 注意ベースの重み付きプーリング RNN。

本稿では、感情認識のための注意モデルに基づく重み付きプーリング再帰型ニューラルネットワークを使用します(図 2 参照)。このニューラル ネットワークへの入力は、一連の音響信号です。注意モデルを使用すると、ニューラル ネットワークは各時点での重みを自動的に調整し、各時点での出力の加重平均 (加重プーリング) を実行できます。加重平均の結果は、シーケンス全体を特徴付けることができる式です。注意モデルの存在により、この表現の抽出には有効な情報が含まれ、無駄な情報(入力シーケンス内の長い無音部分など)が回避されます。これは、シーケンス全体の統計(opensmile によって抽出されたいくつかの最下位レベルの特徴など)を単純に計算するよりも優れています。 モデルをより適切にトレーニングするために、感情認識タスクに加えて、話者認識と性別認識という 2 つの補助タスクを追加しました。 システムパフォーマンスを向上させるために、このモデルでは A-LSTM を使用しました。

実験

実験段階では、IEMOCAP データセットから 4 つのカテゴリのデータ (幸せ、怒り、悲しみ、正常) を使用します。音声ファイルは全部で4490個あります。テストデータとして、男性話者 1 名と女性話者 1 名のデータをランダムに選択します。残りのデータはトレーニングに使用されます (データの 10% は検証データとして使用されます)。私たちは、加重平均 F スコア (MAF)、加重平均精度 (MAP)、および精度という 3 つの測定指標を使用します。

MECC、信号ゼロ交差率、エネルギー、エネルギーエントロピー、スペクトル重心、スペクトルフラックス、スペクトルロールオフ、12次元クロマベクトル、クロマ偏差、高調波比、音声基本周波数の合計36個の特徴を抽出しました。これらのシーケンス機能は、文全体のレベルで正規化された後、トレーニングまたはテストのためにシステムに送信されます。

この実験では、システムには 2 つのニューロン層があります。最初の層は完全に接続された層で、256 個の正規化された線形ユニットで構成されています。 2 番目の層は双方向の長短期記憶ネットワーク (双方向 LSTM (BLST)) です。両方向に合計 256 個のニューロンがあります。その後に、注意モデルに基づく重み付けプーリング層が続きます。上部には、それぞれ 3 つのタスクに対応する 3 つの柔軟な *** 値転送関数レイヤーがあります。 3 つのタスクに異なる重みを割り当て、感情認識には 1、話者認識には 0.3、性別認識には 0.6 の重みを割り当てました。 A-LSTM を適用する場合、第 2 層の BLSTM を双方向 A-LSTM に置き換え、他のすべてのパラメータは変更されません。ここで、A-LSTM は線形結合のために 3 つの時点の状態、つまり 5 時点前 (t-5)、3 時点前 (t-3)、1 時点前 (t-1) を選択します。実験結果は次のとおりです。

平均 LSTM は A-LSTM に似ています。唯一の違いは、選択された複数の時点の状態の線形結合を作成するときに、注意モデルを使用せず、単純に算術平均を取ることです。

結論は

従来の LSTM を使用するシステムと比較して、A-LSTM を使用するシステムはより優れた認識率を示します。加重プーリング プロセスは、すべての時点における出力の加重平均を実行するため、システム パフォーマンスの向上は、上位層でより多くの時点を確認するなどの他の要因ではなく、A-LSTM のより柔軟な時間依存モデルからのみ得られます。そして、この改善にかかるコストは、パラメータが数百増えるだけです。

著者: フェイ・タオ、 ガン・リウ

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  アマゾンがホームロボット「Vesta」を開発、2019年に販売開始

>>:  ITBハードドライブがあなたを待っています | 人工知能+ブロックチェーンの開発動向と応用に関する研究

ブログ    
ブログ    
ブログ    

推薦する

AIを正しい方向に導く

過去 1 年間、私は何百人ものクライアントにインタビューし、AI によって可能性に対する認識がどのよ...

...

掃除ロボットに抜け穴がある!あるいは数秒で盗聴ツールに変わる可能性もある

先日、陝西省西安市は「サイバーセキュリティは人々のためのものであり、サイバーセキュリティは人々に依存...

自動応答は人工知能ではなく、自律応答は

セキュリティ オペレーション センター (SOC) のアナリストは推論と意思決定に優れていますが、2...

エレクトロニック・アーツは、人工知能によってゲームキャラクターがよりリアルになると述べている

どのビデオゲームでも、キャラクターが予想外の行動をとって没入感を壊してしまう瞬間が必ずあります。もし...

組み込み物流ロボットの用途は何ですか?

ネットワーク技術やグリッドコンピューティングの発展により、組み込み型モバイル機器を中核とした「ユビキ...

...

再び攻撃! AI+教育に注力する学百軍は、年間10億元という小さな目標を設定

「今年末までに、学覇君は年間売上高10億元を確保するという小さな目標を達成する予定です」と張凱蕾氏は...

百度地図のデータ収集リンクの80%はAIベースになっており、旅行業界はインテリジェントにアップグレードされている

人工知能時代の地図データ制作はどのような変化を遂げるのでしょうか?7月3日、「Baidu Creat...

2024 年の IT 管理トレンド: ジェネレーティブ AI など

2023 年の幕がゆっくりと下りる中、IT 業界は楽観と慎重さをもって新年を待ち望んでいます。警戒感...

2020 年の AI と機械学習の重要なトレンドは何ですか?

競争が激化するテクノロジー市場において、ハイテク新興企業から世界的な多国籍企業まで、誰もが人工知能を...

OpenAI の予測: スーパーインテリジェンスは 10 年以内に到来する!鄭済集落は人類を救い、4年で同盟を完全に征服した

スーパーAIがみんなを殺す!サム・アルトマン氏は、AI の将来について何度も公に懸念を表明しており、...

第2回解析アルゴリズムコンテストが開始され、技術専門家があなたの参加を待っています

データスキルについてまだ不安がありますか?アルゴリズムの革新を適用できる場所はありませんか?こんなに...

AI セキュリティの大手企業は 2020 年にどのような行動を取るのでしょうか?

7月9日から7月11日まで、2020年世界人工知能会議クラウドサミットが上海で閉幕しました。「イン...

...