感情コンピューティングは人間とコンピュータの相互作用の中核となるのでしょうか?感情分析におけるディープラーニングの応用について

人間とコンピュータの相互作用における感情コンピューティングの役割

感情コンピューティングについて話す前に、まず人間の情報コミュニケーションにおける感情そのものの重要性について話しましょう。

感情は、人間の知性、合理的な意思決定、社会的交流、知覚、記憶、学習、創造性において重要な役割を果たします。ある研究では、「人間のコミュニケーションにおける情報の 80% は感情的である」とさえ示されています。しかし、ステータス情報を最も多く伝えることができるのは、なぜ内容ではなく感情なのでしょうか?実際、認知科学の観点から見ると、感情自体は高度な知能の一部です。脳のリソースを割り当てる側として、異なる感情状態は脳がリソースを計算し割り当てる方法に大きな違いをもたらし、思考の実行パスがまったく異なるものになります。さらに、人類の進化により、感情判断の精度は継続的に向上しています。継続的な肯定的なフィードバックにより、私たちは他人の行動傾向を判断するために他人の感情を識別することにますます依存するようになり、それが自動的な認識方法にさえなっています。

感情は人間の情報コミュニケーションにおいて非常に重要な意味を持つため、感情コンピューティングは人間化された人間とコンピュータの相互作用を実現する上で不可欠な要素です。感情認識と理解技術も人間とコンピュータの相互作用の基本技術の 1 つです。これを基に、「需要分析」「ディープユーザーモデリング」「感情表現」「人間味のあるインタラクティブ体験」など、より踏み込んだインタラクションデザインが可能になります。

ディープモデリングを例に挙げてみましょう。人とチャットすることで、AI は感情分析を使用してエンティティに効率的かつ自動的にラベルを付け、独自の感情辞書を実現できます。ユーザーの好みやその程度を理解し、その情報をモデリングに使用することで、パーソナルアシスタントを主張しながら実際には十分にパーソナライズされていない Siri のようなものではなく、時間の経過とともに「パーソナライズ」を実現できます。
感情表現に関しては、人間とコンピュータの対話システムが感情を誘発することができます。感情を判定した後、異なる返答を使用して感情傾向を変えることができます。たとえば、対話システムは、次にどの返答をするとユーザーに喜び、驚き、悲しみなどの感情傾向が生じるかを判定できます。実際、人々に何かを感じてもらうことは、より人間的な交流を実現するための一歩となります。

人間化されたインタラクティブ体験の応用方向は自明です。知能体の「IQ」がそれほど違わない場合は、EQが少し高い知能システムが選択される可能性が高くなります。もちろん、これを実現するには感情分析システムの完全なセットが必要です。

テキスト感情分析からマルチモーダル感情分析へ

一般的に、ここで論じる感情分析はテキストにおける感情分析を指しますが、テキスト＋画像＋表現＋絵文字の総合分析や、テキスト＋音声＋画像の組み合わせ、つまりマルチモーダル感情分析などの多次元感情分析は、現在、感情分析におけるより最先端かつより重要な研究方向となっています。

マルチモーダル感情分析研究の必要性に関して、ここで「感情の帯域幅」という概念について言及する必要があります。これは、人間が表現できる情報量の大きさと次元を指します。たとえば、対面でコミュニケーションをとる場合、感情情報は声のトーン、表情、ボディランゲージなどの複数の次元を通じて表現されることがよくあります。しかし、人間とコンピュータのインタラクションでは、感情の帯域幅のパラダイム全体が大きな変化を遂げます。たとえば、ボディランゲージの次元がない人間とコンピュータの対話システムを介してコミュニケーションする場合、人間の感情の帯域幅は急激に低下するようです。しかし実際には、写真、絵文字、返信時間の長さなど、いくつかの新しい出力ディメンションが追加されています。

自然言語理解技術に加えて、人間とコンピュータの相互作用におけるもう 1 つの難しさは、情報次元の希薄性です。したがって、人間とコンピュータの相互作用における感情分析は、欠落している感情の帯域幅を補うために、可能な限り複数の次元から開始する必要があります。マルチモーダル感情分析は重要な研究方向となっています。内部マルチモーダル分析には絵文字＋写真＋顔文字＋テキストの長さなどが含まれ、外部マルチモーダル分析には表情認識＋提供ラベル（性格、趣味、年齢など）＋音声などが含まれます。たとえば、Zhujian Intelligence が自然言語理解技術に基づくヒューマンコンピュータインタラクションシステムを構築していたとき、マルチモーダル感情分析技術 (テキスト、音声、画像) を追加し、単一のテキスト次元での感情認識のこれまでの限界を打ち破り、機械が人間をさらに読み、聞き、理解できるようにして、より優れたヒューマンコンピュータインタラクション効果を実現しました。

感情分析のためのツールと方法

構文解析ツリー、畳み込みニューラルネットワーク、サポートベクターマシンと組み合わせた LSTM の使用など、感情分析におけるディープラーニングの応用は非常に一般的になっています。一般的に言えば、さまざまな手法を総合的かつ革新的に応用することで、それぞれの長所を生かし、短所を克服する効果が得られ、感情分析の精度が向上します。さらに、ラベルのないテキストから隠れた特徴を学習して、エンドツーエンドの分類を実現することもできます。

テキスト感情分析に最もよく使用されるデータセットは IMDB 映画レビューですが、どのように始めて実践すればよいのでしょうか? Python を例に、簡単なテキスト感情分析から始めましょう。

事前作業:

1. まず Keras (https://keras.io/) をインストールします。Keras は、Tensorflow、CNTK、または Theano 操作 (インストールされているものによって異なります) を基盤として使用する高レベルネットワーク API です。

Keras インストールガイド: https://keras.io/#installation

2. Keras がインストールされると、この方法 (https://keras.io/datasets/) から IMDB を取得できます。基礎となる API: https://github.com/fchollet/keras/blob/master/keras/datasets/imdb.py

次に、LSTM、双方向 LSTM、CNN、CNN-LSTM などのニューラルネットワークを使用して感情分析の問題を解決する方法について説明します。

LSTM (長期短期記憶)

LSTM の詳細な原理についてはここでは説明しません。興味がある場合は、この記事を参照してください: http://colah.github.io/posts/2015-08-Understanding-LSTMs/

以下では、RNN の概念を使用して感情分析の問題を解決します。

例: ユーザーが「今日はとても悲しいです」と入力し、単語分割後の結果が「今日はとても悲しいです」だった場合、モデルが「悲しい」を出力できると期待します。モデル内の簡単な操作概念を下図に示します。 LSTM は情報を渡し続けてメモリ機能を持ち、最終的にすべての情報を統合してから判断を下します。

Keras を使用すると、上記のモデルをすばやく構築できます。

完全なコード: https://github.com/fchollet/keras/blob/master/examples/imdb_lstm.py
詳細なコードの説明: http://machinelearningmastery.com/sequence-classification-lstm-recurrent-neural-networks-python-keras/

双方向LSTM

双方向 LSTM は LSTM と非常に似ていますが、次の図に示すように、2 つの異なる方向から文を調べます。

このアプローチには利点が 1 つあります。「今日はとても悲しい」という文を例に挙げてみましょう。強調は文の最後に置かれます。しかし、この文を「私はとても幸せです。明日は遊びに出かけます」と変えると、この文の焦点は文頭にあります。したがって、この問題を処理するには双方向 LSTM を使用できます。

同様に、Keras を使用すると、このモデルをすばやく構築できます。

LSTM を「双方向」ラッパーでラップするだけで準備完了です。
完全なコード: https://github.com/fchollet/keras/blob/master/examples/imdb_bidirectional_lstm.py

CNN

近年、CNN は画像処理の分野で大きな進歩を遂げていますが、テキスト処理に CNN 手法を適用した人もいます。ここでは、2017 年初頭に更新された arxiv の記事「畳み込みニューラルネットワークの最近の進歩」を共有したいと思います: https://arxiv.org/pdf/1512.07108.pdf

CNN の概要を示し、また「5.10. 自然言語処理」では NLP の概要も示します。

それでは、話題に戻りましょう。感情分類に CNN をどのように使用するのでしょうか?

詳細な原則については、この論文を参照してください：https://arxiv.org/abs/1408.5882
これは有名なブログ WildML が書いた紹介文です: http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/

ただし、実用的な観点から見ると、Keras を通じて適切な API (Conv1D) を見つける限り、CNN の原理はそれほど重要ではありません。次の実装例では、このモデルを構築するのに約 20 行のコードが必要です。

完全なコード: https://github.com/fchollet/keras/blob/master/examples/imdb_cnn.py

CNN-LSTM

上記で LSTM と CNN を紹介しましたが、この 2 つの特性を組み合わせて CNN-LSTM モデルに統合する方法はありますか? Keras を使えばもちろん可能です!

完全なコード: https://github.com/fchollet/keras/blob/master/examples/imdb_cnn_lstm.py

上記は主に、より一般的な実用的な内容を共有しており、目前の問題を解決するのに役立つ可能性があります。しかし、感情分析の問題を解決するために LSTM と CNN を使用するのは、過去 5 年間に開発された技術であり、最新の技術ではありません。

マルチモーダル感情分析について: 最も直感的なアプローチは、ディープラーニング技術を使用して、テキスト、音声、画像の元の入力データを共通の特徴空間にマッピングすることです。テキストを例にとると、元の入力テキストは単語分割（前処理）によって文字と単語に変換され、その後、埋め込み層によってベクトル空間にマッピングされます。CNN を使用してその中の情報を抽出できます。同様に、画像を例にとると、元の入力写真は画像前処理（例：ホワイトニング）によって処理され、その後、CNN を使用して内部の情報が抽出されます。

<<: 遺伝的アルゴリズムの基本概念と実装（Java 実装例付き）

>>: ディープラーニング：先入観、限界、そして未来