人間とコンピュータの相互作用における感情コンピューティングの役割感情コンピューティングについて話す前に、まず人間の情報コミュニケーションにおける感情そのものの重要性について話しましょう。 感情は、人間の知性、合理的な意思決定、社会的交流、知覚、記憶、学習、創造性において重要な役割を果たします。ある研究では、「人間のコミュニケーションにおける情報の 80% は感情的である」とさえ示されています。しかし、ステータス情報を最も多く伝えることができるのは、なぜ内容ではなく感情なのでしょうか?実際、認知科学の観点から見ると、感情自体は高度な知能の一部です。脳のリソースを割り当てる側として、異なる感情状態は脳がリソースを計算し割り当てる方法に大きな違いをもたらし、思考の実行パスがまったく異なるものになります。さらに、人類の進化により、感情判断の精度は継続的に向上しています。継続的な肯定的なフィードバックにより、私たちは他人の行動傾向を判断するために他人の感情を識別することにますます依存するようになり、それが自動的な認識方法にさえなっています。 感情は人間の情報コミュニケーションにおいて非常に重要な意味を持つため、感情コンピューティングは人間化された人間とコンピュータの相互作用を実現する上で不可欠な要素です。感情認識と理解技術も人間とコンピュータの相互作用の基本技術の 1 つです。これを基に、「需要分析」「ディープユーザーモデリング」「感情表現」「人間味のあるインタラクティブ体験」など、より踏み込んだインタラクションデザインが可能になります。
人間化されたインタラクティブ体験の応用方向は自明です。知能体の「IQ」がそれほど違わない場合は、EQが少し高い知能システムが選択される可能性が高くなります。もちろん、これを実現するには感情分析システムの完全なセットが必要です。 テキスト感情分析からマルチモーダル感情分析へ一般的に、ここで論じる感情分析はテキストにおける感情分析を指しますが、テキスト+画像+表現+絵文字の総合分析や、テキスト+音声+画像の組み合わせ、つまりマルチモーダル感情分析などの多次元感情分析は、現在、感情分析におけるより最先端かつより重要な研究方向となっています。 マルチモーダル感情分析研究の必要性に関して、ここで「感情の帯域幅」という概念について言及する必要があります。これは、人間が表現できる情報量の大きさと次元を指します。たとえば、対面でコミュニケーションをとる場合、感情情報は声のトーン、表情、ボディランゲージなどの複数の次元を通じて表現されることがよくあります。しかし、人間とコンピュータのインタラクションでは、感情の帯域幅のパラダイム全体が大きな変化を遂げます。たとえば、ボディランゲージの次元がない人間とコンピュータの対話システムを介してコミュニケーションする場合、人間の感情の帯域幅は急激に低下するようです。しかし実際には、写真、絵文字、返信時間の長さなど、いくつかの新しい出力ディメンションが追加されています。 自然言語理解技術に加えて、人間とコンピュータの相互作用におけるもう 1 つの難しさは、情報次元の希薄性です。したがって、人間とコンピュータの相互作用における感情分析は、欠落している感情の帯域幅を補うために、可能な限り複数の次元から開始する必要があります。マルチモーダル感情分析は重要な研究方向となっています。内部マルチモーダル分析には絵文字+写真+顔文字+テキストの長さなどが含まれ、外部マルチモーダル分析には表情認識+提供ラベル(性格、趣味、年齢など)+音声などが含まれます。たとえば、Zhujian Intelligence が自然言語理解技術に基づくヒューマン コンピュータ インタラクション システムを構築していたとき、マルチモーダル感情分析技術 (テキスト、音声、画像) を追加し、単一のテキスト次元での感情認識のこれまでの限界を打ち破り、機械が人間をさらに読み、聞き、理解できるようにして、より優れたヒューマン コンピュータ インタラクション効果を実現しました。 感情分析のためのツールと方法構文解析ツリー、畳み込みニューラル ネットワーク、サポート ベクター マシンと組み合わせた LSTM の使用など、感情分析におけるディープラーニングの応用は非常に一般的になっています。一般的に言えば、さまざまな手法を総合的かつ革新的に応用することで、それぞれの長所を生かし、短所を克服する効果が得られ、感情分析の精度が向上します。さらに、ラベルのないテキストから隠れた特徴を学習して、エンドツーエンドの分類を実現することもできます。 テキスト感情分析に最もよく使用されるデータセットは IMDB 映画レビューですが、どのように始めて実践すればよいのでしょうか? Python を例に、簡単なテキスト感情分析から始めましょう。 事前作業: 1. まず Keras (https://keras.io/) をインストールします。Keras は、Tensorflow、CNTK、または Theano 操作 (インストールされているものによって異なります) を基盤として使用する高レベル ネットワーク API です。 Keras インストールガイド: https://keras.io/#installation 2. Keras がインストールされると、この方法 (https://keras.io/datasets/) から IMDB を取得できます。基礎となる API: https://github.com/fchollet/keras/blob/master/keras/datasets/imdb.py 次に、LSTM、双方向 LSTM、CNN、CNN-LSTM などのニューラル ネットワークを使用して感情分析の問題を解決する方法について説明します。 LSTM (長期短期記憶)LSTM の詳細な原理についてはここでは説明しません。興味がある場合は、この記事を参照してください: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 以下では、RNN の概念を使用して感情分析の問題を解決します。 例: ユーザーが「今日はとても悲しいです」と入力し、単語分割後の結果が「今日はとても悲しいです」だった場合、モデルが「悲しい」を出力できると期待します。モデル内の簡単な操作概念を下図に示します。 LSTM は情報を渡し続けてメモリ機能を持ち、最終的にすべての情報を統合してから判断を下します。 Keras を使用すると、上記のモデルをすばやく構築できます。
双方向LSTM双方向 LSTM は LSTM と非常に似ていますが、次の図に示すように、2 つの異なる方向から文を調べます。 このアプローチには利点が 1 つあります。「今日はとても悲しい」という文を例に挙げてみましょう。強調は文の最後に置かれます。しかし、この文を「私はとても幸せです。明日は遊びに出かけます」と変えると、この文の焦点は文頭にあります。したがって、この問題を処理するには双方向 LSTM を使用できます。 同様に、Keras を使用すると、このモデルをすばやく構築できます。
CNN近年、CNN は画像処理の分野で大きな進歩を遂げていますが、テキスト処理に CNN 手法を適用した人もいます。ここでは、2017 年初頭に更新された arxiv の記事「畳み込みニューラル ネットワークの最近の進歩」を共有したいと思います: https://arxiv.org/pdf/1512.07108.pdf CNN の概要を示し、また「5.10. 自然言語処理」では NLP の概要も示します。 それでは、話題に戻りましょう。感情分類に CNN をどのように使用するのでしょうか?
ただし、実用的な観点から見ると、Keras を通じて適切な API (Conv1D) を見つける限り、CNN の原理はそれほど重要ではありません。次の実装例では、このモデルを構築するのに約 20 行のコードが必要です。 完全なコード: https://github.com/fchollet/keras/blob/master/examples/imdb_cnn.py CNN-LSTM上記で LSTM と CNN を紹介しましたが、この 2 つの特性を組み合わせて CNN-LSTM モデルに統合する方法はありますか? Keras を使えばもちろん可能です! 完全なコード: https://github.com/fchollet/keras/blob/master/examples/imdb_cnn_lstm.py 上記は主に、より一般的な実用的な内容を共有しており、目前の問題を解決するのに役立つ可能性があります。しかし、感情分析の問題を解決するために LSTM と CNN を使用するのは、過去 5 年間に開発された技術であり、最新の技術ではありません。 マルチモーダル感情分析について: 最も直感的なアプローチは、ディープラーニング技術を使用して、テキスト、音声、画像の元の入力データを共通の特徴空間にマッピングすることです。テキストを例にとると、元の入力テキストは単語分割(前処理)によって文字と単語に変換され、その後、埋め込み層によってベクトル空間にマッピングされます。CNN を使用してその中の情報を抽出できます。同様に、画像を例にとると、元の入力写真は画像前処理(例:ホワイトニング)によって処理され、その後、CNN を使用して内部の情報が抽出されます。 |
<<: 遺伝的アルゴリズムの基本概念と実装(Java 実装例付き)
蛍光分子を設計するには、分子の光吸収など、分子構造に直接関連するものだけでなく、相互に関連する複数の...
単純な生物はどのようにして特定の場所へ移動できるのか?ウィーン大学で開発された人工知能と物理モデルが...
Reddit のユーザーが通勤に関するステータスを投稿しました。通勤途中に、曲がり角を待つ厄介な交...
作者は長い間ブログを更新していませんでした。その理由の一つは、開発したプロジェクトで使用されている技...
フォーチュン 500 にランクされる世界的なテクノロジー サービス企業 DXC Technology...
AI時代においては、セキュリティを早急に再定義する必要があります。人工知能やモノのインターネットなど...
[[432745]]パーソナライズ医療の需要の高まりは、ヘルスケア市場における人工知能の成長を推進す...
[[418446]]上海のピースホテルはかつて「極東第一のビル」として知られていました。1929年に...
Googleの「反撃」が来た!ジェミニはソラに脚光を奪われましたが、今は再び脚光を浴びているようです...
Stability AI は、Stable Diffusion 3 のリリースに続いて、本日詳細な...
Yao Fu ([email protected]) は、エディンバラ大学の博士課程の学生です。彼は北...
自動運転車に乗って公園を訪れ、休憩中にパビリオンとおしゃべりし、ランニング後に顔をスキャンして運動デ...
[[320546]]人工知能技術には良い影響と悪い影響の両方があり、人類に利益をもたらす一方で、さま...