肯定的ですか? 否定的ですか? 中立的ですか? Stanford CoreNLP コンポーネントと数行のコードを使用して文章を分析します。
この記事では、自然言語処理用のオープンソース ライブラリである Stanford CoreNLP に統合された感情ツールを使用して、このようなタスクを Java で実装する方法について説明します。 スタンフォード CoreNLP 感情分類器感情分析を実行するには、トレーニング データセットから学習した予測に基づいて感情情報を識別できるツールである感情分類器が必要です。 Stanford CoreNLP では、感情分類器は、Stanford Sentiment Treebank (SST) でトレーニングされたリカレント ニューラル ネットワーク (RNN) ディープラーニング モデルに基づいて構築されています。 SST データセットは、感情ラベル付けされたコーパスであり、構文的に可能なすべてのフレーズが何千もの使用済み文から派生しており、テキスト内の感情の構成効果を捉えることができます。簡単に言えば、これによりモデルは単語を単独で評価するのではなく、単語がフレーズの意味をどのように形成するかに基づいて感情を識別できるようになります。 SST データセットの構造をより深く理解するには、Stanford CoreNLP 感情分析ページからデータセット ファイルをダウンロードしてください。 Java コードでは、Stanford CoreNLP 感情分類器は次のように使用されます。 まず、トークン化、分割、解析、感情などの感情分析を実行するために必要なアノテーターを追加して、テキスト処理パイプラインを構築します。 Stanford CoreNLP のコンテキストでは、アノテーターは、ドキュメント内のテキストの一部を表す注釈オブジェクトを操作するインターフェースです。 たとえば、トークン シーケンスを文に分割するには、ssplit アノテーターが必要です。 Stanford CoreNLP は文ごとに感情を計算します。 したがって、感情アノテーターを適用した後は必ず、テキストを文に分割するプロセスが続きます。 テキストが文に分割されると、解析アノテーターは構文依存関係の解析を実行し、各文の依存関係表現を生成します。 次に、感情アノテーターはこれらの依存関係の表現を処理し、基礎となるモデルと比較して、各文の感情ラベル (アノテーション) を含むバイナリ ツリーを構築します。 簡単に言えば、ツリーのノードは入力文のトークンによって決定され、文から派生したすべてのフレーズに対して、非常に否定的なものから非常に肯定的なものまで 5 つの感情カテゴリの中から予測されるカテゴリを示す注釈が含まれます。 これらの予測に基づいて、感情アノテーターは文全体の感情を計算します。 Stanford CoreNLP の設定Stanford CoreNLP の使用を開始する前に、次の設定を行う必要があります。 Stanford CoreNLP を実行するには、Java 1.8 以上が必要です。 Stanford CoreNLP パッケージをダウンロードし、パッケージをマシン上のローカル フォルダーに解凍します。 ダウンロードアドレス: https://nlp.stanford.edu/software/stanford-corenlp-latest.zip この記事では、上記のコードを例として、次のディレクトリに解凍します。 c:/softwareInstall/corenlp/stanford-corenlp-4.3.2 上記の手順を完了すると、Stanford CoreNLP パイプラインを実行してテキストを処理する Java プログラムを作成する準備が整います。 まず、新しい Maven プロジェクトを作成し、stanford-corenlp-4.3.2 をライブラリに手動で追加します。 次の例では、Stanford CoreNLP パイプラインを実行して複数の文を含むテキストの感情分析を実行する簡単な Java プログラムを実装します。 まず、パイプラインを初期化するメソッドと、このパイプラインを使用して送信されたテキストを文に分割し、各文の感情を分類するメソッドを提供する NlpPipeline クラスを実装します。 以下は NlpPipeline クラスのコードです。
init() メソッドは StanfordCoreNLP パイプラインを初期化します。これにより、感情ツールを使用するために必要なトークナイザー、依存関係パーサー、および文スプリッターも初期化されます。 パイプラインを初期化するには、適切なアノテーターのリストを含む Properties オブジェクトを StanfordCoreNLP() コンストラクターに渡します。 これにより、テキストに対して感情分析を実行する準備が整ったカスタム パイプラインが作成されます。 NlpPipeline クラスの estimatingSentiment() メソッドで、先ほど作成したパイプライン オブジェクトの process() メソッドを呼び出し、処理するテキストを渡します。 process() メソッドは、送信されたテキストの分析を保存する注釈オブジェクトを返します。 次に、注釈オブジェクトを反復処理し、各反復で文レベルの CoreMap オブジェクトを取得します。これらのオブジェクトごとに、基礎となる文の感情を決定するために使用される感情注釈を含む Tree オブジェクトを取得します。 Tree オブジェクトを RNNCoreAnnotations クラスの getPredictedClass() メソッドに渡して、文の予測された感情に対応する数値コードを抽出します。次に、予測された感情の名前を取得し、結果を出力します。 上記の機能をテストするには、init() メソッドを呼び出し、次に nlpPipeline クラスの estimatingSentiment() メソッドを呼び出してサンプル テキストを渡す main() メソッドを持つクラスを実装します。 以下の実装では、簡潔にするためにテキストを直接指定します。例文は、Stanford CoreNLP で利用可能な感情スコアの全範囲 (非常に肯定的、肯定的、中立的、否定的、非常に否定的) をカバーするように設計されています。
実行結果: オンライン顧客レビューを分析する前の例から学んだように、Stanford CoreNLP は文の感情を返すことができます。 ただし、複数の段落のテキストの感情を分析する必要があるユースケースは数多くあり、各段落には複数の文が含まれる場合があります。 たとえば、eコマース サイトのツイートや顧客レビューの感情を分析したい場合があります。 Stanford CoreNLP を使用して複数文のテキスト サンプルの感情を計算するには、いくつかの異なる手法を使用する場合があります。 ツイートを処理するときに、ツイート内の各文の感情を分析し、肯定的または否定的な文がある場合は、中立的な感情の文を無視して、ツイート全体を個別にランク付けすることができます。 ツイート内のすべての(またはほぼすべての)文が中立的である場合、そのツイートは中立的として分類されることがあります。 ただし、テキスト全体の感情を推測するために、すべての文を分析する必要がない場合もあります。 たとえば、顧客レビューを分析する場合、通常は 1 つの文で構成される見出しを頼りにすることができます。 次の例を完了するには、一連の顧客レビューが必要です。 この記事に付属する NlpBookReviews.csv ファイルのレビューを使用できます。 このファイルには、Amazon Review Export を利用して Amazon Web ページからダウンロードされた実際のレビューのセットが含まれています。Amazon Review Export は、製品レビューをタイトルや評価とともにコンマ区切り値 (CSV) ファイルにダウンロードできる Google Chrome ブラウザ拡張機能です。(このツールを使用して、分析用に別のレビュー セットを調べることができます。) NlpPipelineに次のコードを追加します
上記のコードは、前のセクションで定義した estimatingSentiment() メソッドのコードと似ていることに気付くかもしれません。 唯一の大きな違いは、今回は入力テキスト内の文を反復処理しないことです。 ほとんどの場合、レビューのタイトルは 1 つの文で構成されているため、代わりに最初の文のみが表示されます。 次のコードは、CSV ファイルからコメントを読み取り、新しく作成された findSentiment() に渡して処理します。
実行結果: 完全なコード: Nlpパイプライン.java
メイン.java
|
>>: 海外メディア:ロボットは人間の生活を変え、雇用や結婚のパターンに影響を与える
コロナウイルスのパンデミック以前、AI業界は2020年に大きな成長を遂げると予想されていました。 2...
[51CTO.com クイック翻訳] ご存知のとおり、決定木は実生活で多くの実用的なシナリオで利用さ...
IT Homeは11月7日、マイクロソフトがInworld AIと協力し、開発者がAIベースのキャ...
Google の中国ウェブマスター ブログにログインすると、4 月 22 日の午後に更新された「品質...
シーメンスとマイクロソフトは協力し、人間と機械のコラボレーションを強化し、生産性を向上させるように設...
[[264444]]私たちはどんな新しいテクノロジーについても誤解しがちです。これは特にAI分野で顕...
先週は、古典的な CNN ネットワーク AlexNet が画像分類に与える影響についてお話ししました...
12月2日、国家工業情報セキュリティ発展研究センターは「中国人工知能特許技術分析報告書」を発表し、百...
ビッグデータとディープラーニングの利用が増えるにつれて、基盤となるハードウェアとチップに新たな要件が...
この記事は、著者が長年にわたり蓄積し収集してきた知識とスキルのマップです。編集者は、これを周囲の技術...