自然言語処理がヒラリーとトランプの「話し方」を分析

自然言語処理がヒラリーとトランプの「話し方」を分析

[[173621]]

編集者注:現地時間10月9日、米国大統領選挙の2人の候補者による第2回公開討論会が開催されます。トランプ氏と対立候補のヒラリー・クリントン氏は、セントルイスのワシントン大学で90分間の第2回選挙討論会を開催します。

スピーチでも討論でも、両候補者はそれぞれ独特の「話し方」を持っています。意味解析と自然言語処理を使って彼らの話し方を分析するのは興味深いことです。この記事では、自然言語処理を使用して 2 人の大統領候補の指名演説を分析し、言葉の選択やスピーチのリズムの異なる特徴を明らかにします。

データサイエンスは多くの分野に応用できます。画像処理から人工知能まで、あらゆることが可能です。中でも、セマンティック分析はソーシャルメディアのモニタリングに非常に役立ちます。この記事は、Twitter や Facebook 上のコメントの分析ではなく、政治に焦点を当てています。

今年7月21日、オハイオ州クリーブランドで開催された共和党全国大会の最終日に、ドナルド・トランプ氏が共和党の大統領候補指名を受諾した。 1週間後の28日、ヒラリー・クリントンはフィラデルフィアで民主党の大統領候補指名を受諾した。

彼らは家族や何千人ものファンの支援を受けながら指名演説を行った。この記事では、この政治的コミュニケーションの背後にある隠された意味をより深く理解するためにこれを分析します。この記事では、語彙、スタイル、リズムという 3 つの特徴に焦点を当てます。

語彙を深く学ぶ

誰が最も多くの語彙を使用しているかを評価する 1 つの方法は、話者が使用する固有の単語の数を確認することです。これを行うには、まず英語で「意味」を持たない単語(「the」、「a」、「of」など)を削除する必要があります。これらの単語はストップワードとも呼ばれます。リストは http://www.ranks.nl/stopwords にあります。 2 番目に、繰り返される単語は 1 回しかカウントされません。スノーボール ステマー アルゴリズムは、英語の名詞の単数形と複数形、および動詞のさまざまな人称時制を処理するためにも使用されます。たとえば、Leaders と Leader は 1 つの単語として扱われ、Am と Are も 1 つの単語として扱われます。

注: Snowball Stemmer アルゴリズムの詳細については、http://snowball.tartarus.org/texts/introduction.html を参照してください。

トランプ氏の演説の語彙の約 13% が独特であることがわかりました (全文の 7,460 語のうち 965 語が語幹に含まれています)。平均すると、各単語は 7.7 回繰り返されました。ヒラリーには 17% の固有単語があり、各単語は平均で約 6 回繰り返されます。違いは明らかです。トランプ氏のスピーチの80%はたった480語でしたが、ヒラリー氏のスピーチは665語必要でした。つまり、38%も余分に必要であり、成果が出始めているということです。

候補者のスピーチの80%を占める語彙

スピーチの効果は、話し手のスタイルにある程度左右されます。この記事では、両候補者の最も愛されている言葉を見つけ出そうとします。 「トランプっぽい」または「ヒラリーっぽい」言葉を探します。つまり、ある候補者が最も頻繁に使用し、その競争相手が最も頻繁に使用しない言葉を見つけます。例えば、「本当に」という言葉はトランプ氏の演説では15回登場したが、ヒラリー氏の演説では1回しか登場しなかった。これを行う 1 つの方法は、各単語の「オッズ比」を計算することです。式は次のとおりです。

分子はトランプ氏の語彙に単語が出現する確率であり、分母は同じ単語がヒラリー氏の文章に出現する確率である。対数を取ることで効率的にソートできます。2 つの項目が均等に一致する場合、対数は 0 になります。そうでなければ、それは否定的(ヒラリースタイル)か肯定的(トランプスタイル)のどちらかです。結果は次のとおりです。

私たちが最初に気づいたのは、トランプ氏が「本当に」「いいな」「素晴らしい」「問題」といった短くて一般的な言葉を何度も使うのが好きだということだ。我々が感じることができるもう一つのことは、共和党候補者がメキシコ、中国、イランに対して特定の偏見を持っているということだ。全体的に見ると、トランプ氏は国際問題に重点を置いているようだ。彼が言及した外交問題のほとんどは、恐怖を煽り、スケープゴートを見つけることを目的としていた。

ヒラリーのほうが語彙が広い。 「ヒラリー風」の言葉はより稀な傾向にあります。ヒラリー・クリントンはトランプよりもはるかに多くの回数「アメリカ」について言及した: 27:5。 「ヒラリースタイル」の語彙は、ヒラリーの演説がより国内問題に重点を置いていることを示唆している。彼女の代表的な言葉には、「一緒に」「キャンペーン」「一生懸命」などがあります。彼女の演説にはドナルド・トランプの名前も何度も登場した。

注意深い読者は、「トランプ」という言葉が「ヒラリースタイル」の語彙リストに登場していないことに気づくだろう。これは、トランプが演説の中で自分の名前を何度も(10回)言及したため、オッズ比が下がったためである。対照的に、ヒラリーの名前は2回しか言及されなかった。1回はヒラリー自身の演説(夫のビル・クリントンについて言及)で、もう1回はトランプ氏によって言及された。そして、ヒラリー風の「望む」という言葉は、彼女の対立候補に対する批判の中にも現れている(「彼は我々を分裂させたいのだ…」「彼は我々が未来を恐れ、お互いを恐れることを望んでいるのだ」)。どうやら、ヒラリーはトランプについて話し、トランプは…自分自身について話していたようだ!

誰もがトランプについて話している

双方が使用している言葉も見てみましょう。それらは両者の間の合意を表しています。当然のことながら、それらは「仕事」、「国」、「考え方」です。二人とも「ありがとう」と何度も言ったが、言い方は違った。ヒラリー氏は具体的に数人に感謝したのに対し、トランプ氏は主に拍手する観客に感謝した。

話し方のリズム

両候補者は、異なる経歴を持つため、独自のリズムを持っています。言語の固有のリズムを評価するには、まずスピーチを文に分解し、次に文を単語に分解してみるのが良いでしょう。トランプ氏の演説の方が長く、625文、7,460語であることがわかった。ヒラリー・クリントンはたった405の文と6,088語しか使わなかった。つまり、トランプ氏は対立候補よりも54%多く文章を使い、文章も23%長かった。

トランプ氏の平均的な文の長さは12語であるのに対し、ヒラリー氏の文はわずかに長く、1文あたり平均15語である。トランプ氏の文章のほとんどは短く、彼の演説の21%は5~6文の短い文章で構成されています。ヒラリーの文章はより均等に間隔が空いており、12語が最も多かった。

オバマ氏の刑期はトランプ氏とヒラリー氏の刑期を合わせたのと同じ長さ

トランプ氏とヒラリー氏の間には明らかな違いが見られる。トランプ氏の演説はシンプルで明確である一方、ヒラリー氏の演説はより多様で穏やかである。しかし、待ってください!彼女は珍しい人ではありません。オバマ大統領の最初の指名演説では、1文あたり平均25.7語で、ヒラリー氏とトランプ氏の合計語数とほぼ同じです。オバマ氏はまた、言葉を繰り返す回数がヒラリー氏より24%少なく、トランプ氏より42%少なかった。これは、ヒラリー氏のペースが少し遅く、文章構造が少し複雑であるにもかかわらず、彼女の話し方が対立候補のそれと非常に似ていることを示していると思います。

最後に

自然言語処理は正確な科学ではありません。それは、スピーチを理解するための手がかりや要素をいくつか提供することしかできません。コーパスも短いため、より正確な特徴を抽出するにはさらに分析が必要です。しかし、この分析から何がわかったのでしょうか?

1. トランプ氏はすべてが「真実」「善」「素晴らしい」と語り、一方ヒラリー氏は「アメリカのために」「共に」「機能」できると語る。

2. トランプは自分自身について話し、ヒラリーはトランプについて話す。クリントン氏はより豊富な語彙とより複雑な文構造を使用しているが、多かれ少なかれトランプ氏の話し方を取り入れているようだ。

3. オバマ氏の指名演説(2回とも)では、はるかに多くの語彙とはるかに複雑な文構造が使用されており、トランプ氏がそのような国家演説を大幅に簡素化したことを示唆している。

<<:  KDnuggets 公式調査: データ サイエンティストが最もよく使用する 10 のアルゴリズム

>>:  推奨システムでよく使用される推奨アルゴリズム

ブログ    

推薦する

ソフトウェア配信における機械学習の活用方法

現代のほとんどのソフトウェア チームにとって、ソフトウェアの配信は継続的なプロセスです。ソフトウェア...

人工知能専攻にはどのような専攻が含まれますか?見通しはどうですか?

人工知能にはどのような専攻が含まれますか?人工知能に関連する研究方向には、パターン認識とインテリジェ...

GPTベースの開発者ツール

localGPT - GPT モデル ツールのローカル展開localGPT を使用すると、GPT モ...

...

Apple M3全シリーズのランニングスコアを公開! 16コアのMaxが24コアのM2 Ultraを上回り、IntelとAMDの主力CPUと並ぶ

Appleの記者会見を受けて、M3シリーズチップは新しいMac製品とともについに実用化されることにな...

...

チューリング学習:新世代のロボットは観察するだけで人間を模倣できる

[[187204]]最近、シェフィールド大学自動制御システム工学部のロデリッヒ・グロス博士は次のよう...

10万ドル+26日、低コスト1000億パラメータLLMが誕生

大規模言語モデル (LLM) には、デコーダーのみの構造 (GPT や LLAMA シリーズ モデル...

国家基準の策定が加速しており、科学的な顔認識は100億元のブルーオーシャンをもたらすだろう

4月22日、「情報セキュリティ技術の顔認識データのセキュリティ要件」国家標準の草案が正式に公開され、...

...

GPT-4 の RAW 画像はまだリリースされていないのですか? CMUの中国人医師の新作、大型モデルGILLは画像生成や検索が可能で誰でも遊べる

GPT-4 のマルチモーダル機能については、もう少し待たなければならないかもしれません。最近、CMU...

大規模モデルアプリケーションの探索 - エンタープライズ ナレッジ スチュワード

1. 伝統的なナレッジマネジメントの背景と課題1. 企業知識管理の必要性ナレッジ マネジメントは、あ...

感情知能の高いNPCがやって来て、手を伸ばすとすぐに次の行動に協力する準備が整いました。

仮想現実、拡張現実、ゲーム、人間とコンピュータの相互作用などの分野では、仮想キャラクターが画面外のプ...