Text2Image: NLP への新しいアプローチ

Text2Image: NLP への新しいアプローチ

コンピュータービジョンと比較すると、自然言語処理 (NLP) は長い間解決が難しい問題であると考えられてきました。この記事では、NLP とコンピューター ビジョン処理を組み合わせて画像にテキストを描画する新しい NLP 処理方法を見つけました。現状の精度は最適化と改善が必要ですが、大きな応用の見込みがあるようです。

問題

自然言語処理 (NLP) は、少なくともコンピューター ビジョンと比較すると、解決が難しい問題であると長い間考えられてきました。 NLP モデルは実行に時間がかかり、一般的に実装が難しく、より多くのコンピューティング リソースを必要とします。一方、画像認識モデルの実装はよりシンプルになり、GPU への負担も軽減されます。これをきっかけに、テキスト コーパスを画像に変換できるだろうか、テキストを画像として解釈できるだろうか、と考えました。その答えは「はい」で、驚くべき結果が得られました。私たちはこの方法を使って偽のニュースと本物のニュースを区別します。

この記事では、このアプローチ、結果、結論、および今後の改善点について詳しく説明します。

導入

アイデアの源

テキストを画像に変換するというアイデアは、もともと Gleb Esman による不正検出に関するこの記事から着想を得ました。この方法では、マウスの動きの速度、方向、加速度などのさまざまなデータポイントをカラー画像に変換しました。次に、これらの画像に対して画像認識モデルが実行され、非常に正確な結果が生成されます。

データ

すべての実験で使用されるデータは、George McIntire のフェイクニュース データセットのサブセットです。約 1000 件のフェイクニュースと実際のニュース記事が含まれています: https://github.com/cabhijith/Fake-News/blob/master/fake_or_real_news.csv.zip

Text2Imageの基本原則

まず、Text2Image について概要を説明しましょう。基本的な考え方は、テキストをプロットできるヒートマップに変換することです。ヒートマップには各単語の TF-IDF 値が表示されます。用語頻度 - 逆文書頻度 (TF-IDF) は、文書内の他の単語に対する単語の重要度を判断するために使用される統計手法です。基本的な前処理と TF-IDF 値の計算の後、平滑化ガウス フィルタリングを使用して、それらを対数スケールのヒートマップにプロットします。ヒートマップが描画されたら、fast.ai を使用して CNN を実装し、本物のヒートマップと偽のヒートマップを区別しようとしました。最終的に、約 71% の安定した精度が得られました。これは、この新しいアプローチにとって素晴らしいスタートです。以下は私たちのアプローチの簡単なフローチャートです。

まだ分​​からないですか?以下を読み続けてください。

テキスト2画像の詳細

前処理

データは小文字になり、すべての特殊文字が削除され、テキストとヘッダーが連結されます。文書内のテキストの85%以上も削除されました。また、単語リスト(ストップワード)の使用は明示的に避けてください。ストップワードの標準的なリストが使用されましたが、そのほとんどは情報量の少ない繰り返し単語でした。特に、フェイクニュースの句読点は修正する必要があり、これはフェイクニュースに独特の文体をもたらすために、将来的に検討する価値のある分野です。

TF-IDFの計算

Text2Image は、キーワードをスコアリングして抽出するために、tf-idf の scikit-learn 実装を使用します。 IDF はフェイクニュース コーパスとリアルニュース コーパスごとに別々に計算されます。個別の IDF スコアを計算すると、コーパス全体に対して単一の IDF スコアを計算する場合と比較して、精度が大幅に向上します。次に、各ドキュメントの tf-idf スコアを繰り返し計算します。ここでは、タイトルとテキストは別々にスコア付けされるのではなく、一緒にスコア付けされます。

用語の出現頻度を計算する

IDFの計算

これらを掛け合わせると tf-idf が得られます。各ドキュメントを個別に反復処理します。

TF-IDF値の処理

各文書について、TF-IDF値が最も高い121語が抽出されます。これらの単語は 11x11 配列を作成するために使用されます。ここで、選択された単語の数はハイパーパラメータのように機能します。短くてシンプルなテキストの場合は、より少ない単語を使用できますが、長くて複雑なテキストの場合は、より多くの単語を使用できます。経験則として、このデータセットの理想的なサイズは 11x11 です。 TF-IDF 値をテキスト内の位置でマッピングするのではなく、サイズの降順で並べ替えます。 TF-IDF 値がこのようにマッピングされるのは、テキストをよりよく表し、モデルのトレーニングに豊富な機能を提供するためです。単語は文章中に複数回出現する可能性があるため、単語の最初の出現が考慮されます。

TF-IDFの値をそのままプロットするのではなく、すべての値を対数スケールでプロットします。これは、上限値と下限値の間の大きな差を減らすために行われます。

プロットすると、ほとんどのヒートマップではこの違いによる色の変化は表示されません。したがって、違いをわかりやすくするために対数スケールでプロットされます。

図1(左)はTF-IDF値をそのままプロットしたものです。図2(右)は、同じ値を対数スケールでプロットしたものを示しています。

欠点の 1 つは、モデルをトレーニングするときに過剰適合が多くなることです。これはデータ拡張が欠如していることに起因する可能性があり、現時点ではこのユースケースに使用できるデータ拡張方法は存在しないようです。したがって、これらのプロットを滑らかにするために、データセット全体にガウス フィルタリングが使用されます。精度は少し低下しますが、特にトレーニングの初期段階では、過剰適合が大幅に減少します。

最終ヒートマップ

最終的なヒートマップのサイズは 11x11 で、seaborn を使用して描画されます。 x 軸、y 軸、カラー バーはトレーニング中に何の情報も伝達しないため、削除しました。使用されたヒートマップの種類は、理想的な色の変化を示す「プラズマ」でした。さまざまな色の組み合わせを試してみることは、今後の検討課題となる可能性があります。以下は最終的なプロットの例です。

ヒートマップの最終形態

モデルのトレーニング

モデルは fast.ai を使用して resnet34 でトレーニングされました。 489件のフェイクニュースと511件の本物のニュースが特定されました。データ拡張なしで、トレーニング セットとテスト セットの間で標準の 80:20 分割が使用されました。使用されたすべてのコードは、こちらでご覧いただけます: https://github.com/cabhijith/Text2Image/blob/master/Code.html

結果

要約する

9 回の反復を経て、モデルの精度は 70% を超えました。このデータセットにとってはまだ先進的とは言えませんが、新しいアプローチは有望であると思われます。トレーニング プロセス中に観察されたいくつかの点は次のとおりです。

このモデルは大きく外れています。データを追加しても過剰適合には影響がなく、これは予想に反しています。さらなるトレーニングや学習率の変更は効果がありません。

プロット サイズを大きくすると、サイズが 11x11 になるまでは精度が向上しますが、それを超えるとプロット サイズを大きくすると精度が低下します。

グラフにある程度ガウス フィルタリングを使用すると、精度が向上します。

次のステップ

現在、品詞タグ付けとGloVe単語埋め込みの視覚化に取り組んでいます。また、ストップワードの変更、プロットのサイズと配色の変更も検討しています。これからも改善を続けていきます!

<<:  売上高2,684億元の背後にあるアリババのAI技術の全貌

>>:  AI 開発企業向けのトップ機械学習フレームワーク (2020 年版)

ブログ    
ブログ    
ブログ    

推薦する

マイクロソフトのAI画像ジェネレーターが自社の従業員から報告:有害な画像を生成する可能性がある

CNBCによると、3月7日、マイクロソフトのエンジニアが米連邦取引委員会(FTC)に、同社の人工知能...

AI の成功のための 10 の重要な役割

あらゆる業界でますます多くの企業がビジネス プロセスを変革するために人工知能 (AI) を導入してい...

24時間365日対応のAI教師は生徒にどのような影響を与えるのでしょうか?

伝統的な教育方法は、過去 1 世紀か 2 世紀の間にあまり変わっていません。通常、生徒は教室で教師の...

透明な AI の出現は、あなたのあらゆる行動が他人の目に留まることを意味します。

6月14日の英国デイリーメール紙によると、透視型の人工知能(AI)の開発に成功し、近々公開される予...

家族に王位継承者はいないのですか?それは問題ではない、誰かがAIを使っておとぎ話の魔法の世界を作ったのだ

家には鉱山も王座もありませんが、王子様やお姫様になりたいという夢を持たない人がいるでしょうか?最近、...

AI はビジネスのやり方を永久に変えるのでしょうか?

Google、Facebook、Twitterなど、世界中の大手テクノロジー企業が人工知能ソリュー...

人工知能がやって来ます。準備はできていますか?

ちょうど2年前、大学に入学したときに一度だけ行ったことがあります。その時は、まず入り口の機械で番号を...

Keras+LSTM+CRF を使用した固有表現抽出 NER の練習

[[339715]]テキスト分割、品詞タグ付け、固有表現認識は、自然言語処理の分野では非常に基本的な...

...

詳細 | EUの人工知能法案が進行中:公共の場での顔認識の禁止を求める、市場シェアを獲得するために厳しい監視が必要

最近、EUの人工知能規制に新たな展開がありました。欧州データ保護委員会(EDPB)と欧州データ保護監...

剪定法を使用してより良い決定木を設計する方法

決定木 (DT) は、分類および回帰の問題を解決するために使用される教師あり機械学習アルゴリズムです...

安定拡散法を使って超リアルな人間の顔を生成する3つの方法

翻訳者 |ブガッティレビュー | Chonglou他の人はAI画像を使って超リアルな顔を生成できるの...

AI開発と倫理におけるリアリズムの役割

人工知能(AI)は、最初のコンピュータが発明されて以来、長い道のりを歩んできました。今日、人工知能は...

製造、小売、医療の事例から:エッジコンピューティングと人工知能がどのように収益向上に役立つか

[[403666]]ストラトキャスターとテレキャスターのギターを製造するカリフォルニア州コロナに本社...

Ele.meにおける人工知能の応用

[[212221]] Ele.meについてほとんどの人がテイクアウトを注文したことがあるでしょう。テ...