コンピュータービジョンと比較すると、自然言語処理 (NLP) は長い間解決が難しい問題であると考えられてきました。この記事では、NLP とコンピューター ビジョン処理を組み合わせて画像にテキストを描画する新しい NLP 処理方法を見つけました。現状の精度は最適化と改善が必要ですが、大きな応用の見込みがあるようです。 問題自然言語処理 (NLP) は、少なくともコンピューター ビジョンと比較すると、解決が難しい問題であると長い間考えられてきました。 NLP モデルは実行に時間がかかり、一般的に実装が難しく、より多くのコンピューティング リソースを必要とします。一方、画像認識モデルの実装はよりシンプルになり、GPU への負担も軽減されます。これをきっかけに、テキスト コーパスを画像に変換できるだろうか、テキストを画像として解釈できるだろうか、と考えました。その答えは「はい」で、驚くべき結果が得られました。私たちはこの方法を使って偽のニュースと本物のニュースを区別します。 この記事では、このアプローチ、結果、結論、および今後の改善点について詳しく説明します。 導入アイデアの源 テキストを画像に変換するというアイデアは、もともと Gleb Esman による不正検出に関するこの記事から着想を得ました。この方法では、マウスの動きの速度、方向、加速度などのさまざまなデータポイントをカラー画像に変換しました。次に、これらの画像に対して画像認識モデルが実行され、非常に正確な結果が生成されます。 データ すべての実験で使用されるデータは、George McIntire のフェイクニュース データセットのサブセットです。約 1000 件のフェイクニュースと実際のニュース記事が含まれています: https://github.com/cabhijith/Fake-News/blob/master/fake_or_real_news.csv.zip Text2Imageの基本原則 まず、Text2Image について概要を説明しましょう。基本的な考え方は、テキストをプロットできるヒートマップに変換することです。ヒートマップには各単語の TF-IDF 値が表示されます。用語頻度 - 逆文書頻度 (TF-IDF) は、文書内の他の単語に対する単語の重要度を判断するために使用される統計手法です。基本的な前処理と TF-IDF 値の計算の後、平滑化ガウス フィルタリングを使用して、それらを対数スケールのヒートマップにプロットします。ヒートマップが描画されたら、fast.ai を使用して CNN を実装し、本物のヒートマップと偽のヒートマップを区別しようとしました。最終的に、約 71% の安定した精度が得られました。これは、この新しいアプローチにとって素晴らしいスタートです。以下は私たちのアプローチの簡単なフローチャートです。 まだ分からないですか?以下を読み続けてください。 テキスト2画像の詳細前処理 データは小文字になり、すべての特殊文字が削除され、テキストとヘッダーが連結されます。文書内のテキストの85%以上も削除されました。また、単語リスト(ストップワード)の使用は明示的に避けてください。ストップワードの標準的なリストが使用されましたが、そのほとんどは情報量の少ない繰り返し単語でした。特に、フェイクニュースの句読点は修正する必要があり、これはフェイクニュースに独特の文体をもたらすために、将来的に検討する価値のある分野です。 TF-IDFの計算 Text2Image は、キーワードをスコアリングして抽出するために、tf-idf の scikit-learn 実装を使用します。 IDF はフェイクニュース コーパスとリアルニュース コーパスごとに別々に計算されます。個別の IDF スコアを計算すると、コーパス全体に対して単一の IDF スコアを計算する場合と比較して、精度が大幅に向上します。次に、各ドキュメントの tf-idf スコアを繰り返し計算します。ここでは、タイトルとテキストは別々にスコア付けされるのではなく、一緒にスコア付けされます。 用語の出現頻度を計算する IDFの計算 これらを掛け合わせると tf-idf が得られます。各ドキュメントを個別に反復処理します。 TF-IDF値の処理 各文書について、TF-IDF値が最も高い121語が抽出されます。これらの単語は 11x11 配列を作成するために使用されます。ここで、選択された単語の数はハイパーパラメータのように機能します。短くてシンプルなテキストの場合は、より少ない単語を使用できますが、長くて複雑なテキストの場合は、より多くの単語を使用できます。経験則として、このデータセットの理想的なサイズは 11x11 です。 TF-IDF 値をテキスト内の位置でマッピングするのではなく、サイズの降順で並べ替えます。 TF-IDF 値がこのようにマッピングされるのは、テキストをよりよく表し、モデルのトレーニングに豊富な機能を提供するためです。単語は文章中に複数回出現する可能性があるため、単語の最初の出現が考慮されます。 TF-IDFの値をそのままプロットするのではなく、すべての値を対数スケールでプロットします。これは、上限値と下限値の間の大きな差を減らすために行われます。 プロットすると、ほとんどのヒートマップではこの違いによる色の変化は表示されません。したがって、違いをわかりやすくするために対数スケールでプロットされます。 図1(左)はTF-IDF値をそのままプロットしたものです。図2(右)は、同じ値を対数スケールでプロットしたものを示しています。 欠点の 1 つは、モデルをトレーニングするときに過剰適合が多くなることです。これはデータ拡張が欠如していることに起因する可能性があり、現時点ではこのユースケースに使用できるデータ拡張方法は存在しないようです。したがって、これらのプロットを滑らかにするために、データセット全体にガウス フィルタリングが使用されます。精度は少し低下しますが、特にトレーニングの初期段階では、過剰適合が大幅に減少します。 最終ヒートマップ 最終的なヒートマップのサイズは 11x11 で、seaborn を使用して描画されます。 x 軸、y 軸、カラー バーはトレーニング中に何の情報も伝達しないため、削除しました。使用されたヒートマップの種類は、理想的な色の変化を示す「プラズマ」でした。さまざまな色の組み合わせを試してみることは、今後の検討課題となる可能性があります。以下は最終的なプロットの例です。 ヒートマップの最終形態 モデルのトレーニング モデルは fast.ai を使用して resnet34 でトレーニングされました。 489件のフェイクニュースと511件の本物のニュースが特定されました。データ拡張なしで、トレーニング セットとテスト セットの間で標準の 80:20 分割が使用されました。使用されたすべてのコードは、こちらでご覧いただけます: https://github.com/cabhijith/Text2Image/blob/master/Code.html 結果 要約する9 回の反復を経て、モデルの精度は 70% を超えました。このデータセットにとってはまだ先進的とは言えませんが、新しいアプローチは有望であると思われます。トレーニング プロセス中に観察されたいくつかの点は次のとおりです。 このモデルは大きく外れています。データを追加しても過剰適合には影響がなく、これは予想に反しています。さらなるトレーニングや学習率の変更は効果がありません。 プロット サイズを大きくすると、サイズが 11x11 になるまでは精度が向上しますが、それを超えるとプロット サイズを大きくすると精度が低下します。 グラフにある程度ガウス フィルタリングを使用すると、精度が向上します。 次のステップ現在、品詞タグ付けとGloVe単語埋め込みの視覚化に取り組んでいます。また、ストップワードの変更、プロットのサイズと配色の変更も検討しています。これからも改善を続けていきます! |
<<: 売上高2,684億元の背後にあるアリババのAI技術の全貌
>>: AI 開発企業向けのトップ機械学習フレームワーク (2020 年版)
[[253005]] 「中国製造2025」の実施に伴い、ロボット産業は社会への参入を加速し始めてい...
WAVE SUMMIT+ ディープラーニング開発者カンファレンス 2023 が 12 月 28 日...
人工知能 (AI) とモノのインターネット (IoT) は、過去 10 年間を定義してきました。ビッ...
「新インフラ」がホットワードとなり、その重要な構成要素として人工知能に大きな期待が寄せられている。 ...
テクノロジーは非常に効率的かつ完璧なので、私たちはそれに気付くことすらありません。しかし、通勤時間が...
[[327815]]この記事を読むと、次のことがわかります。 1. シーケンス予測問題のための単純な...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
ノア著他の大手企業と比較すると、ByteDanceの大型モデル分野における進歩は常に比較的神秘的であ...
新興技術の発展とビジネス、公共福祉、社会統治などの分野におけるその応用をどのように促進、保護、規制す...
昨日、五菱科技は北京で新製品発表会を開催し、多感覚インタラクション機能を備えた「Luka Hero」...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
AIが描く人物をよりリアルにするため、香港中文大学の博士課程の学生たちは3億4000万枚の画像を使っ...