厳しい期限内で機械学習を行う方法: ラベル付きニュースの構築

[[195898]]

翻訳者注: この記事では、著者と 3 人の友人がプログラミングマラソンに参加し、Hacker News に投稿された記事を分類する分類器を開発した様子を紹介しています。その後、著者はコンテスト中の体験談をいくつか共有しています。以下はその翻訳です。

今週末、私と 3 人の友人 (Chris Riederer、Nathan Gould、そして私の双子の兄弟 Dan) は、2017 TechCrunch Disrupt Hackathon に参加しました。私たちはこれまで何度かこのようなハッカソンに参加したことがあり、短期間で実用的なアプリケーションを開発しながら同時に新しいテクノロジーを学ぶという挑戦が大好きです。

私たち 4 人のうち 3 人はデータサイエンティストなので、データ駆動型のプロジェクトを探す必要があることはわかっていました。最高のハッカソンプロジェクトは、分析やライブラリではなく、実際に使用できるアプリケーションであることが多いため、機械学習駆動型の製品を構築する必要があると考え、テキストに基づいて各投稿にトピックを自動的に割り当てる、プログラマーコミュニティである Hacker News の分類器を思いつきました。

このプロジェクトでは、データをダウンロードし、機械にデータを学習させるトレーニングを行い、24 時間以内に使用可能な Web サイトに変換する必要がありました。ここでは、開発プロセス中に学んだ教訓をいくつか紹介します。

(私が取り組んでいるモジュールはデータ側なので、データ側に焦点を当てていますが、Nathan と Dan はサイトの開発と設計、そして Hacker News との同期に多くの作業を行いました。)

Hacker Newsの投稿と記事を取得する

Hacker News は、一般的にプログラマーコミュニティにとって興味深い、ユーザーが投稿およびアップロードした記事 (プログラミングに関する記事だけではありません) を収集します。私たちの仕事は、各記事のテキストを取得し、それがどのトピックに属するかに分類することです。

新しい記事のトピックを正しく識別するには、大量のトレーニングデータ (おそらく数万件の記事) が必要であることがすぐに明らかになりました。これを実行するには、Hacker News に送信されたすべての記事とそれに対応するリンクをクロールし、各記事をクエリしてテキストコンテンツを取得する必要があります。

ここで私が犯した間違いは、Hacker News API に依存して一度に 1 つの送信のみをダウンロードしたため、25,000 個のリンクを取得するのに数時間かかり、処理が遅くなったことです。ハッカソンの後、Google BigQuery で Hacker News データセットが利用できることを知りました。約 20 分の設定で、100 万のリンクをダウンロードできました。競争のプレッシャーの下では、常にこのような単純な解決策を探すのは困難です。代わりに、最終結果を達成するために非効率的な解決策を採用することもあります（しかし、これも楽しみの一部です）。

記事へのリンクができたら、各記事のテキストコンテンツが必要になります。記事はさまざまなサイトから取得され、フォーマットも異なるため、これは少し難しいですが、python-goose はこの目的のために設計されています。 3 台のコンピューターを記事のクロール専用にすることで、1 時間あたり数千の記事を収集できるようになりました。スクレイピングコードといくつかの結果は、この GitHub リポジトリで確認できます。

通常、このようなプロジェクトでは、スクレイピングジョブを一晩中実行したままにしておきます。しかし、私たちにとってはそれは選択肢ではありませんでした。データのダウンロードが始まると、私たちは 2 つのグループに分かれ、Nathan と Dan が Web サイトの構築に取り組み、Chris と私はデータを収集する機械学習アルゴリズムの開発に取り組みました。

教師ありトレーニングセットの開発

教師あり分類器をトレーニングするには、ラベルセットが必要です。記事の正しい分類が何であるかを知ることができる必要があります。例に手動でラベルを付けるには時間が足りませんでした。では、正しくラベル付けされた例のセットを取得するにはどうすればよいでしょうか?

そうですね、Hacker News を数ページ閲覧すると、タイトルだけでトピックが何であるかがほぼわかる記事もあれば、簡単なパターンマッチングでわかる記事もあることがわかります。たとえば、ホームページを見てください。「Why Amazon is eating the world」は Amazon について、「Why do many math books have so much detail and so little enlightenment?」は数学について、「Don't tell people to turn off Windows Update」は Microsoft/Windows についてです。そこで、正規表現を使用して記事タイトルに基づいたトレーニングセットを作成することにしました。

このプロセスには、記事のタイトルに共通する単語やクラスターの探索的分析を含むいくつかの実験が含まれていました。私のお気に入りのグラフの 1 つは、テキストから作成されたネットワークです (弊社の書籍「Text Mining with R」のこの章を参照)。これは、データをより深く理解するための素晴らしい機会です。

私たちは、「機械学習/ディープラーニング」を含む ML クラスターや、「ネット/中立性」や「トランプ/FBI」などのさまざまな政治クラスターなど、語彙のクラスターに気づきました。これにより、利用可能なトピックに集中できるようになります。

以下は、モデルのトレーニングに使用した正規表現です。結果が正しく分類されているかどうかを確認し、クリーニングエラーの原因となっている正規表現を削除し、見逃していたものを追加するなど、多くの反復と調整が必要でした。

R の fuzzyjoin を使用すると、これらのタイトルを簡単に一致させることができます。このリポジトリには、コードといくつかの分析プログラム、および機械学習の作業が掲載されています。

最終的に、約 10,000 件のラベル付きドキュメントのトレーニングセットが作成されます (すべてのタイトルがいずれかの正規表現に一致するわけではなく、複数のタイトルに一致する場合もあることに注意してください)。各正規表現は次のものに一致します:

(当初は「Web 開発」や「Javascript」などのトピックもいくつかありましたが、分類結果に基づいて最終的に削除しました)。ただし、これはサイト上で最も人気のあるトピックというわけではありません。これは、各トピックに対して決定した正規表現に完全に基づいています。一部のトピックが他のトピックよりも認識されやすい場合、またはこれらの正規表現に見落としがある場合、記事は反映されません。

タイトルに正規表現を使用するのは、例を取得する方法としては非常に粗雑であり、完全に正確ではありません (たとえば、「ウィンドウのサイズ変更」に関するタイトルには、Microsoft というラベルが付けられます)。ただし、これは大規模なトレーニングセットを迅速かつ効果的に構築する方法であり、結果を手動で検査することで正確性に自信が持てます。

これらの見出しでアルゴリズムをトレーニングすると、タイトルにこれらの特徴がまったく含まれていない記事を識別できるようになりました。たとえば、「Rejection Letter」というタイトルでは件名が言及されていないため、トレーニングセットには含まれていませんが、タイトルには「セキュリティ」、「ランサムウェア」、「ウイルス対策」、「ワーム」など、トレーニングセットに頻繁に出現する単語が含まれているため、アルゴリズムは簡単に「セキュリティ」とラベル付けできます。

MLモデルのトレーニングと実用化

R でデータを調査した後、Python の scikit-learn パッケージを使用して機械学習を有効にしました。これには 3 つの手順が必要です。

トークン化: 「bag of words」アプローチを使用して、各記事を単語のセットに変換しました (単語の順序と構造は無視しました)。
次元削減: (gensim Python パッケージ) によって実装された潜在的ディリクレ配分法を使用して、単語をトピックモデルに適合させ、各ドキュメントを長さ 100 のベクトルに変換しました。各トピックはデータと照合され、特定の単語グループに関連付けられました (たとえば、あるトピックは「トランプ」、「コミー」、「ロシア」と高い関連性があり、別のトピックは「デザイン」、「フォトショップ」、「CSS」に重点を置いている可能性があります)。
教師あり分類: 教師あり分類器を使用して予測を行います。正規化ロジスティック回帰とランダムフォレストの 2 つのアプローチを試しました。

トピックモデリングについては以前にも書きました (これは、私たちの著書「Text Mining with R」で大きな役割を果たしています)。ここでは、結論を導き出すためではなく、数万の特徴（「この記事には「Bitcoin」という単語が含まれていますが、「」は含まれていません）を 100 次元のデータセットに削減するために使用します。いくつかの実験を通じて、このトピックモデリングステップを追加すると (単語を直接特徴として使用するのではなく)、モデルの精度が向上することがわかりました。

また、トレーニングセットでの交差検証された AUC (ROC 曲線の下の領域) に関して、ランダムフォレストが正規化ロジスティック回帰よりも優れていることもわかりました。

これは、これらのモデルを取り巻く一般的な評判と一致しています。ロジスティック回帰はトレーニングが速く、解釈可能性も高かったのですが、特徴の相互作用が多い状況の処理にはそれほど適していませんでした。たとえば、「勉強」という単語が「大学」や「教育」という単語とは異なる意味を持つことに気付かないでしょう。

もちろん、このトレーニングセットの「精度」は、「記事のタイトルが、私たちが想定している正規表現と一致するかどうかを予測できるかどうか」を意味しますが、これが新しい記事の実際の予測に反映されることを期待しています。

生産モデル

Chris と私がこのモデルを構築している間、Nathan と Dan はすでに Django を使用して Web サイトを開発し、Heroku にデプロイし、ドメインを登録していました。これは 10 分ごとに Hacker News API と同期されますが、プレースホルダーとして完全にランダムなトピックが割り当てられます。午前 2 時頃、クリスと私はトレーニング済みのモデルを準備し、力を合わせる時間になりました。

理論的には、Python でアルゴリズムや Web サイトを構築するのは、サイトの関数に直接プラグインするだけで済むため、簡単なはずです。私はチームと協力して R を CI に変換し、モデルを本番環境に導入することに慣れているので、pickle を使用してモデルをシリアル化し、アプリケーションに直接ロードする機能は確かに便利であり、実装したモデルの使用方法に柔軟性をもたらします。

しかし、それは展開がスムーズだったということではありません。私たちが遭遇した 2 つの最大の問題は次のとおりです。

nltk Heroku を使用します。最初は、Python での自然言語処理のための最も強力なツールキットである nltk ライブラリをトークン化に使用します。しかし、これは大きくて扱いにくいライブラリであり、Heroku でのインストールと使用に関してわかりにくいエラーメッセージが表示されるようになりました。最終的には、利便性のために gensim のトークナイザー (トピックモデリングにすでに必要) に切り替えることになり、アルゴリズムの再トレーニングが必要になりました。

Python 2 と 3 の間の Pickle: このモデルを Python 3 にインストールすることは可能ですが、記事のテキストをクエリするために使用される Goose は Python 3 と互換性がなく、実稼働サイトは Python 2 でなければなりません。ここで、Python 2 と 3 の間でバグが発生します。その時は午前 4 時で、修正には非常に洗練されていないハッキングが必要でした。

当初、機械学習プロセスをマイクロサービス (Web サイトを通じてテキストコンテンツを渡し、分類を返す別のサービス) として実装することを検討しました。これにより、機械学習アルゴリズムの切り替えがはるかに容易になります (Web チームにコードとパッケージ要件のリストの代わりに API エンドポイントが提供されます)。

コミュニケーションと共有

また、taggernews.com にライブ Web サイトがあります。それ以来サイトは変更されていますが、午前 4 時 30 分にプロジェクトを提出したときは次のような感じでした。

Tagger NewsはHacker Newsの記事を自動的に分類して並べ替えることができます

#HackDisrupt pic.twitter.com/2mEbrGXIce

— TechCrunch (@TechCrunch) 2017年5月14日

講演後、TechCrunch が私たちにインタビューし、私たちのプロジェクトについて記事を書いてくれました。これは私たちにとって、こうしたハッカソンでの初めての経験でした。ハッカソン後、私はこの投稿の残りを書き終え、TechCrunch の記事を Hacker News に投稿することにしました。コミュニティの皆さんがそれを見て、気に入ってくれたことを嬉しく思います。

製品検索も得意としております。

Google Analytics によると、昨日 Tagger News の訪問者数は約 6,000 人で、その数は増え続けています。また、アプリがトラフィックの増加にどのように対処するかについても不安がありました。アプリが完成したのは午前 4 時 30 分で、テストする時間が十分にありませんでした。しかし、デザインに関するいくつかのコメントと、誤って分類された記事を除けば、フィードバックは非常に好意的でした。このサイトには新しい記事が絶えず追加されており、ほとんどのコンテンツは正しく分類されています。これは概念実証ですが、興味深い分類問題を試し、アプローチを実践できる機能的なものです。

<<: 固有値分解から共分散行列へ: PCA アルゴリズムの詳細な分析と実装

>>: SLAMアルゴリズム分析：ビジュアルSLAMの難しさを把握し、技術開発の全体的な傾向を理解する