機械学習を活用して人事部門の時間を節約する方法

導入

履歴書データベースに「ソフトウェアエンジニア」という名前の履歴書が 10,000 件あるとします。人事担当者が「Android エンジニア」を検索する場合、タイトルが「Android エンジニア」の履歴書のみに注目します。一致する可能性のある 912 件の履歴書を見逃すことになります。この人事担当者が「ソフトウェアエンジニア」のすべての履歴書を最初から最後まで時間をかけて読み、実際に Android の研究開発に従事している履歴書を除外するのであれば、さらに 9088 件の無効なソフトウェアエンジニアの履歴書を読む必要があります。履歴書を読むのに 15 秒かかると仮定すると、この作業には 38 時間かかります。

1. 低評価の履歴書：採用における隠れた危険地帯

履歴書の検索と閲覧は、採用活動の時間の大部分を占めます。人事部門が履歴書を検索したり読んだりする際には、履歴書のタイトルや職務内容に基づいて履歴書のカテゴリを判断する必要があります。履歴書のカテゴリの「区別」が高ければ高いほど、人事部門が検索を通じて対応する履歴書を見つけやすくなり、履歴書と空いているポジションの一致を特定しやすくなります。

たとえば、人事部門が「Android エンジニア」を募集している場合、簡単に検索して識別できるため、「Android エンジニア」という職名の履歴書が非常に好まれます。履歴書のこの部分は、差別化度の高い履歴書と定義できます。

しかし、問題は、多くの応募者の履歴書が採用担当者のユーザーエクスペリエンスを考慮していないことです。たとえば、ソフトウェアエンジニアが履歴書に複数のプログラミングスキルを記載し、その履歴書に「ソフトウェアエンジニア」という名前を付けたため、システムがこの履歴書を検索して見つけることが非常に困難になりました。つまり、JD の書き方と候補者の履歴書の書き方の間には自然な違いがあるため、一致する履歴書が多数検索時に見逃され、求人内容にこれらのキーワードを含む履歴書 (採用スペシャリストなど) の多くは実際には無関係になります。

2. 差別化の低い履歴書が多数あると、選考の難易度が上がる

履歴書データベースからインターネット業界の「エンジニア」を含む 1,479,818 件の履歴書をサンプリングし、履歴書名でカウントし、高いものから低いものの順に並べ替えて、上位 15 件を次のように表示しました。

<図1 - 使用頻度の高い職種の統計>

統計データから、カテゴリの差別化が低い履歴書が履歴書データ全体の大部分を占めていることがわかります。たとえば、インターネット業界には「ソフトウェアエンジニア」、「シニアソフトウェアエンジニア」、「ソフトウェア開発エンジニア」、「開発エンジニア」の履歴書が多数含まれており、サンプル全体の 25.7% を占めていますが、これらの履歴書では、応募者の対応する技術方向を簡単に判断することはできません。

実際、Java エンジニア、PHP エンジニア、バックエンド開発エンジニアなどはすべてソフトウェアエンジニアと呼ぶことができます。「ソフトウェアエンジニア」というタイトルの履歴書は多数ありますが、職種や職務内容に基づいて具体的なカテゴリをさらに決定する必要があります。

たとえば、履歴書を検索するときに「Python エンジニア」と入力すると、履歴書のタイトルに Python が含まれる履歴書が少なくなり、検索結果の数が少なくなる可能性があります。しかし、モデルを使用して履歴書のタイトルがソフトウェアエンジニアリングの特定の役割であることを判断して履歴書の独自性を高めることができれば、Python エンジニアの履歴書をソフトウェアエンジニアの履歴書から除外することができ、検索の豊富さがさらに向上します。

3. 機械学習手法による文字認識精度の向上

1. 立場について合理的な理解を確立する

履歴書の独自性を高めるということは、「職務を表現するさまざまな方法や職務に関連するスキルモデルを含め、職務をより正確に理解する方法」と理解できます。これは、専門用語リストに基づいて行うことができます。

たとえば、単純な語彙「ソフトウェアエンジニア」を第 1 レベルのカテゴリとして定義し、その下位の第 2 レベルのスキルカテゴリを Java、C++、PHP、.NET、Python、Delphi、Perl などに分割します。この語彙は明確な職位とスキルの関係を定義しており、語彙が「ソフトウェアエンジニア」という履歴書を「読む」場合、実際には上記のスキルを読んでいることになります。

Pinbao のナレッジグラフはより複雑です。スキルの分野に加えて、業界や企業などの多くの次元も含まれています。

<図2 - Pinbaoの職業スキル知識グラフからの抜粋>

2. 効率的な役割分類と認識計算を実行する方法

ディープラーニング手法は最近、テキスト処理の分野で非常に人気が高まっていますが、そのトレーニングとテストのプロセスは非常に遅いため、エンジニアリングへの応用のハードルがかなり高いことに注意する必要があります。

一連の技術ソリューションの調査と比較を実施した後、TextGrocery、fastText、Naive Bayes という 3 つの機械学習テキスト分類アルゴリズムを比較し、分析してみました。

TextGrocery は、LibShortText と Jieba の単語分割に基づく短いテキスト分類ツールです。線形カーネル SVM 分類器に基づいており、バイグラム分割を使用し、一時停止語を削除せず、品詞フィルタリングを実行せず、中国語と英語の両方のコーパスをサポートしているため、テキスト分類が簡単になります。

fastText — FAIR (Facebook AI) が開発した高速テキスト分類器。テキスト分類と表現学習のためのシンプルで効率的な方法を提供します。Word2Vec の著者 Mikolov の論文「効率的なテキスト分類のための秘訣」より

fastText は、大規模データ + 効率的なトレーニング速度に適しており、「標準的なマルチコア CPU を使用して 10 分で 10 億語以上を処理」するようにモデルをトレーニングできます。ディープモデルと比較すると、fastText はトレーニング時間を数日から数秒に短縮できます。 FastText のパフォーマンスは、一般的な word2vec ツールよりも大幅に優れており、他の最先端の形態素語彙表現よりも優れています。

<図3-fastText分類モデルの概略図>

<図4-fastTextモデルのアーキテクチャ>

ナイーブベイズ - ベイズの定理から派生した確率モデルで、各特徴の確率に基づいて、オブジェクトが特定のカテゴリに属する確率を決定します。この方法では、すべての特徴が互いに独立している必要がある、つまり、どの特徴の値も他の特徴の値と相関関係がないことを前提としています。

自然言語処理の分野では、処理されたデータはテキスト文書内の注釈付きデータとみなすことができ、機械学習アルゴリズムをトレーニングするためのトレーニングデータセットとして使用できます。

サンプルをトレーニングする際には、テキストを表現できる特徴ベクトル（語彙）を構築し、この特徴ベクトルを元にトレーニングセットを表現します。各カテゴリの頻度は、カテゴリの事前確率と、各カテゴリ条件における各特徴属性の条件付き確率として計算されます。分類の際には、各カテゴリに分類される文の事後確率をベイズ式に従って計算し、最大値をその分類とします。

<図5-ナイーブベイズモデルのアーキテクチャ>

4. 簡単な分類と認識の実験

履歴書の独自性を高めるためのさまざまな技術的手段の有効性をより適切に分析するために、アルゴリズムが「ソフトウェアエンジニア」などの独自性の低い履歴書を特定のスキルの方向にどのように分類するかを示す簡単な比較実験を実施しました。

1. 実験データセットの準備:

職名別に第2レベルのカテゴリに属するエンジニアの履歴書680,731件を選択し、その80％のデータをランダムにサンプリングしてトレーニングデータとし、残りの20％をテストデータとした。

<図6 - 実験データセットの分布>

2. 実験結果:

実験を通じて、機械学習の手法により、差別性の低い履歴書を素早く識別し、正確に分類できるため、手動での検索と閲覧にかかる時間を大幅に短縮できることがわかりました。

<図7 - 各カテゴリーの予測精度の分布>

上記のモデル結果と比較すると、fastText モデルは英語の bag-of-words テキスト分類法に基づいています。英語の文章を構成する単語は間隔が空いていますが、中国語のテキストは連続しています。そのため、中国語のテキストの場合、単語を分割して句読点を削除し、モデルに必要なデータ形式に変換する必要がありますが、特にカテゴリ間の区別がそれほど大きくない場合は、分類効果は平均的です。さらに、パラメータの調整はモデルの結果に大きな影響を与えますが、このモデルの利点はトレーニング時間が非常に短いことです。したがって、fastText モデルは、ニュースを金融、軍事、社会、エンターテイメントなどの分野に自動的に分類するなど、カテゴリの差別化がより必要で、分類の効率を重視するアプリケーションシナリオに適しています。

TextGrocery モデルは、短いテキストに特化した分類モデルです。特徴ベクトル化の前処理なしでテキストを直接入力し、一時停止語を削除せず、品詞フィルタリングを実行せず、洗練された API インターフェイスを備えています。ただし、この役割予測モデルでは、モデルの精度とモデルのトレーニング時間はあまり目立ちません。

ナイーブベイズは伝統的なテキスト分類モデルです。特徴ベクトル化の前処理は比較的面倒で、トレーニング時間も長くなります。ただし、分類カテゴリが複数のテキスト間でほとんど区別がない場合は、他の 2 つのアルゴリズムよりも分類効果が優れています。この実験結果は、製品を実装する際に「流行の」技術を過度に追求すべきではないことを間接的に示しています。特定のビジネスにとって、最良のテクノロジーとは、ビジネスがより良い成果を達成するのに役立つテクノロジーです。

Pinbaoの低差別履歴書の役割認識アルゴリズムは、上記のアルゴリズムの特徴を吸収して組み合わせ、さまざまなシナリオ条件に直面したときに組み合わせて適用し、より優れた分類結果を実現します。TMT業界の主要な職種の認識精度は75％以上です。

「ソフトウェアエンジニア」を例にとり、Pinbao でソフトウェアエンジニアの職務内容を入力し、考えられる役割を予測します。効果は次のようになります。

<図8 - ピンバオ文字認識効果の例>

他業種との差別化が低い履歴書についても、対応するモデルをトレーニングすることができます。単一業界の予測カテゴリをそれほど詳細にする必要がない場合は、多くの業界のデータを混合して予測モデルをトレーニングすることができます。

この実験のサンプルデータに基づいて、履歴書データベースに「ソフトウェアエンジニア」という名前の履歴書が 10,000 件あると仮定します。人事担当者が「Android エンジニア」を検索する場合、職名が「Android エンジニア」の履歴書のみに注目します。一致する可能性のある 912 件の履歴書を見逃すことになります。これらの履歴書はすべて職名が「ソフトウェアエンジニア」です。この人事担当者が「ソフトウェアエンジニア」の履歴書をすべて最初から最後まで時間をかけて読み、実際に Android R&D 業務に従事している履歴書を除外するのであれば、さらに 9088 件の無効なソフトウェアエンジニアの履歴書を読む必要があります。履歴書を読むのに 15 秒かかると仮定すると、この作業には 38 時間かかります。

履歴書の検索への応用に加えて、役割の識別は他の分野でも幅広く応用されています。たとえば、給与予測では、職務内容に基づいて役割を特徴変数として予測すると、予測給与の精度が向上します。

もう 1 つの例は、履歴書の解析です。履歴書の詳細ページの各ブロックをテキストとして扱い、各ブロックの情報の種類 (職歴、学歴など) を予測し、対応する解析プログラムを使用してブロックを解析すると、履歴書の詳細ページの解析効率が大幅に向上します。

私たちは、テクノロジーが業務効率を向上させることができると常に信じており、それが履歴書の分析とマッチングに3年間取り組み続けてきた理由です。機械学習テクノロジーの助けを借りて、人事部門の採用業務はより時間の節約と効率化になると信じています。

参考文献:

[1] 超高速テキスト [EB/OL]. 超高速テキスト、2017-04-10/2017-04-24。

[2] 高速テキスト表現および分類のためのライブラリ。[EB/OL]。facebookresearch/fastText、2017-04-10/2017-04-24。

[3] TEXTGROCERY、より優れたテキスト分類Pythonライブラリ [EB/OL]。Lingnan Six Young Masters - LAMPアーキテクチャの下で奮闘するクラウド、2017-04-10/2017-04-24。

[4] LibShortTextの簡単な紹介[EB/OL]。http://guoze.me/2014/09/25/libshorttext-introduction/、2017-04-10/2017-04-24。

[5] NLPシリーズ（2）_ナイーブベイズを使用したテキスト分類（パート1）[EB/OL]。NLPシリーズ（2）_ナイーブベイズを使用したテキスト分類（パート1） - Long Xinchen - ブログチャンネル - CSDN.NET、2017-04-10/2017-04-24。

[6] ナイーブベイズからNグラム言語モデルへ [EB/OL]。NLPシリーズ（5）_ナイーブベイズからNグラム言語モデルへ - Long Xinchen - ブログチャンネル - CSDN.NET、2017-04-10/2017-04-24。

[7] 効率的なテキスト分類のためのトリックの袋[EB/OL]。効率的なテキスト分類のためのトリックの袋、2017-04-10/2017-04-24。

<<: ディープラーニングが世界に浸透し、世界を変えるほど強力なのはなぜでしょうか?

>>: ディープラーニングの基本的な概念と手法についての簡単な説明

ブログ

機械学習を活用して人事部門の時間を節約する方法

7つの便利なプロンプトパラメータ

シティグループは5年以内に1万人の雇用を人工知能で置き換える計画

超低消費電力センサーソリューションがスマートビルディングを実現する方法

何凱明氏のグループによる新しい論文：ViTをバックボーンとして単独で使用しても、ターゲット検出に優れたパフォーマンスを発揮できる

Googleを超えろ！世界最大の時間結晶が記録を破り、量子コンピューターが新たな奇跡を起こす

人工知能の時代では、機械があなたの仕事を奪うのでしょうか?

人工知能が人間に取って代わることは決してない

推薦する

AI および機械学習プロジェクトはどの程度安全ですか?

「コピー+貼り付け」に別れを告げ、ディープラーニングOCRに基づくPDFからテキストへの変換を実現

次世代人工知能の開発方向（第1部）

自己教師学習の効率限界を突破！ Ma Yi と LeCun が共同で EMP-SSL をリリース: 特別なトリックは不要、30 エポックで SOTA を達成可能

エッジAIの台頭

パンデミック中の人工知能技術の5つの主要な応用

石油探査のための AI: 石油産業のデジタル変革に向けた新しい考え方

私の目が支配者です！ 80億のパラメータを備えたOtterHDは、清明節のラクダを数えるのに役立ちます。南洋理工大学の中国チームによって作成されました

ダニエル・ウーの顔を5秒で変える！人気のAIアプリ「ZAO」は依然として技術的な問題に直面しています。あなたの「顔」は認証されましたか？

Nature のサブ出版物: 新しいアルゴリズムは、米国の 8 つの都市で 90% の精度で、1 週間前に 2 ブロック以内の犯罪を予測できます。

2019年に人工知能はどこに向かうのでしょうか? 120人の幹部が意見を述べた

サービスロボット防疫シリーズ：食品の配達、消毒、誘導などにより、感染症の予防と抑制に貢献

ディープラーニングをもっと有効活用するにはどうすればいいでしょうか?

大きな模型 = 容器に入った脳？同源病院の朱松春氏のチームがAGIの主な欠陥を分析