機械学習を活用して人事部門の時間を節約する方法

機械学習を活用して人事部門の時間を節約する方法

導入

履歴書データベースに「ソフトウェア エンジニア」という名前の履歴書が 10,000 件あるとします。 人事担当者が「Android エンジニア」を検索する場合、タイトルが「Android エンジニア」の履歴書のみに注目します。一致する可能性のある 912 件の履歴書を見逃すことになります。この人事担当者が「ソフトウェア エンジニア」のすべての履歴書を最初から最後まで時間をかけて読み、実際に Android の研究開発に従事している履歴書を除外するのであれば、さらに 9088 件の無効なソフトウェア エンジニアの履歴書を読む必要があります。履歴書を読むのに 15 秒かかると仮定すると、この作業には 38 時間かかります。

1. 低評価の履歴書:採用における隠れた危険地帯

履歴書の検索と閲覧は、採用活動の時間の大部分を占めます。人事部門が履歴書を検索したり読んだりする際には、履歴書のタイトルや職務内容に基づいて履歴書のカテゴリを判断する必要があります。履歴書のカテゴリの「区別」が高ければ高いほど、人事部門が検索を通じて対応する履歴書を見つけやすくなり、履歴書と空いているポジションの一致を特定しやすくなります。

たとえば、人事部門が「Android エンジニア」を募集している場合、簡単に検索して識別できるため、「Android エンジニア」という職名の履歴書が非常に好まれます。履歴書のこの部分は、差別化度の高い履歴書と定義できます。

しかし、問題は、多くの応募者の履歴書が採用担当者のユーザーエクスペリエンスを考慮していないことです。たとえば、ソフトウェア エンジニアが履歴書に複数のプログラミング スキルを記載し、その履歴書に「ソフトウェア エンジニア」という名前を付けたため、システムがこの履歴書を検索して見つけることが非常に困難になりました。つまり、JD の書き方と候補者の履歴書の書き方の間には自然な違いがあるため、一致する履歴書が多数検索時に見逃され、求人内容にこれらのキーワードを含む履歴書 (採用スペシャリストなど) の多くは実際には無関係になります。

2. 差別化の低い履歴書が多数あると、選考の難易度が上がる

履歴書データベースからインターネット業界の「エンジニア」を含む 1,479,818 件の履歴書をサンプリングし、履歴書名でカウントし、高いものから低いものの順に並べ替えて、上位 15 件を次のように表示しました。


<図1 - 使用頻度の高い職種の統計>

統計データから、カテゴリの差別化が低い履歴書が履歴書データ全体の大部分を占めていることがわかります。たとえば、インターネット業界には「ソフトウェアエンジニア」、「シニアソフトウェアエンジニア」、「ソフトウェア開発エンジニア」、「開発エンジニア」の履歴書が多数含まれており、サンプル全体の 25.7% を占めていますが、これらの履歴書では、応募者の対応する技術方向を簡単に判断することはできません。

実際、Java エンジニア、PHP エンジニア、バックエンド開発エンジニアなどはすべてソフトウェア エンジニアと呼ぶことができます。 「ソフトウェア エンジニア」というタイトルの履歴書は多数ありますが、職種や職務内容に基づいて具体的なカテゴリをさらに決定する必要があります。

たとえば、履歴書を検索するときに「Python エンジニア」と入力すると、履歴書のタイトルに Python が含まれる履歴書が少なくなり、検索結果の数が少なくなる可能性があります。しかし、モデルを使用して履歴書のタイトルがソフトウェア エンジニアリングの特定の役割であることを判断して履歴書の独自性を高めることができれば、Python エンジニアの履歴書をソフトウェア エンジニアの履歴書から除外することができ、検索の豊富さがさらに向上します。

3. 機械学習手法による文字認識精度の向上

1. 立場について合理的な理解を確立する

履歴書の独自性を高めるということは、「職務を表現するさまざまな方法や職務に関連するスキル モデルを含め、職務をより正確に理解する方法」と理解できます。これは、専門用語リストに基づいて行うことができます。

たとえば、単純な語彙「ソフトウェア エンジニア」を第 1 レベルのカテゴリとして定義し、その下位の第 2 レベルのスキル カテゴリを Java、C++、PHP、.NET、Python、Delphi、Perl などに分割します。この語彙は明確な職位とスキルの関係を定義しており、語彙が「ソフトウェア エンジニア」という履歴書を「読む」場合、実際には上記のスキルを読んでいることになります。

Pinbao のナレッジグラフはより複雑です。スキルの分野に加えて、業界や企業などの多くの次元も含まれています。


<図2 - Pinbaoの職業スキル知識グラフからの抜粋>

2. 効率的な役割分類と認識計算を実行する方法

ディープラーニング手法は最近、テキスト処理の分野で非常に人気が高まっていますが、そのトレーニングとテストのプロセスは非常に遅いため、エンジニアリングへの応用のハードルがかなり高いことに注意する必要があります。

一連の技術ソリューションの調査と比較を実施した後、TextGrocery、fastText、Naive Bayes という 3 つの機械学習テキスト分類アルゴリズムを比較し、分析してみました。

TextGrocery は、LibShortText と Jieba の単語分割に基づく短いテキスト分類ツールです。線形カーネル SVM 分類器に基づいており、バイグラム分割を使用し、一時停止語を削除せず、品詞フィルタリングを実行せず、中国語と英語の両方のコーパスをサポートしているため、テキスト分類が簡単になります。

fastText — FAIR (Facebook AI) が開発した高速テキスト分類器。テキスト分類と表現学習のためのシンプルで効率的な方法を提供します。Word2Vec の著者 Mikolov の論文「効率的なテキスト分類のための秘訣」より

fastText は、大規模データ + 効率的なトレーニング速度に適しており、「標準的なマルチコア CPU を使用して 10 分で 10 億語以上を処理」するようにモデルをトレーニングできます。ディープ モデルと比較すると、fastText はトレーニング時間を数日から数秒に短縮できます。 FastText のパフォーマンスは、一般的な word2vec ツールよりも大幅に優れており、他の最先端の形態素語彙表現よりも優れています。


<図3-fastText分類モデルの概略図>


<図4-fastTextモデルのアーキテクチャ>

ナイーブベイズ - ベイズの定理から派生した確率モデルで、各特徴の確率に基づいて、オブジェクトが特定のカテゴリに属する​​確率を決定します。この方法では、すべての特徴が互いに独立している必要がある、つまり、どの特徴の値も他の特徴の値と相関関係がないことを前提としています。

自然言語処理の分野では、処理されたデータはテキスト文書内の注釈付きデータとみなすことができ、機械学習アルゴリズムをトレーニングするためのトレーニングデータセットとして使用できます。

サンプルをトレーニングする際には、テキストを表現できる特徴ベクトル(語彙)を構築し、この特徴ベクトルを元にトレーニングセットを表現します。各カテゴリの頻度は、カテゴリの事前確率と、各カテゴリ条件における各特徴属性の条件付き確率として計算されます。分類の際には、各カテゴリに分類される文の事後確率をベイズ式に従って計算し、最大値をその分類とします。


<図5​​-ナイーブベイズモデルのアーキテクチャ>

4. 簡単な分類と認識の実験

履歴書の独自性を高めるためのさまざまな技術的手段の有効性をより適切に分析するために、アルゴリズムが「ソフトウェア エンジニア」などの独自性の低い履歴書を特定のスキルの方向にどのように分類するかを示す簡単な比較実験を実施しました。

1. 実験データセットの準備:

職名別に第2レベルのカテゴリに属する​​エンジニアの履歴書680,731件を選択し、その80%のデータをランダムにサンプリングしてトレーニングデータとし、残りの20%をテストデータとした。


<図6 - 実験データセットの分布>

2. 実験結果:

実験を通じて、機械学習の手法により、差別性の低い履歴書を素早く識別し、正確に分類できるため、手動での検索と閲覧にかかる時間を大幅に短縮できることがわかりました。


<図7 - 各カテゴリーの予測精度の分布>

上記のモデル結果と比較すると、fastText モデルは英語の bag-of-words テキスト分類法に基づいています。英語の文章を構成する単語は間隔が空いていますが、中国語のテキストは連続しています。そのため、中国語のテキストの場合、単語を分割して句読点を削除し、モデルに必要なデータ形式に変換する必要がありますが、特にカテゴリ間の区別がそれほど大きくない場合は、分類効果は平均的です。さらに、パラメータの調整はモデルの結果に大きな影響を与えますが、このモデルの利点はトレーニング時間が非常に短いことです。したがって、fastText モデルは、ニュースを金融、軍事、社会、エンターテイメントなどの分野に自動的に分類するなど、カテゴリの差別化がより必要で、分類の効率を重視するアプリケーション シナリオに適しています。

TextGrocery モデルは、短いテキストに特化した分類モデルです。特徴ベクトル化の前処理なしでテキストを直接入力し、一時停止語を削除せず、品詞フィルタリングを実行せず、洗練された API インターフェイスを備えています。ただし、この役割予測モデルでは、モデルの精度とモデルのトレーニング時間はあまり目立ちません。

ナイーブベイズは伝統的なテキスト分類モデルです。特徴ベクトル化の前処理は比較的面倒で、トレーニング時間も長くなります。ただし、分類カテゴリが複数のテキスト間でほとんど区別がない場合は、他の 2 つのアルゴリズムよりも分類効果が優れています。この実験結果は、製品を実装する際に「流行の」技術を過度に追求すべきではないことを間接的に示しています。特定のビジネスにとって、最良のテクノロジーとは、ビジネスがより良い成果を達成するのに役立つテクノロジーです。

Pinbaoの低差別履歴書の役割認識アルゴリズムは、上記のアルゴリズムの特徴を吸収して組み合わせ、さまざまなシナリオ条件に直面したときに組み合わせて適用し、より優れた分類結果を実現します。TMT業界の主要な職種の認識精度は75%以上です。

「ソフトウェアエンジニア」を例にとり、Pinbao でソフトウェアエンジニアの職務内容を入力し、考えられる役割を予測します。効果は次のようになります。


<図8 - ピンバオ文字認識効果の例>

他業種との差別化が低い履歴書についても、対応するモデルをトレーニングすることができます。単一業界の予測カテゴリをそれほど詳細にする必要がない場合は、多くの業界のデータを混合して予測モデルをトレーニングすることができます。

この実験のサンプル データに基づいて、履歴書データベースに「ソフトウェア エンジニア」という名前の履歴書が 10,000 件あると仮定します。 人事担当者が「Android エンジニア」を検索する場合、職名が「Android エンジニア」の履歴書のみに注目します。一致する可能性のある 912 件の履歴書を見逃すことになります。これらの履歴書はすべて職名が「ソフトウェア エンジニア」です。この人事担当者が「ソフトウェア エンジニア」の履歴書をすべて最初から最後まで時間をかけて読み、実際に Android R&D 業務に従事している履歴書を除外するのであれば、さらに 9088 件の無効なソフトウェア エンジニアの履歴書を読む必要があります。履歴書を読むのに 15 秒かかると仮定すると、この作業には 38 時間かかります。

履歴書の検索への応用に加えて、役割の識別は他の分野でも幅広く応用されています。 たとえば、給与予測では、職務内容に基づいて役割を特徴変数として予測すると、予測給与の精度が向上します。

もう 1 つの例は、履歴書の解析です。履歴書の詳細ページの各ブロックをテキストとして扱い、各ブロックの情報の種類 (職歴、学歴など) を予測し、対応する解析プログラムを使用してブロックを解析すると、履歴書の詳細ページの解析効率が大幅に向上します。

私たちは、テクノロジーが業務効率を向上させることができると常に信じており、それが履歴書の分析とマッチングに3年間取り組み続けてきた理由です。機械学習テクノロジーの助けを借りて、人事部門の採用業務はより時間の節約と効率化になると信じています。

参考文献:

[1] 超高速テキスト [EB/OL]. 超高速テキスト、2017-04-10/2017-04-24。

[2] 高速テキスト表現および分類のためのライブラリ。[EB/OL]。facebookresearch/fastText、2017-04-10/2017-04-24。

[3] TEXTGROCERY、より優れたテキスト分類Pythonライブラリ [EB/OL]。Lingnan Six Young Masters - LAMPアーキテクチャの下で奮闘するクラウド、2017-04-10/2017-04-24。

[4] LibShortTextの簡単な紹介[EB/OL]。http://guoze.me/2014/09/25/libshorttext-introduction/、2017-04-10/2017-04-24。

[5] NLPシリーズ(2)_ナイーブベイズを使用したテキスト分類(パート1)[EB/OL]。NLPシリーズ(2)_ナイーブベイズを使用したテキスト分類(パート1) - Long Xinchen - ブログチャンネル - CSDN.NET、2017-04-10/2017-04-24。

[6] ナイーブベイズからNグラム言語モデルへ [EB/OL]。NLPシリーズ(5)_ナイーブベイズからNグラム言語モデルへ - Long Xinchen - ブログチャンネル - CSDN.NET、2017-04-10/2017-04-24。

[7] 効率的なテキスト分類のためのトリックの袋[EB/OL]。効率的なテキスト分類のためのトリックの袋、2017-04-10/2017-04-24。

<<:  ディープラーニングが世界に浸透し、世界を変えるほど強力なのはなぜでしょうか?

>>:  ディープラーニングの基本的な概念と手法についての簡単な説明

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

形状精度の高い 3D 認識画像合成のためのシェーディング ガイド付き生成暗黙モデル

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

ディープラーニング? 「ブラックボックス」である必要はない

ディープニューラルネットワークのパラメータネットワークは非常に大きく複雑であり、これによりマシンはこ...

...

無料の Python 機械学習コース 1: 線形回帰アルゴリズム

最も基本的な機械学習アルゴリズムは、単一の変数を持つ線形回帰アルゴリズムです。現在、非常に多くの高度...

物流でGenAIを効果的に活用するための鍵は、ユースケースを理解することです。

GenAI を商品輸送という主要機能にどのように適用できるかは最初は明確ではないかもしれませんが、...

1 週間で機械学習を始めることは信頼できるでしょうか?詳しい学習スケジュールはこちら

[[185648]]原著者 | ペル・ハラルド・ボルゲン編集:魏子民、頼暁娟、張立軍 「初心者にとっ...

人工知能は伝染病との戦いにおいてどのような役割を果たすのでしょうか?

新型コロナウイルスは間違いなく2020年で最もホットな話題であり、流行の防止はすべての国にとって最優...

米議会は来月AIサミットを開催し、マスク氏をはじめとする多くの有力者が出席すると報じられている。

8月29日、情報筋によると、イーロン・マスク氏、マーク・ザッカーバーグ氏、その他米国の著名なテクノ...

ChatGPTに「カスタムコマンド」機能が追加されました

海外メディアの報道によると、7月21日、OpenAIはユーザーにChatGPTの応答に対する強化され...

ディープラーニングを使用してNBAの試合結果を予測する

この記事では、ディープラーニングを使用して NBA の試合結果を予測します。この記事を通じて、次のこ...

ワイヤレス ネットワークと人工知能が出会うと何が起こるでしょうか?

人工知能(AI)は未来の技術ではなく、すでに存在している技術です。機械学習のイノベーションにより A...

スタンフォード大学が長いテキストをよりスムーズに生成する時間制御方式を導入、その論文がICLR 2022に選出される

近年、GPT-2 を含む大規模言語モデルはテキスト生成において大きな成功を収めています。しかし、大規...

人工知能技術が伝染病の予防と制御に役立つ

[[318426]]現在、人工知能技術は急速に発展しており、特に医療保健の分野では、生活の各分野で広...