機械学習の手法を使用して問題を解決する場合、適切なデータを持つことが重要です。残念ながら、生データは「汚れた」状態や構造化されていない状態であることが多いです。自然言語処理 (NLP) の専門家は、扱うデータがテキストであるため、このことをよく知っています。ほとんどの機械学習アルゴリズムは生の文字列を入力として受け入れないため、単語埋め込み法を使用してデータを変換してから学習アルゴリズムに入力する必要があります。しかし、これはテキスト データにのみ当てはまるわけではありません。カテゴリ機能の形で、他の標準的な非自然言語処理タスクにも存在する可能性があります。実際、私たちの多くはこの分類機能のプロセスに苦労していますが、このシナリオでは単語埋め込み方法はどのような役割を果たすのでしょうか? この投稿の目的は、単語埋め込み手法 Word2Vec (Mikolov 他、2013) を使用して、多数のモダリティを持つカテゴリ特徴を、使いやすい数値特徴の小さなセットに変換する方法を示すことです。これらの機能は使いやすいだけでなく、複数のモダリティ間の関係をうまく学習することができ、これは従来の単語埋め込みが言語を処理する方法と非常によく似ています。 ワード2ベクトル
上記は Word2Vec の目標を正確に説明しています。つまり、単語の近傍 (コンテキストとも呼ばれる) を分析して単語の意味を判断しようとします。この方法には、CBOW モデルと Skip-Gram モデルという 2 つの異なるスタイルのモデルがあります。コーパスが与えられると、モデルは各文の単語をループし、現在の単語に基づいて隣接する単語 (コンテキスト) を予測するか、現在のコンテキストに基づいて現在の単語を予測します。前者で説明した方法は「Skip-Gram」と呼ばれ、後者は「連続バッグ オブ ワード (CBOW)」と呼ばれます。各コンテキスト内の単語数の制限は、「ウィンドウ サイズ」と呼ばれるパラメータによって決まります。 2 つの Word2Vec 構造。w(t) は現在の単語を表し、w(t-2) ... w(t+2) はコンテキスト単語を表します。 (ミコロフら 2013) したがって、Skip-Gram 方式を選択した場合、Word2Vec は浅いニューラル ネットワーク、つまり、1 つの隠し層のみを持つニューラル ネットワークを使用して単語の埋め込みを学習します。ネットワークは最初に重みをランダムに初期化し、次に単語を使用してコンテキストを予測し、トレーニング プロセス中にこれらの重みを繰り返し調整して、エラーを最小限に抑えます。比較的成功したトレーニング プロセスの後、ネットワーク重み行列と単語のワンホット ベクトルを乗算することで、各単語の単語ベクトルを取得できることが期待されます。 注: テキスト データを数値で表現できるようになるだけでなく、結果として得られる埋め込みでは、単語間の興味深い関係も学習します。この関係を使用して、「王と女王の関係は、父親と ... の関係と似ていますか?」などの質問に答えることができます。 Word2Vec について詳しく知りたい場合は、このスタンフォード大学のコース (https://www.youtube.com/watch?v=ERibwqs9p38) またはこの TensorFlow チュートリアル (https://www.tensorflow.org/tutorials/word2vec) をご覧ください。 応用 Kwyk プラットフォーム (https://www.kwyk.fr/) ではオンライン数学演習を提供しています。教師は生徒に宿題を割り当て、演習が完了するたびにデータが保存されます。その後、収集したデータを使用して各生徒のレベルを評価し、向上を支援するためにカスタマイズされた修正を行います。解決した各演習について、次の情報を区別するために一連の識別子を保存します: この演習は何ですか? 解答した生徒は誰ですか? どの章に属していますか?...... さらに、生徒が質問を正しく解いたかどうかに基づいて、0 または 1 のスコアも保存します。次に、生徒のスコアを評価するには、このスコアを予測し、分類器から生徒の成功確率を取得する必要があります。 ご覧のとおり、当社の機能の多くはカテゴリ別です。通常、モダリティの数が十分に少ない場合は、n モーダルのカテゴリ特徴を n-1 ダミー変数に変換し、トレーニングに使用することができます。しかし、モードが数千に及ぶ場合(一部のアプリケーションの場合がそうです)、ダミー変数に依存することは非効率的かつ非実用的になります。 この問題を解決するために、Word2Vec をちょっとしたトリックを使って使用し、カテゴリ特徴を比較的少数の使用可能な連続特徴に変換します。この考え方を説明するために、「exercise_id」を例に挙げてみましょう。exercise_id は、どの演習が解かれたかを示すカテゴリ特徴です。 Word2Vec を使用するには、アルゴリズムに入力される一連の文であるコーパスを用意する必要があります。ただし、元の特徴は単なる ID のリストであり、それ自体はコーパスではありません。その順序は完全にランダムであり、類似の ID には隣接する ID に関する情報が一切含まれません。私たちの手法では、教師からの課題を、exercise_id のシーケンスである「文」として扱います。その結果、すべての ID はレベル、章などのラベルとともに自然にグループ化され、Word2Vec はこれらの文に対して直接、演習埋め込み (Word 埋め込みに対応) の学習を開始できるようになります。 実際、これらの人工的な文章があるからこそ、Word2Vec を使用して美しい結果を得ることができるのです。 レベル別に色分けされた演習埋め込み(PCA を使用して取得した 3 つの主成分、図の 3D 空間)。6e、5e、4e、3e、2e、1e、および tm はフランスの学生のレベルであり、米国の 6 年生、7 年生、8 年生、9 年生、10 年生、11 年生、および 12 年生に相当します。 ご覧のとおり、結果の埋め込みは構造化されています。実際、演習の 3D 投影クラウドは螺旋状になっており、高レベルの演習が低レベルの演習のすぐ後に続きます。これは、埋め込みが異なるレベルの演習を区別することを正常に学習し、同様のレベルの演習が一緒に配置されるように演習を再グループ化したことを意味します。しかし、それだけではありません。非線形次元削減技術を使用すると、埋め込み全体を同じ特徴を持つ実数値変数に削減できます。言い換えれば、演習の複雑さに関する特性があり、これは 6 年生では最小であり、演習が複雑になるにつれてこの変数はどんどん大きくなり、12 年生でこの変数の最高値に達します。 さらに、ミコロフが英語の単語で行ったように、埋め込みも練習問題間の関係性を学習します。 上の図は、埋め込みが学習できる関係の例をいくつか示しています。したがって、「数を足す習慣は、数を減算する習慣と同じか?」と尋ねると、埋め込みによって次の答えが得られます。「数を減算する習慣」具体的には、次の問題を取り上げます: [減算(数値)] の埋め込み - [加算(数値)] の埋め込みを、学生が時間 (時間、分など) を加算するように求められる学生の演習の埋め込みに追加すると、最も近い埋め込みは時間の減算を含む演習になります。 結論は 要約すると、単語埋め込み技術は、テキスト データを機械学習アルゴリズムで直接使用できる実数値ベクトルに変換する場合に役立ちます。単語埋め込み技術は主に機械翻訳などの自然言語処理アプリケーションで使用されますが、Kwyk での使用例を具体的に示すことで、これらの技術がカテゴリ特徴処理にも役立つことを示しました。ただし、Word2Vec などの技術を使用するには、コーパス、つまりコンテキストが暗黙的に作成されるようにラベルが配置された文のセットを構築する必要があります。上記の例では、ウェブサイトで提供されている課題を使用して演習用の「文」を作成し、演習の埋め込みを学習しました。その結果、エクササイズ間の関係性をうまく学習でき、元のラベルセットよりも有用な新しい数値特徴を取得できるようになりました。 カテゴリ特徴に word2vec を使用するというアイデアを思いついた、Kwyk の開発者の一人である Christophe Gabar に感謝します。 元記事: https://medium.com/towards-data-science/a-non-nlp-application-of-word2vec-c637e35d3668 [この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です] この著者の他の記事を読むにはここをクリックしてください |
<<: AIがDotAのトッププレイヤーに勝利したのは画期的なことでしょうか? OpenAIが詳細を発表
機械学習への関心は過去 10 年間で爆発的に高まりました。ほぼ毎日、さまざまなコンピューターサイエン...
▲ 液体生検は費用対効果が高く、生検全体のプロセスを大幅に簡素化できます。 Wikipedia によ...
感染症の影響で延期されていた2020年全国人民代表大会と中国人民政治協商会議が5月21日に開幕した。...
近年、ドローン産業の発展は急速です。業界の段階的な改善と成熟により、製品の種類、数量、市場規模の継続...
人工知能 (AI) は世界中の産業に変化をもたらしており、交通も例外ではありません。テクノロジーが進...
大規模言語モデル (LLM) は、自然言語処理 (NLP) の分野で目覚ましい進歩を可能にし、幅広い...
iottechnewsによると、IoT分野の人工知能(AI)と機械学習(ML)サービスは年間40%成...
人類はアフリカでホモ・サピエンスとして誕生して以来、約50万年にわたる進化の過程を経てきました。人類...
各人の顔、指紋、虹彩の情報はそれぞれ固有であり偽造が困難であるため、生体認証は長年にわたり究極の本人...
MetaImage は最近、テクノロジー界で大きな話題を呼んでいます。論文「IMAGEBIND: ...