機械学習プロジェクトにおける特徴エンジニアリングの 5 つのベスト プラクティス

機械学習プロジェクトにおける特徴エンジニアリングの 5 つのベスト プラクティス

私たちは長年にわたり、機械学習プロジェクトで何が機能し、何が機能しないかを特定するために、さまざまな手法とアプローチを採用してきました。以下の 5 つの手順をまとめましたので、ご参考になれば幸いです。

[[398566]]

シンプルな機能を生成する

モデリング プロセスを初めて開始するときは、できるだけ多くの単純な機能を生成するようにし、コーディングに時間がかからない機能を生成するようにします。たとえば、Word2vec モデルをトレーニングする代わりに、最小限のコードで何千もの特徴を生成する単純な bag-of-words モデルを最初に実装できます。 1 つ以上の特徴の組み合わせが予測に役立つかどうかを事前に明確に知る方法がないため、最初から特徴として測定できるものはすべて使用する必要があります。

ID は機能としても使用できます (必要な場合)

一意の ID はモデルの一般化にあまり貢献しない可能性があるため、機能セットの一部として ID を追加するのは愚かなように思えるかもしれません。ただし、ID を含めると、実践者は一般的なケースでは 1 つの動作を持ち、他のケースでは異なる動作を持つモデルを作成できます。

たとえば、ある場所を説明するいくつかの特徴に基づいて、その場所についての予測を行いたいとします。機能セットの一部として場所の ID を含めることで、一般的な場所のトレーニング例をさらに追加し、他の特定の場所で異なる動作をするようにモデルをトレーニングできるようになります。

カーディナリティを減らす(可能な場合)

一般的な経験則として、多くの異なる一意の値(たとえば 12 個以上)を持つカテゴリ機能がある場合は、その機能に基づいてモデルを異なる動作にしたい場合にのみ、その機能を使用する必要があります。たとえば、米国には 50 の州があるため、モデルの予想される動作をカリフォルニア州では 1 つの方法、フロリダ州では別の方法にしたい場合は、「州」という特徴を使用することを検討します。

一方、「状態」機能に応じて異なる動作をするモデルが必要ない場合は、「状態」機能のカーディナリティを減らす方がよいでしょう。

数え上げ問題に注意する

場合によっては、Bag of Words (BoW) の場合のように、ドキュメントの長さが時間の経過とともに増加または減少しない場合、合計は時間の経過とともにほぼ同じ範囲に留まります。

問題を引き起こしている可能性のあるインスタンスを数えます。 たとえば、あるシナリオでは、ユーザーがサービスに加入してから行った通話の数をカウントする機能があります。 サブスクリプション サービスを提供している会社が長い間存在している場合、純粋な統計では、その会社が多数の電話をかけていることがわかります。

データが増えるにつれて、現在は頻度が低い値も将来的には頻繁に出現するようになる可能性があります。したがって、このような問題に対処するための時間枠を増やす必要がある。

特徴選択を実行する

絶対に必要な場合にのみ機能選択を実行する理由はいくつかあります。

モデルは解釈可能でなければならないので、最も重要な特徴だけを残すのが最善である。

厳しいハードウェア要件がある

大規模な実験を実行したり、本番環境向けにスキーマを再構築したりする時間があまりない

複数のモデルトレーニング間で分布の変化が予想される

<<:  中国人の「専門用語」データセット、AI:あなたはDBQさえ理解していない

>>:  AIと自動化によるセキュリティの向上

ブログ    

推薦する

Meta Digital Human 2nd Generation が登場! VRヘッドセットはもういらない、iPhoneでスキャンするだけ

Meta のリアルなデジタル ヒューマン 2.0 がさらに進化し、iPhone を使用して生成できる...

AIがKing of GloryやStarCraftをプレイしています...その背後にあるテクノロジーを理解していないのですか?ゲームAIのレビューはこちら

[[437808]]人間とコンピュータのゲームは長い歴史があり、人工知能の主要技術を検証するための主...

AIの最高峰:自然言語処理

近年、世界中でますます多くの政府や企業組織が人工知能の経済的、戦略的重要性を徐々に認識し、国家戦略や...

ChatGPTに加えて、知っておくべき14の大きなモデルがあります

多くの上司は人工知能を未来と見ており、多くのテクノロジーリーダーは ChatGPT を人工知能と同義...

クラウドコンピューティングを再構築! Baidu Smart Cloudが20以上のフルスタック製品を一挙にリリース

12月20日、2023年百度クラウドインテリジェンスカンファレンスとインテリジェントコンピューティン...

TikTok本社は米国に残り、ByteDanceが管理権とコアアルゴリズムを保持する

事情に詳しい関係者らは、米政府に提出した提案に基づき、バイトダンスがティックトックの本社を米国内に維...

...

AI に役立つ 7 つのオープンソース ツール

[[282843]]人工知能は未来の道を歩み続ける注目すべき技術です。この進化する時代において、それ...

予想外! AI技術はアダルト動画サイトに成熟して適用されている

アダルト動画サイトがAI技術を導入!ウェブサイトでは、顔認識やアルゴリズムを使用したビデオプレビュー...

...

機械学習のパフォーマンスを最適化するために必要な 6 つの指標

実行している機械学習の種類に応じて、モデルのパフォーマンスを測定するために使用できるメトリックは多数...

パフォーマンスは 5000 個の H100 でトレーニングされた GPT-4 に近いです。 DeepMindが新世代の大規模モデルを共同開発

最近、InflectionAI は新しい AI モデルをリリースしました。さらに衝撃的なのは、Inf...

2022年スタンフォードAIインデックス発表:中国がAIジャーナルの出版と引用で1位、TFオープンソースライブラリが最も人気

人工知能の分野では、スタンフォード大学が開始したAIインデックスは、AIの動向と進歩を追跡する非営利...

中国で初めて申請を通過し、オンラインで入手可能になったAI大規模モデル製品8つ

8月31日、中国科学院傘下の百度、バイトダンス、センスタイム、紫東台中、百川知能、知普華章など8つの...

配達員に代わるドローン配達は、人々に「嫌われるのではなく愛される」ようになる

現在、人々の生活や仕事のペースはますます加速し、インターネット電子商取引プラットフォームは急速に発展...