機械学習への8つのステップ

先月、Kaggle の共同創設者兼 CTO である Ben Hamner 氏が、Kaggle、機械学習、人工知能に関する一連の質問に Quora で回答しました。 Kaggle チームは、Hamner の「機械学習への 8 つのステップ」に関する提案を再編成し、中核的な要約を作成しました。

[[189085]]

今こそ、機械学習と人工知能について学ぶのに最適な時期です。近年、この分野は急速に発展し、実りある成果を上げています。専門家がさまざまな高品質のソフトウェアツールやライブラリをオープンソース化しており、新しいオンラインリソースやブログ投稿が常に登場しています。機械学習は、業界の収益を数十億ドル増加させ、前例のないリソースを生み出し、膨大な数の雇用機会を生み出しました。しかし、これは機械学習を始めるのが少し大変になるかもしれないことも意味します。これが私が始めたきっかけです。この記事のどこかで行き詰まった場合は、Kaggle を検索して (以前に同じ問題に遭遇した人がいるかもしれません)、Kaggle フォーラムで質問する (以前に誰も質問していない場合) と、方向性を得て問題を解決するための良い方法です。

1. 興味のある質問を選ぶ

難解で体系化されていないトピックのリストから始めるのではなく、解決したい問題から始めることで、集中して積極的に学習することが容易になります (Google で検索すると、機械学習リソースのリストが多数見つかる可能性があるため、ここでは提供しません)。問題を解決すると、機械学習に関する記事をただ受動的に読むのではなく、より深く掘り下げて取り組むようになります。

適切な導入質問を選択するための基準はいくつかあります。

質問はあなたにとって個人的に興味のある分野をカバーしています
データはすぐに利用可能で、問題解決に最適です（そうでなければ、ほとんどの時間が無駄になります）
データ（または関連するデータのサブセット）を1台のマシンで快適に使用できる
問題が見つかりませんでしたか? 心配しないでください! 私たちは、Kaggle の「Getting Started」コンペティションシリーズを通じて、優れた機械学習の問題をいくつか提供しています。開始するには、Titanic コンペティション (https://www.kaggle.com/c/titanic) をクリックしてください。

2. 問題に対して、手早く、粗雑で、愚かなエンドツーエンドの解決策を作成します。

実装の詳細や、欠陥のある機械学習アルゴリズムのデバッグに行き詰まってしまうのは非常に簡単なので、それを避けたいものです。

ここでの目標は、データの読み取りと機械学習に適した形式への処理、基本モデルのトレーニング、結果の作成とパフォーマンスの評価という、エンドツーエンドの問題を網羅した超基本的なコンテンツをできるだけ早く習得することです。

3. 当初の計画を実行し、改善する

基本的な能力が確立されたので、次はイノベーションを起こすときです。当初の計画の各要素を改善し、その影響度を測定して、どこに時間を費やすのが合理的かを判断します。多くの場合、機械学習モデル自体を最適化するよりも、より多くのデータを取得したり、データのクリーニングや前処理の手順を改善したりする方が、投資収益率 (ROI) が高くなります。

このステップには、データの構造と特性をより深く理解するために、個々の行を調べ、分布を視覚化するなど、データの実践的な作業を含める必要があります。

4. 解決策を書いて共有する

ソリューションに関するフィードバックを得る最良の方法は、それを書き留めて共有することです。書くというプロセスは、解決策を整理し、より深い理解をもたらす新しい方法です。これにより、他の人があなたのやっていることを理解し、フィードバックを提供できるようになり、学習に役立ちます。これにより、機械学習プロジェクトのポートフォリオも開始され、能力を証明して仕事を獲得するのに役立ちます。

Kaggle データセットと Kaggle カーネルは、データとソリューションを共有し、他の人からフィードバックを得て、他の人があなたの問題をどのように拡張しているかを確認し、Kaggle ドキュメントを具体化するための優れた方法です。

5. 別の質問セットで手順1～4を繰り返します。

関心のある問題を 1 つ解決したら、さまざまなドメインにわたってこれを複数回実行できます。

表形式のデータから始めましたか? 次に、構造化されていないテキストに関する問題と、画像を扱う別の問題を解決します。

機械学習の問題は最初から構造化されていますか? 多くの革新的で価値のある研究は、緩く定義されたビジネス目標または研究目標を、最初から明確に定義された機械学習の問題に変換する方法を扱っています。これは、あるタイプの問題を解決する方法です。

Kaggle コンペティションと Kaggle データセットは、明確に定義された機械学習の問題と機械学習に適した生データリソースの優れた出発点を提供します。

6. Kaggle コンテストへの参加を真剣に考えてみましょう (まだ参加していない場合)

何千人もの人々が取り組んでいる同じ問題に対して最善の答えを見つけることは、大きな学習の機会です。同じ問題を何度も繰り返し検討する必要があり、問題を解決するために何が効果的かを発見することができます。

個々のコンペティションのフォーラムは、他の人があなたのアプローチを使用して問題にどのようにアプローチし、デバッグしたかについての豊富なリソースであり、カーネルは、簡単な方法で問題を解決するためのデータへの探索的な洞察を提供し、最後に優勝したブログ投稿 (http://blog.kaggle.com/category/winners-interviews/) では最高の結果が紹介されます。

Kaggle コンテストでは、他の人とチームを組むユニークな機会も提供されます。コミュニティの人々はそれぞれ異なる背景やスキルを持っており、誰もが教える役割と学ぶ役割の両方を担うことができます。もしかしたら、あなたの将来の同僚も Kaggle コミュニティにいるかもしれません。

7. 機械学習の仕事に応募する

これにより、ほとんどの時間を機械学習に費やし、スキルを実際に向上させることができます。自分が追求したい職種を決定し、それに関連する個人プロジェクトのポートフォリオを構築することが、強力な出発点となります。機械学習の職種の面接を受ける準備がまだできていない場合は、現在の役割で新しいプロジェクトを引き受けたり、コンサルティングの機会を追求したり、市民ハッカソンやデータ関連のコミュニティサービスの機会に参加したりして、足がかりを得るための追加の方法を検討してください。専門的な作業には強力なプログラミングスキルが必要であり、仕事のパフォーマンスを大幅に向上させることができます。集中したプロジェクトによってもたらされる改善は、下流に多くのメリットをもたらします。

専門的な機械学習の仕事に就く貴重な機会には次のようなものがあります。