機械学習への8つのステップ

機械学習への8つのステップ

先月、Kaggle の共同創設者兼 CTO である Ben Hamner 氏が、Kaggle、機械学習、人工知能に関する一連の質問に Quora で回答しました。 Kaggle チームは、Hamner の「機械学習への 8 つのステップ」に関する提案を再編成し、中核的な要約を作成しました。

[[189085]]

今こそ、機械学習と人工知能について学ぶのに最適な時期です。近年、この分野は急速に発展し、実りある成果を上げています。専門家がさまざまな高品質のソフトウェア ツールやライブラリをオープンソース化しており、新しいオンライン リソースやブログ投稿が常に登場しています。機械学習は、業界の収益を数十億ドル増加させ、前例のないリソースを生み出し、膨大な数の雇用機会を生み出しました。しかし、これは機械学習を始めるのが少し大変になるかもしれないことも意味します。これが私が始めたきっかけです。この記事のどこかで行き詰まった場合は、Kaggle を検索して (以前に同じ問題に遭遇した人がいるかもしれません)、Kaggle フォーラムで質問する (以前に誰も質問していない場合) と、方向性を得て問題を解決するための良い方法です。

1. 興味のある質問を選ぶ

難解で体系化されていないトピックのリストから始めるのではなく、解決したい問題から始めることで、集中して積極的に学習することが容易になります (Google で検索すると、機械学習リソースのリストが多数見つかる可能性があるため、ここでは提供しません)。問題を解決すると、機械学習に関する記事をただ受動的に読むのではなく、より深く掘り下げて取り組むようになります。

適切な導入質問を選択するための基準はいくつかあります。

  • 質問はあなたにとって個人的に興味のある分野をカバーしています
  • データはすぐに利用可能で、問題解決に最適です(そうでなければ、ほとんどの時間が無駄になります)
  • データ(または関連するデータのサブセット)を1台のマシンで快適に使用できる
  • 問題が見つかりませんでしたか? 心配しないでください! 私たちは、Kaggle の「Getting Started」コンペティション シリーズを通じて、優れた機械学習の問題をいくつか提供しています。開始するには、Titanic コンペティション (https://www.kaggle.com/c/titanic) をクリックしてください。

2. 問題に対して、手早く、粗雑で、愚かなエンドツーエンドの解決策を作成します。

実装の詳細や、欠陥のある機械学習アルゴリズムのデバッグに行き詰まってしまうのは非常に簡単なので、それを避けたいものです。

ここでの目標は、データの読み取りと機械学習に適した形式への処理、基本モデルのトレーニング、結果の作成とパフォーマンスの評価という、エンドツーエンドの問題を網羅した超基本的なコンテンツをできるだけ早く習得することです。

3. 当初の計画を実行し、改善する

基本的な能力が確立されたので、次はイノベーションを起こすときです。当初の計画の各要素を改善し、その影響度を測定して、どこに時間を費やすのが合理的かを判断します。多くの場合、機械学習モデル自体を最適化するよりも、より多くのデータを取得したり、データのクリーニングや前処理の手順を改善したりする方が、投資収益率 (ROI) が高くなります。

このステップには、データの構造と特性をより深く理解するために、個々の行を調べ、分布を視覚化するなど、データの実践的な作業を含める必要があります。

4. 解決策を書いて共有する

ソリューションに関するフィードバックを得る最良の方法は、それを書き留めて共有することです。書くというプロセスは、解決策を整理し、より深い理解をもたらす新しい方法です。これにより、他の人があなたのやっていることを理解し、フィードバックを提供できるようになり、学習に役立ちます。これにより、機械学習プロジェクトのポートフォリオも開始され、能力を証明して仕事を獲得するのに役立ちます。

Kaggle データセットと Kaggle カーネルは、データとソリューションを共有し、他の人からフィードバックを得て、他の人があなたの問題をどのように拡張しているかを確認し、Kaggle ドキュメントを具体化するための優れた方法です。

5. 別の質問セットで手順1~4を繰り返します。

関心のある問題を 1 つ解決したら、さまざまなドメインにわたってこれを複数回実行できます。

表形式のデータから始めましたか? 次に、構造化されていないテキストに関する問題と、画像を扱う別の問題を解決します。

機械学習の問題は最初から構造化されていますか? 多くの革新的で価値のある研究は、緩く定義されたビジネス目標または研究目標を、最初から明確に定義された機械学習の問題に変換する方法を扱っています。これは、あるタイプの問題を解決する方法です。

Kaggle コンペティションと Kaggle データセットは、明確に定義された機械学習の問題と機械学習に適した生データ リソースの優れた出発点を提供します。

6. Kaggle コンテストへの参加を真剣に考えてみましょう (まだ参加していない場合)

何千人もの人々が取り組んでいる同じ問題に対して最善の答えを見つけることは、大きな学習の機会です。同じ問題を何度も繰り返し検討する必要があり、問題を解決するために何が効果的かを発見することができます。

個々のコンペティションのフォーラムは、他の人があなたのアプローチを使用して問題にどのようにアプローチし、デバッグしたかについての豊富なリソースであり、カーネルは、簡単な方法で問題を解決するためのデータへの探索的な洞察を提供し、最後に優勝したブログ投稿 (http://blog.kaggle.com/category/winners-interviews/) では最高の結果が紹介されます。

Kaggle コンテストでは、他の人とチームを組むユニークな機会も提供されます。コミュニティの人々はそれぞれ異なる背景やスキルを持っており、誰もが教える役割と学ぶ役割の両方を担うことができます。もしかしたら、あなたの将来の同僚も Kaggle コミュニティにいるかもしれません。

7. 機械学習の仕事に応募する

これにより、ほとんどの時間を機械学習に費やし、スキルを実際に向上させることができます。自分が追求したい職種を決定し、それに関連する個人プロジェクトのポートフォリオを構築することが、強力な出発点となります。機械学習の職種の面接を受ける準備がまだできていない場合は、現在の役割で新しいプロジェクトを引き受けたり、コンサルティングの機会を追求したり、市民ハッカソンやデータ関連のコミュニティサービスの機会に参加したりして、足がかりを得るための追加の方法を検討してください。専門的な作業には強力なプログラミング スキルが必要であり、仕事のパフォーマンスを大幅に向上させることができます。集中したプロジェクトによってもたらされる改善は、下流に多くのメリットをもたらします。

専門的な機械学習の仕事に就く貴重な機会には次のようなものがあります。

  • 生産システムにおける機械学習の応用
  • 機械学習の研究に焦点を当て、最新の進歩を促進する
  • 機械学習を活用して、製品やビジネス上の意思決定のための探索的分析を改善する

8. 機械学習を他の人に教える

チュートリアルは、機械学習の中核となる概念の理解を深めるのに役立ちます。他の人に教える方法はたくさんあります。自分に最も合ったものを選択してください。

  • 研究論文を書く
  • スピーチをする
  • ブログ記事やチュートリアルを書く
  • Kaggle、Quora、その他のサイトで質問に答える
  • 個人指導とコーチング
  • コード例を共有する(Kaggle Kernels と GitHub で)
  • 教育
  • 本を書く

<<:  AIのトップ研究者からのアドバイス:あなたもAIに取り組んでいると聞きましたが、この4つの落とし穴にはまらないように!

>>:  デルと中国科学院が共同で「人工知能と先端コンピューティングの共同研究室」を建設

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能がエンタープライズ ソフトウェアを変える 10 の方法

人工知能の応用は、予想外の場所に現れるかもしれません。人工知能ソフトウェアの市場にいる場合、自社製品...

この記事では、さまざまな教師なしクラスタリングアルゴリズムのPython実装について簡単に説明します。

教師なし学習は、データ内のパターンを見つけるために使用される機械学習技術の一種です。教師なし学習アル...

携帯電話の顔認識は、単に顔を見せることだけだと思っていませんか?あまりにもナイーブだ!女の子は注意しなければならない

今日は古い知識を学んだのですが、普段私たちが使っている携帯電話の顔認識は顔の部分だけを認識するもので...

PyTorch でシンプルな分類器を実装する

[[328922]]私自身の PyTorch の学習過程を思い出すと、最初はいろいろな情報を見つけ、...

GCN グラフ畳み込みネットワークの紹介

この記事では、GCN と呼ばれるよく知られたグラフ ニューラル ネットワークについて詳しく説明します...

自動運転車の長所と短所

長年にわたる技術の進歩により、交通はより便利になりました。 IoT アプリケーションなどの自動車技術...

救急室のAIにはもう少し人間的なケアが必要

[[228274]]交換室の電話が鳴り、看護師が手際よく緊急電話に出た。その後すぐに病院は救急車を派...

見事な! ! !テスラのエンドツーエンドのデモンストレーションビデオ分析

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

機械学習のテストセットをスケールアップする方法

[[387235]]テスト セットのヒル クライミングは、トレーニング セットに影響を与えたり、予測...

...

ビッグデータナレッジグラフの実践経験のまとめ

データサイエンティストとして、業界の新しい知識グラフをまとめ、技術専門家と共有し、ビッグデータの知識...

AI人材が年間数百万ドルを稼ぐ理由

現在、ほぼすべてのテクノロジー大手が AI プロジェクトを実施しており、AI 時代に勝ち残るために、...

OpenAI が深夜に 5 つのモデル アップデートを割引価格でリリースします。

編集者 | ヤン・ジェン現地時間1月25日、OpenAIは新モデルをリリースし、GPT-3.5 Tu...

海外メディアがFacebookのコンテンツクリーンアップ作業を暴露:AIでも完了できない作業

AI は見たものからしか学習できません。シュローファー氏と150人以上のエンジニアリング専門家からな...

...