機械学習への8つのステップ

機械学習への8つのステップ

先月、Kaggle の共同創設者兼 CTO である Ben Hamner 氏が、Kaggle、機械学習、人工知能に関する一連の質問に Quora で回答しました。 Kaggle チームは、Hamner の「機械学習への 8 つのステップ」に関する提案を再編成し、中核的な要約を作成しました。

[[189085]]

今こそ、機械学習と人工知能について学ぶのに最適な時期です。近年、この分野は急速に発展し、実りある成果を上げています。専門家がさまざまな高品質のソフトウェア ツールやライブラリをオープンソース化しており、新しいオンライン リソースやブログ投稿が常に登場しています。機械学習は、業界の収益を数十億ドル増加させ、前例のないリソースを生み出し、膨大な数の雇用機会を生み出しました。しかし、これは機械学習を始めるのが少し大変になるかもしれないことも意味します。これが私が始めたきっかけです。この記事のどこかで行き詰まった場合は、Kaggle を検索して (以前に同じ問題に遭遇した人がいるかもしれません)、Kaggle フォーラムで質問する (以前に誰も質問していない場合) と、方向性を得て問題を解決するための良い方法です。

1. 興味のある質問を選ぶ

難解で体系化されていないトピックのリストから始めるのではなく、解決したい問題から始めることで、集中して積極的に学習することが容易になります (Google で検索すると、機械学習リソースのリストが多数見つかる可能性があるため、ここでは提供しません)。問題を解決すると、機械学習に関する記事をただ受動的に読むのではなく、より深く掘り下げて取り組むようになります。

適切な導入質問を選択するための基準はいくつかあります。

  • 質問はあなたにとって個人的に興味のある分野をカバーしています
  • データはすぐに利用可能で、問題解決に最適です(そうでなければ、ほとんどの時間が無駄になります)
  • データ(または関連するデータのサブセット)を1台のマシンで快適に使用できる
  • 問題が見つかりませんでしたか? 心配しないでください! 私たちは、Kaggle の「Getting Started」コンペティション シリーズを通じて、優れた機械学習の問題をいくつか提供しています。開始するには、Titanic コンペティション (https://www.kaggle.com/c/titanic) をクリックしてください。

2. 問題に対して、手早く、粗雑で、愚かなエンドツーエンドの解決策を作成します。

実装の詳細や、欠陥のある機械学習アルゴリズムのデバッグに行き詰まってしまうのは非常に簡単なので、それを避けたいものです。

ここでの目標は、データの読み取りと機械学習に適した形式への処理、基本モデルのトレーニング、結果の作成とパフォーマンスの評価という、エンドツーエンドの問題を網羅した超基本的なコンテンツをできるだけ早く習得することです。

3. 当初の計画を実行し、改善する

基本的な能力が確立されたので、次はイノベーションを起こすときです。当初の計画の各要素を改善し、その影響度を測定して、どこに時間を費やすのが合理的かを判断します。多くの場合、機械学習モデル自体を最適化するよりも、より多くのデータを取得したり、データのクリーニングや前処理の手順を改善したりする方が、投資収益率 (ROI) が高くなります。

このステップには、データの構造と特性をより深く理解するために、個々の行を調べ、分布を視覚化するなど、データの実践的な作業を含める必要があります。

4. 解決策を書いて共有する

ソリューションに関するフィードバックを得る最良の方法は、それを書き留めて共有することです。書くというプロセスは、解決策を整理し、より深い理解をもたらす新しい方法です。これにより、他の人があなたのやっていることを理解し、フィードバックを提供できるようになり、学習に役立ちます。これにより、機械学習プロジェクトのポートフォリオも開始され、能力を証明して仕事を獲得するのに役立ちます。

Kaggle データセットと Kaggle カーネルは、データとソリューションを共有し、他の人からフィードバックを得て、他の人があなたの問題をどのように拡張しているかを確認し、Kaggle ドキュメントを具体化するための優れた方法です。

5. 別の質問セットで手順1~4を繰り返します。

関心のある問題を 1 つ解決したら、さまざまなドメインにわたってこれを複数回実行できます。

表形式のデータから始めましたか? 次に、構造化されていないテキストに関する問題と、画像を扱う別の問題を解決します。

機械学習の問題は最初から構造化されていますか? 多くの革新的で価値のある研究は、緩く定義されたビジネス目標または研究目標を、最初から明確に定義された機械学習の問題に変換する方法を扱っています。これは、あるタイプの問題を解決する方法です。

Kaggle コンペティションと Kaggle データセットは、明確に定義された機械学習の問題と機械学習に適した生データ リソースの優れた出発点を提供します。

6. Kaggle コンテストへの参加を真剣に考えてみましょう (まだ参加していない場合)

何千人もの人々が取り組んでいる同じ問題に対して最善の答えを見つけることは、大きな学習の機会です。同じ問題を何度も繰り返し検討する必要があり、問題を解決するために何が効果的かを発見することができます。

個々のコンペティションのフォーラムは、他の人があなたのアプローチを使用して問題にどのようにアプローチし、デバッグしたかについての豊富なリソースであり、カーネルは、簡単な方法で問題を解決するためのデータへの探索的な洞察を提供し、最後に優勝したブログ投稿 (http://blog.kaggle.com/category/winners-interviews/) では最高の結果が紹介されます。

Kaggle コンテストでは、他の人とチームを組むユニークな機会も提供されます。コミュニティの人々はそれぞれ異なる背景やスキルを持っており、誰もが教える役割と学ぶ役割の両方を担うことができます。もしかしたら、あなたの将来の同僚も Kaggle コミュニティにいるかもしれません。

7. 機械学習の仕事に応募する

これにより、ほとんどの時間を機械学習に費やし、スキルを実際に向上させることができます。自分が追求したい職種を決定し、それに関連する個人プロジェクトのポートフォリオを構築することが、強力な出発点となります。機械学習の職種の面接を受ける準備がまだできていない場合は、現在の役割で新しいプロジェクトを引き受けたり、コンサルティングの機会を追求したり、市民ハッカソンやデータ関連のコミュニティサービスの機会に参加したりして、足がかりを得るための追加の方法を検討してください。専門的な作業には強力なプログラミング スキルが必要であり、仕事のパフォーマンスを大幅に向上させることができます。集中したプロジェクトによってもたらされる改善は、下流に多くのメリットをもたらします。

専門的な機械学習の仕事に就く貴重な機会には次のようなものがあります。

  • 生産システムにおける機械学習の応用
  • 機械学習の研究に焦点を当て、最新の進歩を促進する
  • 機械学習を活用して、製品やビジネス上の意思決定のための探索的分析を改善する

8. 機械学習を他の人に教える

チュートリアルは、機械学習の中核となる概念の理解を深めるのに役立ちます。他の人に教える方法はたくさんあります。自分に最も合ったものを選択してください。

  • 研究論文を書く
  • スピーチをする
  • ブログ記事やチュートリアルを書く
  • Kaggle、Quora、その他のサイトで質問に答える
  • 個人指導とコーチング
  • コード例を共有する(Kaggle Kernels と GitHub で)
  • 教育
  • 本を書く

<<:  AIのトップ研究者からのアドバイス:あなたもAIに取り組んでいると聞きましたが、この4つの落とし穴にはまらないように!

>>:  デルと中国科学院が共同で「人工知能と先端コンピューティングの共同研究室」を建設

ブログ    
ブログ    
ブログ    

推薦する

自然言語処理がCOVID-19に対する世界的な戦いに貢献

インターネットの普及と膨大な情報の出現により、人工知能の分野における重要な方向性としての自然言語処理...

ブロックチェーン技術における機械学習

近代化は世界を変える可能性のある新しい画期的なものをもたらしました。現実世界の問題は、単純な従来のア...

...

対称暗号化、非対称暗号化、ハッシュアルゴリズムについてお話ししましょう

[[327803]]対称暗号化対称キー暗号化とは何ですか?対称暗号化は、対称暗号コーディング技術を...

量子コンピューティングがサプライチェーン管理を改善する方法

サプライチェーン業務における量子コンピューティングのユースケースでは、意思決定モデル内の複雑で不可能...

高性能 LLM 推論フレームワークの設計と実装

1. 大規模言語モデル推論の概要従来の CNN モデル推論とは異なり、大規模言語モデルの推論は通常、...

AIが独自に病気を診断できる場合、人間の医師は責任を回避できるのでしょうか?

健康診断のために病院に行くところを想像してください。診察室に入るとすぐに、看護師があなたの写真を撮り...

プログラマーが使用する基本アルゴリズムトップ10

[[188736]]アルゴリズム1: クイックソートアルゴリズムクイックソートは、Tony Hal...

LLaVA-1.6は非常に強力で、Gemini Proを上回り、推論機能とOCR機能が向上しています。

昨年 4 月、ウィスコンシン大学マディソン校、マイクロソフト リサーチ、コロンビア大学の研究者が共同...

人工知能が動物を理解するにはどれくらいの時間がかかるのでしょうか?

[[405241]]ビッグデータダイジェスト制作出典: engadget現在、オーストラリアに生息...

生成型AIの誇大宣伝の中、CIOは慎重に進めることを選択しているが、まだ完全にコミットしていない

ほとんどの CIO は、最新の情報を把握するために生成 AI の調査を開始していますが、市場に出回っ...

ユニバーサルデータ拡張技術、ランダム量子化はあらゆるデータモダリティに適用可能

自己教師あり学習アルゴリズムは、自然言語処理やコンピュータービジョンなどの分野で大きな進歩を遂げまし...

自動運転事故を回避するために、CV 分野では物理的な攻撃をどのように検出できるでしょうか?

敵対的攻撃の概念は、Goodfellowら[6]によって初めて提唱されました。近年、この問題はますま...