機械学習を学ぶ際に早い段階で知っておくべき3つのこと

機械学習を学ぶ際に早い段階で知っておくべき3つのこと

私は長年、学界と産業界の両方で機械学習モデリングに取り組んできましたが、Scalable ML で「ビッグデータ」の実用性について議論する優れたビデオ シリーズを視聴した後、機械学習を学ぶ際にもっと早く理解しておけばよかったと思う点について考え始めました。このビデオは Mikio Braun によるもので、Scala と Spark に関連する知識を紹介しています。

機械学習を学ぶ際に、もっと早く理解しておけばよかったと思うことが 3 つあります。

モデルを製品に適用することは簡単なことではありません。

実際の特徴選択や特徴抽出の手法を教科書で学ぶのは困難です。

モデル評価フェーズは非常に重要です。

一つずつ紹介していきましょう。

1. モデルを製品に適用するのは簡単なことではない

私は Data-Product で、常微分方程式を積に適用する方法について講演しました。モデルの劣化、製品内モデル評価、開発と運用間のコミュニケーションを自分一人で処理することがいかに難しいかに気づくまでには、しばらく時間がかかりました。 Yhat の ScienceOps はこの問題の解決策です。最初はその素晴らしさに気づきませんでしたが、今では市場でこの製品の直接的な競合製品を見つけるのが難しいので、彼らが非常に重要な問題を解決していると感じています。徐々に、私は運用チームが担当する業務を処理できるほど賢くないことに気づき、喜んでこの作業をアウトソーシングすることにしました。

2. 教科書で実際の特徴選択や特徴抽出の手法を学ぶのは難しい

特徴の選択と抽出の方法やテクニックは、教科書からは学べないことがよくあります。これらのテクニックは、Kaggle などのコンテストや実際のプロジェクトからのみ学ぶことができ、場合によっては、これらのテクニックやメソッドを実際に適用して学ぶ必要があります。これらのタスクは、データ サイエンス プロジェクト プロセス全体のかなりの割合を占めます。

3. モデル評価段階は非常に重要

モデルをテスト セット データに適用するまで、予測分析フェーズに入ったとは言えません。クロス検証、評価メトリックなどの評価手法は、データをテスト セットとトレーニング セットに単純に分割するため、非常に貴重です。しかし、現実世界では通常、定義されたテスト セットとトレーニング セットを含むデータは提供されないため、現実世界のデータをテスト データとトレーニング データに分割することは、多くの感情的要素が関与する創造的な作業です。 Dato にはモデル評価について議論する優れた記事が多数あります。

Mikio Braun によるトレーニング セットとテスト セットの説明は読む価値があると思います。彼が描いた図も気に入っており、トレーニング セットとテスト セットの概念に詳しくない読者のために記事に含めました。

論文や会議、さらには問題を解決するために使用する方法について議論するときでさえ、モデル評価が軽視されることがよくあります。 「SVM を使用しました」では何もわかりません。データの取得元、選択した機能、モデルの評価方法、それを本番環境に導入する方法、クロス検証やモデルのトラブルシューティングをどのように使用したかはわかりません。機械学習のこうした「汚い」側面について、もっと議論する必要があると思います。

私の友人のイアンは、現実世界の状況に合わせて機械学習モデルを構築する必要のあるあらゆるレベルの人に適した、Data Science Delivered に関する優れたノートブックを持っています。また、データ サイエンティストの採用を検討している採用担当者や、データ サイエンス チームで働いているマネージャーにとっても、「大量の汚れたデータをどのように処理しますか?」と尋ねられる相手を探している人にとっても、素晴らしい読み物です。

<<:  今後3年間で、人工知能は銀行と顧客とのコミュニケーションの主な手段となるだろう

>>:  Sparkに代わると期待されるリアルタイム機械学習フレームワークRay

ブログ    

推薦する

...

破壊的な AI プログラム: 人工知能が天文学の革新を推進する方法

[[349907]]あらゆる業界に嵐のように広がっている流行語があるとすれば、それは「人工知能」に違...

自動運転車インフラの新たなビジョン

自動運転車の台頭により、都市の建設方法や都市環境における交通手段に対する考え方が一変するでしょう。 ...

...

...

人間を機械に置き換える流れはますます激しくなっており、この2つの発展点は無視できません。

近年、伝統産業の変革の要求が継続的に解放されるにつれて、人間を機械に置き換えることが重要なトレンドに...

OpenAIがカスタムコマンド機能を開始、会話ごとに好みや情報を繰り返す必要がなくなる

OpenAIは7月21日、カスタム指示機能のリリースを発表しました。この機能はまずPLUSプランのベ...

Google Brainは、T5の最大7倍の事前トレーニング速度を備えた簡素化されたスパースアーキテクチャを提案しています。

先ほど、Google Brainのシニア研究科学者であるBarret Zoph氏が、言語モデルのパラ...

人工知能を活用した高齢者介護サービスについての考察

高齢者介護サービスも人工知能を積極的に取り入れる必要がある。両者を統合し、相互に補強し、高齢者の多様...

医療製造におけるビジョンテクノロジー

現代医学の世界では、大きな役割を果たす小さな成分が 1 つあります。この成分は、血管造影などの処置中...

人工知能に特化したAIハッカーが近々登場すると予想

最近、ある問題を発見しました:映画でも現実でも、人工知能AIは人間を圧倒するような形で世間の前に現れ...

3 つの AIOps プラクティス: 可視化、自動化からインテリジェンスまで

2018年5月18日〜19日、51CTO主催のグローバルソフトウェアおよび運用技術サミットが北京で開...

Googleがまた新しいことを始める: 視覚言語モデルに空間推論をさせる

視覚言語モデル (VLM) は、画像の説明、視覚的な質問応答 (VQA)、具体化された計画、アクショ...

...