私は長年、学界と産業界の両方で機械学習モデリングに取り組んできましたが、Scalable ML で「ビッグデータ」の実用性について議論する優れたビデオ シリーズを視聴した後、機械学習を学ぶ際にもっと早く理解しておけばよかったと思う点について考え始めました。このビデオは Mikio Braun によるもので、Scala と Spark に関連する知識を紹介しています。 機械学習を学ぶ際に、もっと早く理解しておけばよかったと思うことが 3 つあります。 モデルを製品に適用することは簡単なことではありません。 実際の特徴選択や特徴抽出の手法を教科書で学ぶのは困難です。 モデル評価フェーズは非常に重要です。 一つずつ紹介していきましょう。 1. モデルを製品に適用するのは簡単なことではない 私は Data-Product で、常微分方程式を積に適用する方法について講演しました。モデルの劣化、製品内モデル評価、開発と運用間のコミュニケーションを自分一人で処理することがいかに難しいかに気づくまでには、しばらく時間がかかりました。 Yhat の ScienceOps はこの問題の解決策です。最初はその素晴らしさに気づきませんでしたが、今では市場でこの製品の直接的な競合製品を見つけるのが難しいので、彼らが非常に重要な問題を解決していると感じています。徐々に、私は運用チームが担当する業務を処理できるほど賢くないことに気づき、喜んでこの作業をアウトソーシングすることにしました。 2. 教科書で実際の特徴選択や特徴抽出の手法を学ぶのは難しい 特徴の選択と抽出の方法やテクニックは、教科書からは学べないことがよくあります。これらのテクニックは、Kaggle などのコンテストや実際のプロジェクトからのみ学ぶことができ、場合によっては、これらのテクニックやメソッドを実際に適用して学ぶ必要があります。これらのタスクは、データ サイエンス プロジェクト プロセス全体のかなりの割合を占めます。 3. モデル評価段階は非常に重要 モデルをテスト セット データに適用するまで、予測分析フェーズに入ったとは言えません。クロス検証、評価メトリックなどの評価手法は、データをテスト セットとトレーニング セットに単純に分割するため、非常に貴重です。しかし、現実世界では通常、定義されたテスト セットとトレーニング セットを含むデータは提供されないため、現実世界のデータをテスト データとトレーニング データに分割することは、多くの感情的要素が関与する創造的な作業です。 Dato にはモデル評価について議論する優れた記事が多数あります。 Mikio Braun によるトレーニング セットとテスト セットの説明は読む価値があると思います。彼が描いた図も気に入っており、トレーニング セットとテスト セットの概念に詳しくない読者のために記事に含めました。 論文や会議、さらには問題を解決するために使用する方法について議論するときでさえ、モデル評価が軽視されることがよくあります。 「SVM を使用しました」では何もわかりません。データの取得元、選択した機能、モデルの評価方法、それを本番環境に導入する方法、クロス検証やモデルのトラブルシューティングをどのように使用したかはわかりません。機械学習のこうした「汚い」側面について、もっと議論する必要があると思います。 私の友人のイアンは、現実世界の状況に合わせて機械学習モデルを構築する必要のあるあらゆるレベルの人に適した、Data Science Delivered に関する優れたノートブックを持っています。また、データ サイエンティストの採用を検討している採用担当者や、データ サイエンス チームで働いているマネージャーにとっても、「大量の汚れたデータをどのように処理しますか?」と尋ねられる相手を探している人にとっても、素晴らしい読み物です。 |
<<: 今後3年間で、人工知能は銀行と顧客とのコミュニケーションの主な手段となるだろう
>>: Sparkに代わると期待されるリアルタイム機械学習フレームワークRay
Uber や Netflix などの企業でプログラミング、コーディング、ソフトウェア開発の職に応募す...
[[385416]]現在、両セッションは活発に行われており、全国のさまざまな分野の代表者が独自の提...
この記事では、一般的に使用されているいくつかの圧縮アルゴリズムのパフォーマンスを比較します。結果は、...
経済、社会、技術の急速な発展に伴い、世界人口は急速に増加し、天然資源の消費も増加しています。現在、陸...
ディープラーニングと機械学習を中核とするAI技術は、主にコンピューティング能力とアルゴリズムのブレー...
2016 年が過ぎ、BEEVA Labs のデータ アナリスト Ricardo Guerrero G...
海外メディアの報道によると、2018年のホリデーショッピングシーズンは、オンライン売上高が1,260...
5月のI/Oカンファレンスでは、Med-PaLM 2が大幅にアップグレードされ、エキスパートレベルに...
[51CTO.com 速訳] 最近、FacebookはMessengerプラットフォーム上のチャット...
ロボットに手伝ってもらいたい場合は、通常、より正確な指示を与える必要がありますが、指示の実際の実装は...
序文最近、欲張りになりすぎないように、機械学習の基本的なアルゴリズムを体系的に勉強しようと思っていま...