私は長年、学界と産業界の両方で機械学習モデリングに取り組んできましたが、Scalable ML で「ビッグデータ」の実用性について議論する優れたビデオ シリーズを視聴した後、機械学習を学ぶ際にもっと早く理解しておけばよかったと思う点について考え始めました。このビデオは Mikio Braun によるもので、Scala と Spark に関連する知識を紹介しています。 機械学習を学ぶ際に、もっと早く理解しておけばよかったと思うことが 3 つあります。 モデルを製品に適用することは簡単なことではありません。 実際の特徴選択や特徴抽出の手法を教科書で学ぶのは困難です。 モデル評価フェーズは非常に重要です。 一つずつ紹介していきましょう。 1. モデルを製品に適用するのは簡単なことではない 私は Data-Product で、常微分方程式を積に適用する方法について講演しました。モデルの劣化、製品内モデル評価、開発と運用間のコミュニケーションを自分一人で処理することがいかに難しいかに気づくまでには、しばらく時間がかかりました。 Yhat の ScienceOps はこの問題の解決策です。最初はその素晴らしさに気づきませんでしたが、今では市場でこの製品の直接的な競合製品を見つけるのが難しいので、彼らが非常に重要な問題を解決していると感じています。徐々に、私は運用チームが担当する業務を処理できるほど賢くないことに気づき、喜んでこの作業をアウトソーシングすることにしました。 2. 教科書で実際の特徴選択や特徴抽出の手法を学ぶのは難しい 特徴の選択と抽出の方法やテクニックは、教科書からは学べないことがよくあります。これらのテクニックは、Kaggle などのコンテストや実際のプロジェクトからのみ学ぶことができ、場合によっては、これらのテクニックやメソッドを実際に適用して学ぶ必要があります。これらのタスクは、データ サイエンス プロジェクト プロセス全体のかなりの割合を占めます。 3. モデル評価段階は非常に重要 モデルをテスト セット データに適用するまで、予測分析フェーズに入ったとは言えません。クロス検証、評価メトリックなどの評価手法は、データをテスト セットとトレーニング セットに単純に分割するため、非常に貴重です。しかし、現実世界では通常、定義されたテスト セットとトレーニング セットを含むデータは提供されないため、現実世界のデータをテスト データとトレーニング データに分割することは、多くの感情的要素が関与する創造的な作業です。 Dato にはモデル評価について議論する優れた記事が多数あります。 Mikio Braun によるトレーニング セットとテスト セットの説明は読む価値があると思います。彼が描いた図も気に入っており、トレーニング セットとテスト セットの概念に詳しくない読者のために記事に含めました。 論文や会議、さらには問題を解決するために使用する方法について議論するときでさえ、モデル評価が軽視されることがよくあります。 「SVM を使用しました」では何もわかりません。データの取得元、選択した機能、モデルの評価方法、それを本番環境に導入する方法、クロス検証やモデルのトラブルシューティングをどのように使用したかはわかりません。機械学習のこうした「汚い」側面について、もっと議論する必要があると思います。 私の友人のイアンは、現実世界の状況に合わせて機械学習モデルを構築する必要のあるあらゆるレベルの人に適した、Data Science Delivered に関する優れたノートブックを持っています。また、データ サイエンティストの採用を検討している採用担当者や、データ サイエンス チームで働いているマネージャーにとっても、「大量の汚れたデータをどのように処理しますか?」と尋ねられる相手を探している人にとっても、素晴らしい読み物です。 |
<<: 今後3年間で、人工知能は銀行と顧客とのコミュニケーションの主な手段となるだろう
>>: Sparkに代わると期待されるリアルタイム機械学習フレームワークRay
[[349907]]あらゆる業界に嵐のように広がっている流行語があるとすれば、それは「人工知能」に違...
自動運転車の台頭により、都市の建設方法や都市環境における交通手段に対する考え方が一変するでしょう。 ...
近年、伝統産業の変革の要求が継続的に解放されるにつれて、人間を機械に置き換えることが重要なトレンドに...
OpenAIは7月21日、カスタム指示機能のリリースを発表しました。この機能はまずPLUSプランのベ...
先ほど、Google Brainのシニア研究科学者であるBarret Zoph氏が、言語モデルのパラ...
高齢者介護サービスも人工知能を積極的に取り入れる必要がある。両者を統合し、相互に補強し、高齢者の多様...
現代医学の世界では、大きな役割を果たす小さな成分が 1 つあります。この成分は、血管造影などの処置中...
最近、ある問題を発見しました:映画でも現実でも、人工知能AIは人間を圧倒するような形で世間の前に現れ...
2018年5月18日〜19日、51CTO主催のグローバルソフトウェアおよび運用技術サミットが北京で開...
視覚言語モデル (VLM) は、画像の説明、視覚的な質問応答 (VQA)、具体化された計画、アクショ...
Google と他のチームは、遺伝的プログラミングの最新の成果である AutoRobotics-Ze...