2017 年後半を迎えるにあたり、データ サイエンスと機械学習を活用する企業が直面する共通の課題について検討する時期が来ています。あなたの会社がすでに大規模にデータを収集しており、分析ツールを必要としており、データ サイエンスが重要な役割 (意思決定や業務運営の改善、収益の増加など) を果たすことができることを認識し、優先順位を付けていると仮定します。データを収集し、興味のある質問を特定することは簡単なことではありませんが、これらの面で良いスタートを切ったと仮定すると、どのような課題が残っているのでしょうか?
データ サイエンスは幅広いトピックなので、明確にしておきたいのは、この記事は教師あり機械学習の使用の現状に焦点を当てているということです。 すべては(トレーニング)データから始まる データの取り込みと統合を担当するチームと、データ プラットフォーム (「真実のソース」) を維持するチームがあると仮定すると、新しいデータ ソースが絶えず出現しており、これらのソースを特定するのはドメイン エキスパートの責任です。また、私たちは教師あり学習に重点を置いているため、トレーニング データの不足が機械学習プロジェクトの主なボトルネックとなっているのも不思議ではありません。 大規模なトレーニング データセットを迅速に作成 (または既存のデータセットを強化) するための優れた研究プロジェクトとツールがいくつかあります。スタンフォード大学の研究者らは、大量の手作業でラベル付けされたトレーニングデータを使用せずに、弱い監督とデータプログラミングを使用してモデルをトレーニングできることを実証しました。ディープラーニング研究者による生成モデルに関する初期の研究は、コンピュータービジョンやその他の分野における教師なし学習において有望な結果をもたらしました。 「アルゴリズムではなく特徴について考える」ことは、機械学習のコンテキストでデータを評価するためのもう 1 つの便利なアプローチです。注意: データ拡張により既存のモデルが改善され、場合によってはコールド スタートの問題を軽減できることもあります。ほとんどのデータ サイエンティストは、おそらくすでに既存のデータセットをオープン ソース データまたはサードパーティのデータ プロバイダーを通じて拡張していますが、データ拡張が見落とされてしまうことがあることに気づきました。外部データを取得して正規化し、それを使って実験を行うことは、モデルやアルゴリズムを開発することよりも魅力的ではないと人々は感じています。 プロトタイプから製品へ データ サイエンス プロジェクトの製品化は、多くのユース ケースの目標です。このプロセスをより効率的にするために、機械学習エンジニアという新しい職種が最近登場しました。プロトタイプから製品への移行を容易にし、分析製品に関連するコンテキストとメタデータを追跡するのに役立つ新しいツール セットもあります。 製品における機械学習の使用はまだ初期段階にあり、ベストプラクティスも現れ始めたばかりです。高度な分析モデルが普及するにつれて、次のような点を考慮する必要があります。
モデル開発 モデルやアルゴリズムの開発はメディアで取り上げられることが増えていますが、データ サイエンティストに話を聞くと、トレーニング データの不足とデータ サイエンスの製品化の方が差し迫った問題だとほとんどの人が言うでしょう。一般的に言えば、世の中には簡単な使用例が十分にあるので、好みのアルゴリズム(基本または高度)を開発し、後で調整したり置き換えたりすることができます。 ツールを使用するとアルゴリズムを簡単に適用できるため、まず機械学習モデルの結果を評価する方法を思い出すと役立ちます。ただし、ビジネス指標や目標は、最適に調整されたモデルや最高のパフォーマンスを発揮するモデルと完全には一致しない可能性があるため、見失わないようにしてください。研究者や企業がこの分野の問題を調査し、対処し始めているので、公平性と透明性に関する進展に注目してください。プライバシーに関する懸念とデバイスの急増により、集中化されたデータセットに依存しないテクノロジーが生まれました。 ディープラーニングは、データサイエンティストが知っておくべきアルゴリズムになりつつあります。ディープラーニングは当初はコンピュータービジョンや音声認識に使用されていましたが、現在ではデータサイエンティストが想像できるあらゆる種類のデータや問題に適用されています。課題としては、適切なネットワーク アーキテクチャの選択 (アーキテクチャ エンジニアリングは新しい機能エンジニアリングです)、ハイパーパラメータの調整、問題の記述、ディープラーニングに適したデータへの変換などが挙げられます。 (偶然にも、今年私が見た最も興味深いビッグデータ製品の 1 つは、ディープラーニングに基づいていませんでした。) 多くの場合、ユーザーは解釈可能なモデルを好みます (場合によっては、ブラック ボックス モデルは人々に受け入れられません)。解釈可能なモデルは、基礎となるメカニズムが理解しやすいため、改善も容易です。ディープラーニングの台頭により、企業は、モデルが予測を行う理由や、そのモデルがどこから来たのか(学習アルゴリズムとトレーニング データをトレースすることによって)を説明できるツールに注目するようになりました。 道具 ツールが多すぎてリストに載せられないので、リストを作成したくありません。データの取り込み、統合、処理、準備、保存、モデルの展開に役立つツールは非常に重要です。機械学習ツールに関するいくつかの考えを次に示します。
今こそ、企業にとって、どの問題やユースケースが機械学習に適しているかを評価する良い機会です。最近の傾向と未解決のボトルネックのこの概要から得られる主な結論は、機械学習の使用を開始する時期が来ているということです。すでにデータがある問題から始めて、優れたモデルを構築します。 |
<<: AIシステムが初めて自律プログラミングを実現し、初心者プログラマーを上回る成果を達成!
ダブル11の大割引が戻ってきました。新規のお客様が最初に購入できる厳選商品...速達便のビジネスプロ...
「会話型 AI」という用語には確かに重みがありますが、最終的にはそれがビジネスに実際にどのような影...
[[356180]]序文今日は引き続き js アルゴリズムについてお話ししましょう。以下の説明を通じ...
01 データキャプチャ1. 背景調査1) robots.txt をチェックして、サイトのクロールにど...
今週、米国科学アカデミー紀要に発表された新たな研究は、ディープフェイク技術がどれだけ進歩したかを示す...
「医者にかかりにくい」「入院しにくい」など、人々の生活における医療上の困難な問題が相次ぐ中、「インタ...
科学技術は主要な生産力です。人類社会が発展し続けることができるのは、何世代にもわたる科学者が新しい技...
テンセントAIラボ機械学習センターは本日、世界初の自動ディープラーニングモデル圧縮フレームワーク「P...
[[430002]] 2019年、ボストンのバックベイにあるストリートウェアショップ「Bodega」...
[[375636]] 2020年11月下旬、イランのトップ核科学者モフセン・ファクリザデ氏がテヘラ...
2018 年は過去のものとなりましたが、AI は依然として今年の主要なテクノロジー トレンドの 1...