データサイエンスにおける一般的な課題は何ですか?

データサイエンスにおける一般的な課題は何ですか?

2017 年後半を迎えるにあたり、データ サイエンスと機械学習を活用する企業が直面する共通の課題について検討する時期が来ています。あなたの会社がすでに大規模にデータを収集しており、分析ツールを必要としており、データ サイエンスが重要な役割 (意思決定や業務運営の改善、収益の増加など) を果たすことができることを認識し、優先順位を付けていると仮定します。データを収集し、興味のある質問を特定することは簡単なことではありませんが、これらの面で良いスタートを切ったと仮定すると、どのような課題が残っているのでしょうか?

[[206746]]

データ サイエンスは幅広いトピックなので、明確にしておきたいのは、この記事は教師あり機械学習の使用の現状に焦点を当てているということです。

すべては(トレーニング)データから始まる

データの取り込みと統合を担当するチームと、データ プラットフォーム (「真実のソース」) を維持するチームがあると仮定すると、新しいデータ ソースが絶えず出現しており、これらのソースを特定するのはドメイン エキスパートの責任です。また、私たちは教師あり学習に重点を置いているため、トレーニング データの不足が機械学習プロジェクトの主なボトルネックとなっているのも不思議ではありません。

大規模なトレーニング データセットを迅速に作成 (または既存のデータセットを強化) するための優れた研究プロジェクトとツールがいくつかあります。スタンフォード大学の研究者らは、大量の手作業でラベル付けされたトレーニングデータを使用せずに、弱い監督とデータプログラミングを使用してモデルをトレーニングできることを実証しました。ディープラーニング研究者による生成モデルに関する初期の研究は、コンピュータービジョンやその他の分野における教師なし学習において有望な結果をもたらしました。

「アルゴリズムではなく特徴について考える」ことは、機械学習のコンテキストでデータを評価するためのもう 1 つの便利なアプローチです。注意: データ拡張により既存のモデルが改善され、場合によってはコールド スタートの問題を軽減できることもあります。ほとんどのデータ サイエンティストは、おそらくすでに既存のデータセットをオープン ソース データまたはサードパーティのデータ プロバイダーを通じて拡張していますが、データ拡張が見落とされてしまうことがあることに気づきました。外部データを取得して正規化し、それを使って実験を行うことは、モデルやアルゴリズムを開発することよりも魅力的ではないと人々は感じています。

プロトタイプから製品へ

データ サイエンス プロジェクトの製品化は、多くのユース ケースの目標です。このプロセスをより効率的にするために、機械学習エンジニアという新しい職種が最近登場しました。プロトタイプから製品への移行を容易にし、分析製品に関連するコンテキストとメタデータを追跡するのに役立つ新しいツール セットもあります。

製品における機械学習の使用はまだ初期段階にあり、ベストプラクティスも現れ始めたばかりです。高度な分析モデルが普及するにつれて、次のような点を考慮する必要があります。

  • 展開環境:既存のログ記録または A/B テスト インフラストラクチャと統合する必要がある場合があります。安定した高性能モデルをサーバーにデプロイすることに加えて、デプロイ環境には、モデルをエッジにデプロイする方法とタイミング (モバイル デバイスが一般的な例) もますます含まれるようになっています。モデルをエッジ デバイスに展開するための新しいツールと戦略が登場しています。
  • スケール、レイテンシ、鮮度:モデルをトレーニングするにはどのくらいのデータが必要ですか? モデル推論の応答時間はどのくらいにする必要がありますか? どのくらいの頻度でモデルを再トレーニングし、データセットを更新する必要がありますか? 後者は、繰り返し可能なデータ パイプラインがあることを意味します。
  • バイアス:トレーニング データが代表的でない場合は、最適ではない (または不公平な) 結果が得られます。場合によっては、傾向スコアやその他の方法を使用してデータセットを適宜調整できることがあります。
  • モニター モデル:モニター モデルの重要性を過小評価している人が多いと思います。この点で、統計学を学んだ人は競争上の優位性を持っています。モデルがいつ、どの程度劣化したかを把握するのは難しい場合があります。概念の変化が要因である可能性があります。分類器の場合、1 つの戦略は、モデルによって予測されたクラスの分布と、予測されたクラスの観測された分布を比較することです。機械学習モデルの評価指標とは異なるビジネス目標を設定することもできます。たとえば、レコメンデーション システムの役割は、「隠れたコンテンツやロングテールのコンテンツ」を発見できるようにすることです。
  • 重要なアプリケーション:重要な環境に展開されるモデルは、通常のコンシューマー アプリケーションよりも安定している必要があります。さらに、このような環境における機械学習アプリケーションは、メモリリークなどの不具合なしに、数か月間「継続的に」実行できる必要があります。
  • プライバシーとセキュリティ:一般的に、ユーザーや企業にデータが安全であると納得させることができれば、データを共有する意欲が高まる可能性があります。前述のように、追加機能が強化されたデータは、多くの場合、より良い結果をもたらします。欧州連合で事業を展開する企業にとって差し迫った問題は、2018 年 5 月に施行される一般データ保護規則 (GDPR) です。他の分野では、敵対的機械学習やセキュア機械学習(暗号化されたデータを扱う機能を含む)に関する実用的な研究が登場し始めています。

モデル開発

モデルやアルゴリズムの開発はメディアで取り上げられることが増えていますが、データ サイエンティストに話を聞くと、トレーニング データの不足とデータ サイエンスの製品化の方が差し迫った問題だとほとんどの人が言うでしょう。一般的に言えば、世の中には簡単な使用例が十分にあるので、好みのアルゴリズム(基本または高度)を開発し、後で調整したり置き換えたりすることができます。

ツールを使用するとアルゴリズムを簡単に適用できるため、まず機械学習モデルの結果を評価する方法を思い出すと役立ちます。ただし、ビジネス指標や目標は、最適に調整されたモデルや最高のパフォーマンスを発揮するモデルと完全には一致しない可能性があるため、見失わないようにしてください。研究者や企業がこの分野の問題を調査し、対処し始めているので、公平性と透明性に関する進展に注目してください。プライバシーに関する懸念とデバイスの急増により、集中化されたデータセットに依存しないテクノロジーが生まれました。

ディープラーニングは、データサイエンティストが知っておくべきアルゴリズムになりつつあります。ディープラーニングは当初はコンピュータービジョンや音声認識に使用されていましたが、現在ではデータサイエンティストが想像できるあらゆる種類のデータや問題に適用されています。課題としては、適切なネットワーク アーキテクチャの選択 (アーキテクチャ エンジニアリングは新しい機能エンジニアリングです)、ハイパーパラメータの調整、問題の記述、ディープラーニングに適したデータへの変換などが挙げられます。 (偶然にも、今年私が見た最も興味深いビッグデータ製品の 1 つは、ディープラーニングに基づいていませんでした。)

多くの場合、ユーザーは解釈可能なモデルを好みます (場合によっては、ブラック ボックス モデルは人々に受け入れられません)。解釈可能なモデルは、基礎となるメカニズムが理解しやすいため、改善も容易です。ディープラーニングの台頭により、企業は、モデルが予測を行う理由や、そのモデルがどこから来たのか(学習アルゴリズムとトレーニング データをトレースすることによって)を説明できるツールに注目するようになりました。

道具

ツールが多すぎてリストに載せられないので、リストを作成したくありません。データの取り込み、統合、処理、準備、保存、モデルの展開に役立つツールは非常に重要です。機械学習ツールに関するいくつかの考えを次に示します。

  • Python と R は最も人気のある機械学習プログラミング言語です。 Keras は、ディープラーニング技術を使用したい人にとって最適な入門レベルの言語です。
  • ノートブックは優れたモデル開発ツールのように見えますが、統合開発環境 (IDE) は R ユーザーの間で非常に人気があります。
  • 汎用の機械学習ライブラリやディープラーニングライブラリは数多く存在し、その中にはプロトタイプから製品への移行を容易にする優れたライブラリもあります。
  • 単一のマシンからクラスターへのスケーリングは重要な考慮事項です。この点で、Apache Spark は広く使用されている実行フレームワークです。一連のデータソートを終えると、多くの場合、データ セットは安定した単一のサーバーに展開するのに適したものになります。
  • ベンダーはコラボレーションとバージョン管理のサポートを開始しています。
  • 最後に、既存のエコシステムやデータ プラットフォームとシームレスに統合するには、データ サイエンス ツールが必要になる場合があります。

今こそ、企業にとって、どの問題やユースケースが機械学習に適しているかを評価する良い機会です。最近の傾向と未解決のボトルネックのこの概要から得られる主な結論は、機械学習の使用を開始する時期が来ているということです。すでにデータがある問題から始めて、優れたモデルを構築します。

<<:  AIシステムが初めて自律プログラミングを実現し、初心者プログラマーを上回る成果を達成!

>>:  誰もが知っておくべき 3 つの機械学習アルゴリズム

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能(AI)を学ぶにはどのような知識が必要ですか?

人工知能の定義は、「人工知能」と「知能」の 2 つの部分に分けられます。 「人工的」というのは理解し...

...

人工知能は私たちの生活をどのように変えるのでしょうか?

人工知能は本質的に、人間の知的労働を解放するでしょう。今後、サービスがボトルネックとなり、サービス産...

...

チューリング賞受賞者ジョン・ヘネシー氏:データと機械学習は世界をより良い場所にする

5月26日、チューリング賞受賞者で米国工学アカデミー会員のジョン・ヘネシー氏が、2021年中国国際ビ...

人工知能は人間のように学習できるのでしょうか?

1956 年の夏、米国のダートマス大学で開催された学術会議で、「人工知能」という用語が初めて提案さ...

人工知能が普及したら、誰が職を失うのでしょうか?この3つのタイプの人々が最前線にいるかもしれない

科学技術は主要な生産力です。人類社会が発展し続けることができるのは、何世代にもわたる科学者が新しい技...

ビッグデータと人工知能の関係

[[342758]]人工知能教育は最も美しい新しいインフラです人工知能のアルゴリズムの中にはデータ...

機械学習の収益は2023年までに803億ドルに達すると予想されている

機械学習を活用したソリューションとプロセスは、医療、情報技術 (IT)、農業、教育、エレクトロニクス...

Giskard: AI モデル向けのオープンソース品質管理

翻訳者 |ブガッティレビュー | Chonglou実稼働環境で AI モデルの品質を確保することは複...

自動運転のためのマルチモーダルセンサーフュージョンの簡単な分析

マルチモーダル融合は、知覚ベースの自動運転システムにおける基本的なタスクであり、最近多くの研究者の関...

...

エンタープライズ チャットボットは超パーソナライズされたエクスペリエンスを提供できますか?

エンタープライズ チャットボットは脳死状態です。彼らには認知力も深みもなく、リアルタイムの概念や状況...

...

ロボットが「自己認識」を持つためには、まず自分の声を認識する必要があるのでしょうか?

人工知能の発展の波の中で、人間はロボットが自己認識を持つことに対して非常に警戒心を抱いています。結局...