コンテクスト データ サイエンスは急速に進化しており、機械学習の役割は、データ サイエンスのハイブリッドな役割から、タイプ A およびタイプ B のデータ サイエンティストと呼ばれる、よりエンジニアリングや分析指向の役割へと移行しています。
これらの変化にはいくつかの要因が寄与しています。
金型の変更 この環境の変化により、データ サイエンティストが使用するツールも変化しました。 この発展により、データ サイエンティストはクラウド、自動化、説明可能性、反復可能なプロセスを活用するようになりました。
クラウドベースのML クラウドと Kubernetes への移行が徐々に進んでおり、機械学習エンジニアの DevOps やデータ操作機能の必要性が高まっています。 これは、特に Keras がこの分野の民主化に貢献したことから、ディープラーニングへの関心が高まっていることからも明らかです。 ディープラーニングは特にリソースを大量に消費する可能性があります。 その利用率はワークロードによって異なり、TensorflowエグゼキュータはK8S上で実行されるため、より弾力性と拡張性に優れたインフラストラクチャのニーズに対応できます。 > SageMarkerのWebインターフェース この動きに貢献しているもう 1 つの要因は、生産における ML の重要性の高まりです。 この変化により、さまざまな SaaS クラウド製品 (AWS sageMaker/Google Cloud ML Engine など) の助けを借りて、プロトタイピング スタックと本番環境を緊密に統合する必要性が高まっています。これらのツールは、モデルのデプロイメントや API 構成などの機能を提供するため、モデルを本番環境にプッシュするプロセスが簡素化されます。 AutoML と機械学習ワークフロー 実稼働機械学習システムの重要性が増すにつれ、トレーニングから展開まで、機械学習バリューチェーン全体にわたる自動化の必要性が加速しています。 自動化により、モデルの反復と改善が高速化されます。 AutoML は、モデルのトレーニング プロセスの周りに自動化レイヤーを提供し、反復的なタスクの一部を処理します。 ハイパーパラメータの最適化、機能およびモデルの選択などのタスクを処理できます。 Tpot や AutoKeras などのライブラリや、ほとんどのクラウド プロバイダーの ML サービスには、現在、ソリューションの一部として AutoML が含まれています。 自動化の必要性が高まるにつれて、さまざまな部分を調整するためのツールの必要性も高まります。 Airflow、Kubeflow、MLFlow、MetaFlow などのワークフロー ツールは、これを実現するために使用される主要なツールの一部です。 機械学習プロセス全体をパイプラインとして処理し、データ取得からモデル提供までのエンドツーエンドのプロセスを調整する役割を担います。 説明可能かつ再現可能なML GDPR やその他の規制は、機械学習モデルの構築方法に影響を与えています。 解釈可能かつ再現可能なモデルを推進します。 説明可能性の面では、データ サイエンティストがモデルをより有効に活用できるようにするためのさまざまなツールが登場しています。 これらのツールは、さまざまなシナリオを評価し、変数の相互作用を分析し、モデル予測の解釈に役立つダッシュボードを提供します。 Whatiftool、Lime、SHAP、Manifold などは、この課題に対処するために導入されたツールの一部です。 モデルをデバッグするための信頼性の高い方法を提供するという利点に加えて、再現性は規制によって影響を受けるもう 1 つの側面です。 ワークフロー ツールを使用して、再現可能な機械学習パイプラインを作成する可能性は常に存在します。 それにもかかわらず、プロセスを簡素化するための特定のツールがいくつか登場しました。 > 重みとバイアスのインターフェースのスクリーンショット DVC、Dolt、Weight and Biases (WANDB)、Dags Hub は、再現可能な方法でモデルを簡単に構築できる特殊なツールの一部です。 DVC はモデルとデータセットの両方のバージョン管理を担当しますが、Dolt はデータセット自体に厳密に制限されています。 WANDB と Dags Hub は、モデルの構築/トレーニングの重みと結果を追跡することに重点を置いています。 まとめ 機械学習ツールは、いくつかの予測ライブラリと Jupyter ノートブックを活用できるものから大きく進化しました。 今日、データ サイエンスを実行するには、クラウド ライブラリ、ワークフロー ツール、解釈、バージョン管理ツールを含む、より幅広いツールセットを習得する必要があります。 こうしたツールの増加により、データ サイエンスは研究のイメージからエンジニアリングやビジネス機能へと移行するはずです。 Hacking Analytics に関する詳細情報:
|
>>: 確かな情報です! AIテクノロジーアーキテクチャソリューションの実現可能性を判断するのに役立つ3つの重要な要素
新型コロナウイルスの感染力が高いため、防疫期間中、一般の人々は、インテリジェント消毒ロボットが医療産...
12月5日、Googleの研究者グループは、OpenAIの人工知能チャットボットChatGPTのトレ...
自動運転は、さまざまな交通問題を解決し、スマートシティの発展を実現するための共通の選択肢として、近年...
映画データベース (TMDB) は映画データ用の API を提供し、ユーザーはこのデータベースからデ...
UAEの人工知能、デジタル経済、リモートワークアプリケーション担当国務大臣オマール・オラマ氏は先週、...
【51CTO.com クイック翻訳】 [[393512]] AI、機械学習、ディープラーニングの発展...
技術の第一人者カパシー氏がOpenAIを去った後、彼のビジネスは非常に活発になっています。新しいプロ...
言語は人間にとって最も重要なコミュニケーションツールであり、人工知能の分野における最も挑戦的な研究対...
[[349500]]人工知能は半世紀以上前から存在していますが、人工知能の分野は過去 10 年間で...
以前から大きく騒がれ、メディアもその信憑性を証明する手がかりを繰り返し探していた「テスラの自社開発A...
顔認証と指紋認証は、携帯電話のロックを解除する主な 2 つの方法です。私たちは、日常の仕事でも公共の...
パート01 GPT-3.5との違い1.1 GPT-4が入力できる単語数は25,000語に大幅に増加写...