モデルとデータは AI システムの基盤であり、これら 2 つのコンポーネントはモデルの開発において重要な役割を果たします。 人工知能の分野で最も権威のある学者の一人であるアンドリュー・ン氏はかつて「80% のデータ + 20% のモデル = より優れた機械学習」を提唱しました。彼は、研究チームの作業の 80% はデータの準備に集中すべきだと考えています。データの品質は重要ですが、気にする人はほとんどいません。モデル中心性よりもデータ中心性に重点を置けば、機械学習はより速く発展するでしょう。 機械学習の進歩はモデルによってもたらされるのか、それともデータによってもたらされるのか、という疑問を抱かずにはいられません。まだ明確な答えはありません。 この記事では、Android 開発者であり機械学習愛好家でもある Harshil Patel 氏が「機械学習: データ中心 vs. モデル中心」を紹介し、どちらがより重要であるかを判断します。さらに、Patel 氏はデータ中心のインフラストラクチャの使用方法も紹介しています。 データ中心のアプローチとモデル中心のアプローチモデル中心のアプローチとは、機械学習モデルのパフォーマンスを向上させるために実験が必要であることを意味し、これにはモデルアーキテクチャの選択とトレーニングプロセスが含まれます。モデル中心のアプローチでは、データを同じに保ち、コードとモデル アーキテクチャを改善することでパフォーマンスを向上させます。さらに、コードの改善はモデル中心性の基本的な目標です。 現在、AI アプリケーションのほとんどはモデル中心ですが、その理由として考えられるのは、学術研究が AI 分野を非常に重視していることです。 Andrew Ng 氏によると、AI 分野の研究論文の 90% 以上はモデル中心ですが、これは標準として認められる大規模なデータセットを作成することが難しいためです。そのため、AIコミュニティは、モデル中心の機械学習にはさらなる可能性があると考えています。研究者はモデルに焦点を当てる一方で、データの重要性を無視することがよくあります。 研究者にとって、データはあらゆる意思決定プロセスの中核であり、データ中心の企業は業務で生成された情報を使用することで、より正確で組織化された透明性の高い結果を得ることができ、企業組織の円滑な運営に役立ちます。データ中心のアプローチでは、データセットを体系的に改善および改良して ML アプリケーションの精度を高め、データの処理がデータ中心性の中心的な目標となります。 データ駆動型とデータ中心型多くの人は、「データ中心」と「データ駆動型」の概念を混同しがちです。データ駆動型は、データを収集、分析し、そこから洞察を抽出するアプローチであり、「分析」と呼ばれることもあります。一方、データ中心のアプローチは、データを使用して最初に何を作成すべきかを定義することに重点を置いています。一方、データ中心のアーキテクチャは、データが主要かつ永続的な資産であるシステムを指します。データ駆動型アーキテクチャとは、大量のデータを活用してテクノロジー、スキル、環境を構築することを意味します。 データ サイエンティストや機械学習エンジニアにとっては、モデル中心のアプローチの方が人気があるようです。これは、実践者が独自の知識ベースを活用して特定の問題を解決できるためです。一方、データのラベル付けに多くの時間を費やしたい人はいません。 しかし、今日の機械学習では、データは非常に重要ですが、AI 開発では見落とされたり、誤って扱われたりすることがよくあります。データエラーにより、研究者はトラブルシューティングに多くの時間を費やす可能性があります。モデルの精度が低い根本的な原因は、モデル自体ではなく、データセットが間違っていることにある可能性があります。 データに重点を置くことに加えて、モデルとコードも重要です。しかし、研究者はモデルに焦点を当てるあまり、データの重要性を無視する傾向があります。最善のアプローチは、データとモデルの両方に重点を置いたハイブリッド アプローチです。アプリケーションに応じて、研究者はデータとモデルの両方を考慮する必要があります。 データ中心のインフラストラクチャモデル中心の機械学習システムは、主にモデルアーキテクチャとそのパラメータの最適化に重点を置いています。 モデル中心の ML アプリケーション 上の図に示されているモデル中心のワークフローは、メディア、広告、ヘルスケア、製造などのいくつかの業界に適用できます。ただし、次のような課題もあるかもしれません。
Andrew Ng 氏はかつて AI に関する講演で、データ中心の ML の方が価値があると信じており、コミュニティがデータ中心の方向に進むことを提唱していると説明しました。彼はかつて「鉄鋼欠陥検出」の例を挙げました。モデル中心のアプローチではモデルの精度が向上しなかったのに対し、データ中心のアプローチでは精度が 16% 向上したそうです。 データ中心のMLアプリケーション データ中心のアーキテクチャを実装する場合、データはアプリケーションやインフラストラクチャよりも長く存続する基本的な資産と考えることができます。データ中心の ML により、データの共有と移動が簡単になります。では、データ中心の機械学習には具体的に何が含まれるのでしょうか?データ中心のアプローチを実装する際には、次の点を考慮する必要があります。
優先すべきは、データの量かデータの質か?データ量が多いからといって必ずしもデータ品質が良いとは限らないことを強調しておく必要があります。もちろん、ニューラル ネットワークのトレーニングは、数枚の画像だけでは完了しません。データの量は 1 つの側面ですが、現在は量よりも質に重点が置かれています。 上の図からわかるように、ほとんどの Kaggle データセットはそれほど大きくありません。データ中心のアプローチでは、データセットのサイズはそれほど重要ではなく、より小さな品質のデータセットでより多くの作業を行うことができます。ただし、データは高品質であり、正しくラベル付けされていることに注意することが重要です。 上の図は、個別または組み合わせてデータに注釈を付ける別の方法を示しています。たとえば、データ サイエンティスト 1 がパイナップルに個別にラベルを付け、データ サイエンティスト 2 がそれらをまとめてラベル付けした場合、ラベル付けされたデータは互換性がなくなり、学習アルゴリズムが混乱します。したがって、データ ラベルの一貫性を保つことが重要です。個別の注釈が必要な場合は、すべての注釈が同じ方法で行われるようにしてください。 上の写真は、Andrew Ng が小規模なデータ セットにおける一貫性の重要性を説明しているところです。 どれくらいのデータが必要ですか?データの品質は無視できませんが、データの量も重要です。研究者は問題を解決するために十分なデータサポートを必要とします。ディープ ネットワークはバイアスが低く、分散が高いため、より多くのデータがあれば分散の問題を解決できると予測できます。しかし、どのくらいの量のデータが十分なのでしょうか?この質問に現時点ではまだ答えるのが難しいですが、大量のデータを持つことは有利ではあっても必須ではないと考えられます。 データ中心のアプローチを採用する場合は、次の点に留意してください。
では、高品質のデータセットはどこで見つけられるのでしょうか?以下にいくつかの Web サイトを推奨します。その 1 つが Kaggle です。Kaggle では、データ サイエンスの作業に必要なすべてのコードとデータが見つかります。Kaggle には 50,000 を超える公開データ セットと 400,000 を超える公開ノートブックがあり、タスクを迅速に完了できます。 次は Datahub.io です。Datahub は主にビジネスと金融に焦点を当てたデータセット プラットフォームです。現在、国、人口、地理的境界のリストなど、多くのデータセットが DataHub で利用可能です。 最後に、Graviti Open Datasets: Graviti は、主にコンピューター ビジョン用の高品質なデータセットを提供する新しいデータ プラットフォームです。オープン データは、個々の開発者や組織が簡単にアクセス、共有、管理できるようになります。 |
>>: 地球は思考しており、人間は単なるニューロンです。科学者は初めて「惑星知性」を提唱した
大規模モデルの開発動向はオープンソースへと移行し始めています。周知のとおり、ChatGPT、GPT-...
人工知能 (AI) はもはや未来的な概念ではなく、スーパーマーケットの物流から医療研究まで、ビジネス...
エッジ AI は IoT および自動化分野のゲームのルールを急速に変え、業界の運営方法に革命をもたら...
[[328922]]私自身の PyTorch の学習過程を思い出すと、最初はいろいろな情報を見つけ、...
関連概念バイナリ画像とは、2 つの色 (通常は黒と白) のみを含む画像です。バイナリ画像では、各ピク...
天才は左にいて、狂人は右にいます。天才と狂気の間にはわずかな境界線しかありません。 AIに関しては、...
テクノロジーは私たちの生活に常に影響を与えています。社会として私たちはテクノロジーに大きく依存するよ...
Milvus は、オープンソースの人工知能エコシステムにデータ サービス機能を提供するオープンソース...
翻訳者 |李睿レビュー | Chonglou GPT-4 のような大規模言語モデル (LLM) はソ...
人間が歩くのと同じように、自動運転車も移動プロセスを完了するためには、交通環境について自主的に考え、...
注意してください、小帥は振り向きましたが、スウェットシャツのフードの中には何もありませんでした。さて...
[51CTO.com クイック翻訳] 人工知能が私たちの日常生活に入り込んでいることに気づいています...
1969年、アポロ11号が月面着陸に成功し、アームストロング船長は、今日でも数え切れないほどの人々が...
背景ディープラーニングは、AI時代の中核技術として、さまざまなシナリオに適用されてきました。システム...