論文の90%はモデル中心です。AIの分野では、データとモデルのどちらが重要ですか？

モデルとデータは AI システムの基盤であり、これら 2 つのコンポーネントはモデルの開発において重要な役割を果たします。

人工知能の分野で最も権威のある学者の一人であるアンドリュー・ン氏はかつて「80% のデータ + 20% のモデル = より優れた機械学習」を提唱しました。彼は、研究チームの作業の 80% はデータの準備に集中すべきだと考えています。データの品質は重要ですが、気にする人はほとんどいません。モデル中心性よりもデータ中心性に重点を置けば、機械学習はより速く発展するでしょう。

機械学習の進歩はモデルによってもたらされるのか、それともデータによってもたらされるのか、という疑問を抱かずにはいられません。まだ明確な答えはありません。

この記事では、Android 開発者であり機械学習愛好家でもある Harshil Patel 氏が「機械学習: データ中心 vs. モデル中心」を紹介し、どちらがより重要であるかを判断します。さらに、Patel 氏はデータ中心のインフラストラクチャの使用方法も紹介しています。

データ中心のアプローチとモデル中心のアプローチ

モデル中心のアプローチとは、機械学習モデルのパフォーマンスを向上させるために実験が必要であることを意味し、これにはモデルアーキテクチャの選択とトレーニングプロセスが含まれます。モデル中心のアプローチでは、データを同じに保ち、コードとモデルアーキテクチャを改善することでパフォーマンスを向上させます。さらに、コードの改善はモデル中心性の基本的な目標です。

現在、AI アプリケーションのほとんどはモデル中心ですが、その理由として考えられるのは、学術研究が AI 分野を非常に重視していることです。 Andrew Ng 氏によると、AI 分野の研究論文の 90% 以上はモデル中心ですが、これは標準として認められる大規模なデータセットを作成することが難しいためです。そのため、AIコミュニティは、モデル中心の機械学習にはさらなる可能性があると考えています。研究者はモデルに焦点を当てる一方で、データの重要性を無視することがよくあります。

研究者にとって、データはあらゆる意思決定プロセスの中核であり、データ中心の企業は業務で生成された情報を使用することで、より正確で組織化された透明性の高い結果を得ることができ、企業組織の円滑な運営に役立ちます。データ中心のアプローチでは、データセットを体系的に改善および改良して ML アプリケーションの精度を高め、データの処理がデータ中心性の中心的な目標となります。

データ駆動型とデータ中心型

多くの人は、「データ中心」と「データ駆動型」の概念を混同しがちです。データ駆動型は、データを収集、分析し、そこから洞察を抽出するアプローチであり、「分析」と呼ばれることもあります。一方、データ中心のアプローチは、データを使用して最初に何を作成すべきかを定義することに重点を置いています。一方、データ中心のアーキテクチャは、データが主要かつ永続的な資産であるシステムを指します。データ駆動型アーキテクチャとは、大量のデータを活用してテクノロジー、スキル、環境を構築することを意味します。

データサイエンティストや機械学習エンジニアにとっては、モデル中心のアプローチの方が人気があるようです。これは、実践者が独自の知識ベースを活用して特定の問題を解決できるためです。一方、データのラベル付けに多くの時間を費やしたい人はいません。

しかし、今日の機械学習では、データは非常に重要ですが、AI 開発では見落とされたり、誤って扱われたりすることがよくあります。データエラーにより、研究者はトラブルシューティングに多くの時間を費やす可能性があります。モデルの精度が低い根本的な原因は、モデル自体ではなく、データセットが間違っていることにある可能性があります。

データに重点を置くことに加えて、モデルとコードも重要です。しかし、研究者はモデルに焦点を当てるあまり、データの重要性を無視する傾向があります。最善のアプローチは、データとモデルの両方に重点を置いたハイブリッドアプローチです。アプリケーションに応じて、研究者はデータとモデルの両方を考慮する必要があります。

データ中心のインフラストラクチャ

モデル中心の機械学習システムは、主にモデルアーキテクチャとそのパラメータの最適化に重点を置いています。

モデル中心の ML アプリケーション

上の図に示されているモデル中心のワークフローは、メディア、広告、ヘルスケア、製造などのいくつかの業界に適用できます。ただし、次のような課題もあるかもしれません。

高度にカスタマイズされたシステムが必要: メディアや広告業界とは異なり、多くの企業では単一の機械学習システムを使用して製品の製造上の欠陥を検出することはできません。メディア企業であれば、最適化の問題に対処するために完全な ML 部門を設ける余裕がありますが、複数の ML ソリューションを必要とする製造企業は、そのようなテンプレートに従うことはできません。
大規模データセットの重要性: ほとんどの場合、企業は扱うべき大量のデータを持っていません。代わりに、モデル中心のアプローチであれば簡単に期待外れの結果を生み出す可能性のある小さなデータセットを扱わざるを得ないことがよくあります。

Andrew Ng 氏はかつて AI に関する講演で、データ中心の ML の方が価値があると信じており、コミュニティがデータ中心の方向に進むことを提唱していると説明しました。彼はかつて「鉄鋼欠陥検出」の例を挙げました。モデル中心のアプローチではモデルの精度が向上しなかったのに対し、データ中心のアプローチでは精度が 16% 向上したそうです。

データ中心のMLアプリケーション

データ中心のアーキテクチャを実装する場合、データはアプリケーションやインフラストラクチャよりも長く存続する基本的な資産と考えることができます。データ中心の ML により、データの共有と移動が簡単になります。では、データ中心の機械学習には具体的に何が含まれるのでしょうか?データ中心のアプローチを実装する際には、次の点を考慮する必要があります。

データラベルの品質: 大量の画像が誤ってラベル付けされると予期しないエラーが発生するため、データアノテーションの品質を向上させる必要があります。
データ強化: 限られたデータからより多くのデータを生成し、トレーニングサンプル (ノイズデータ) の数と多様性を増やし、モデルの堅牢性を向上させます。
特徴エンジニアリング: 入力データ、事前知識、またはアルゴリズムを変更することでモデルに特徴を追加します。予測モデルの精度を向上させるために機械学習でよく使用されます。
データバージョン管理: 開発者は 2 つのバージョンを比較してエラーを追跡し、意味をなさない部分を確認します。データバージョン管理は、データを維持する上で最も欠かせない手順の 1 つです。研究者がデータセット内の変更 (追加と削除) を追跡するのに役立ちます。バージョン管理により、コードの共同作業とデータセットの管理が容易になります。
ドメイン知識: データ中心のアプローチでは、ドメイン知識が非常に重要です。ドメインエキスパートは、ML エンジニア、データサイエンティスト、アノテーターが検出できない微妙な違いを検出できる場合が多く、これは ML システムではまだ欠けています。追加のドメイン知識が利用できる場合、ML システムのパフォーマンスが向上する可能性があります。

優先すべきは、データの量かデータの質か?

データ量が多いからといって必ずしもデータ品質が良いとは限らないことを強調しておく必要があります。もちろん、ニューラルネットワークのトレーニングは、数枚の画像だけでは完了しません。データの量は 1 つの側面ですが、現在は量よりも質に重点が置かれています。

上の図からわかるように、ほとんどの Kaggle データセットはそれほど大きくありません。データ中心のアプローチでは、データセットのサイズはそれほど重要ではなく、より小さな品質のデータセットでより多くの作業を行うことができます。ただし、データは高品質であり、正しくラベル付けされていることに注意することが重要です。

上の図は、個別または組み合わせてデータに注釈を付ける別の方法を示しています。たとえば、データサイエンティスト 1 がパイナップルに個別にラベルを付け、データサイエンティスト 2 がそれらをまとめてラベル付けした場合、ラベル付けされたデータは互換性がなくなり、学習アルゴリズムが混乱します。したがって、データラベルの一貫性を保つことが重要です。個別の注釈が必要な場合は、すべての注釈が同じ方法で行われるようにしてください。

上の写真は、Andrew Ng が小規模なデータセットにおける一貫性の重要性を説明しているところです。

どれくらいのデータが必要ですか?

データの品質は無視できませんが、データの量も重要です。研究者は問題を解決するために十分なデータサポートを必要とします。ディープネットワークはバイアスが低く、分散が高いため、より多くのデータがあれば分散の問題を解決できると予測できます。しかし、どのくらいの量のデータが十分なのでしょうか?この質問に現時点ではまだ答えるのが難しいですが、大量のデータを持つことは有利ではあっても必須ではないと考えられます。

データ中心のアプローチを採用する場合は、次の点に留意してください。

ML プロジェクトのライフサイクル全体を通じてデータの一貫性を確保します。
データ注釈の一貫性を保つ。
結果に関するフィードバックをタイムリーに提供します。
エラー分析を実施する。
ノイズの多いサンプルを削除します。

では、高品質のデータセットはどこで見つけられるのでしょうか?以下にいくつかの Web サイトを推奨します。その 1 つが Kaggle です。Kaggle では、データサイエンスの作業に必要なすべてのコードとデータが見つかります。Kaggle には 50,000 を超える公開データセットと 400,000 を超える公開ノートブックがあり、タスクを迅速に完了できます。

次は Datahub.io です。Datahub は主にビジネスと金融に焦点を当てたデータセットプラットフォームです。現在、国、人口、地理的境界のリストなど、多くのデータセットが DataHub で利用可能です。

最後に、Graviti Open Datasets: Graviti は、主にコンピュータービジョン用の高品質なデータセットを提供する新しいデータプラットフォームです。オープンデータは、個々の開発者や組織が簡単にアクセス、共有、管理できるようになります。

<<: プライバシーコンピューティングのためのハードウェアソリューション:「Trusted Execution Environment TEE」は、データセキュリティとプライバシー保護の両方を考慮します。

>>: 地球は思考しており、人間は単なるニューロンです。科学者は初めて「惑星知性」を提唱した