ビッグデータがなくてもディープラーニングは可能でしょうか?中小企業のトレーニングのための新しいソリューション、大規模モデル

海外メディアの報道によると、AI専門家のアンドリュー・ン氏はIEEEに対し、ディープラーニングの今後の発展の道筋は、ビッグデータによるモデルのトレーニングから高品質データによるモデルのトレーニングへと移行し、大規模なデータセットを入手できない業界にディープラーニングモデルを適用する機会を提供するべきだと語った。アンドリュー・ン氏はスタンフォード大学人工知能研究所の所長であり、以前はグーグルのグーグル・ブレイン・プロジェクトを率いていた。

Andrew Ng 氏は、ディープラーニングモデルのトレーニングはコードの調整からデータの調整に移行すべきだと考えています。トレーニング結果に影響を与えるノイズデータ (意味のないデータ) を調整することで、少量の高品質データセットだけでモデルの更新を完了できます。コードを調整したり、大量のデータを直接提供したりする場合と比べて、この方法はより的を絞ったものになります。

2017 年に Andrew Ng 氏によって設立された Landing AI は、現在、製造製品検査用のコンピュータービジョンツールを提供しています。このツールは、ノイズの多いデータにすばやくラベルを付けることができるため、顧客はモデル自体を調整することなく、データラベルを変更することでモデルを独自に更新できます。

1. ディープラーニングには大きな可能性があり、ビッグデータトレーニングが主流になりつつある

人工知能の目標は、機械が人間のように「考え」行動できるようにすることです。機械学習はこのビジョンを実現するための重要な方法であり、ディープラーニングは機械学習の重要な分野です。ヒントン教授が2012年に機械学習手法によるImageNet画像認識コンテストで優勝したことで、ディープラーニングは徐々に幅広い注目を集め、多くの分野で従来の機械学習手法に取って代わり、人工知能の注目の研究分野になりました。

過去10年間で、ディープラーニングは急速な発展を遂げ、ディープラーニングモデルはますます大規模な方向に発展してきました。OpenAIの自然言語処理モデルGPTシリーズを例にとると、2018年にGPT-1のパラメータ規模は1億を超えました。2020年にGPT-3が登場した頃には、パラメータ規模は100億を超えました。超大規模モデルの継続的な出現は、ディープラーニングの発展の可能性を示しています。

しかし、アンドリュー・ン氏は、ディープラーニングの手法は現在多くの消費者向け企業で広く使用されているものの、これらの企業は多くの場合、大規模なユーザーベースを持ち、モデルのトレーニング用に大規模なデータセットを入手できると考えています。しかし、大規模なデータセットを入手できない多くの業界では、大量のデータの提供から高品質のデータの提供に重点を移す必要があります。

2. コードからデータへ、少量のデータで高品質なモデルをトレーニング

過去 10 年間、ディープラーニングモデルのトレーニングの主流のアプローチは、データセットをダウンロードしてからコードの改善に重点を置くことでした。ただし、機械学習モデルがほとんどのデータセットに対して正常であっても、そのうちの 1 つのデータセットだけは正常から逸脱している場合、このデータセットに適応するためにモデルアーキテクチャ全体を変更するのは非効率的です。

もう 1 つのアプローチは、データから始めることです。このタイプのアプローチは、「データ中心の AI」と呼ばれます。一般的なアプローチは、より多くのデータを追加することでモデルの精度を向上させることです。この点について、アンドリュー・ン氏は、あらゆる状況でより多くのデータを収集しようとすると作業量が膨大になるため、ノイズデータ（意味のないデータ）にラベルを付けるツールの開発や、モデルトレーニング用の少量だが高品質なデータを提供するための的を絞った方法の提供に取り組んでいると述べました。

Andrew Ng 氏は、一般的に使用している方法は、データの強化またはデータラベルの一貫性の向上であると述べています。たとえば、10,000 枚の写真を含むデータセットで、同じ種類の写真 30 枚に異なるデータラベルが付けられている場合、一貫性のないラベルを持つ写真を識別するツールを構築して、研究者がモデルトレーニング用に大量のデータを収集する代わりに、それらの写真にすばやくラベルを付け直せるようにしたいと考えています。

3. Landing AIはデータラベル付けツールを提供し、ユーザーが独自にモデルを更新できるようにします。

2017年、Andrew Ng氏は、製造会社に製品検査用のコンピュータービジョンツールを提供し、メーカー製品の目視検査を行うLanding AIを設立しました。アンドリュー・ン氏は同社のホームページで、人間の目で回路基板の傷を検出するのは人間の観察能力の限界を超えているが、AIを使った識別の精度ははるかに高いと述べた。

Landing AI は、異常が発生したときにデータにタグを付けることができるツールを提供することで、顧客が独自の機械学習モデルをトレーニングできるようにすることに重点を置いており、企業はモデルを自分で迅速に更新できます。

Andrew Ng氏は、これは製造業だけの問題ではないと述べた。医療・健康分野を例に挙げてみよう。各病院の電子カルテには独自のフォーマットがあり、各病院のプログラマーに異なるモデルを開発させるのは非現実的だ。唯一の方法は、顧客に適応型モデルを構築できるツールを提供することだ。Landing AIは現在、コンピュータービジョンの分野でそのようなツールを推進しており、他のAI分野でもそのような作業を行う必要がある。

結論: ディープラーニングの手法は、より多くのデータではなく、より正確なデータに移行する可能性がある

長い間、ディープラーニングモデルの更新と最適化は、主にモデルを調整するか、直接データを追加してモデルを繰り返しトレーニングし、モデルの精度を向上させることに依存してきました。 Andrew Ng 氏は、よりターゲットを絞ったモデルの最適化を実現するために、ノイズの多い少量のデータをラベル付けして更新することを推奨しています。

以前、Andrew Ng氏はTwitterで「データ中心のAI」コンテストを立ち上げ、データを通じてモデルを最適化する方法に多くの実務家の注目を集めました。ますます多くの研究者がデータ拡張や合成データなどの方法を使用して、より効率的なモデルトレーニングを実現しています。将来、データ最適化がモデルの反復を実現するための主流の方法になるかどうかはまだわかりません。

<<: 3Dの名の下、「インテリジェント製造」の包囲はAIビジョンユニコーンの新たな戦場です

>>: デジタル技術が自動車産業をどう変えるのか