ビッグデータがなくてもディープラーニングは可能でしょうか?中小企業のトレーニングのための新しいソリューション、大規模モデル

ビッグデータがなくてもディープラーニングは可能でしょうか?中小企業のトレーニングのための新しいソリューション、大規模モデル

海外メディアの報道によると、AI専門家のアンドリュー・ン氏はIEEEに対し、ディープラーニングの今後の発展の道筋は、ビッグデータによるモデルのトレーニングから高品質データによるモデルのトレーニングへと移行し、大規模なデータセットを入手できない業界にディープラーニングモデルを適用する機会を提供するべきだと語った。アンドリュー・ン氏はスタンフォード大学人工知能研究所の所長であり、以前はグーグルのグーグル・ブレイン・プロジェクトを率いていた。

Andrew Ng 氏は、ディープラーニングモデルのトレーニングはコードの調整からデータの調整に移行すべきだと考えています。トレーニング結果に影響を与えるノイズデータ (意味のないデータ) を調整することで、少量の高品質データセットだけでモデルの更新を完了できます。コードを調整したり、大量のデータを直接提供したりする場合と比べて、この方法はより的を絞ったものになります。

2017 年に Andrew Ng 氏によって設立された Landing AI は、現在、製造製品検査用のコンピューター ビジョン ツールを提供しています。このツールは、ノイズの多いデータにすばやくラベルを付けることができるため、顧客はモデル自体を調整することなく、データ ラベルを変更することでモデルを独自に更新できます。

1. ディープラーニングには大きな可能性があり、ビッグデータトレーニングが主流になりつつある

人工知能の目標は、機械が人間のように「考え」行動できるようにすることです。機械学習はこのビジョンを実現するための重要な方法であり、ディープラーニングは機械学習の重要な分野です。ヒントン教授が2012年に機械学習手法によるImageNet画像認識コンテストで優勝したことで、ディープラーニングは徐々に幅広い注目を集め、多くの分野で従来の機械学習手法に取って代わり、人工知能の注目の研究分野になりました。

過去10年間で、ディープラーニングは急速な発展を遂げ、ディープラーニングモデルはますます大規模な方向に発展してきました。OpenAIの自然言語処理モデルGPTシリーズを例にとると、2018年にGPT-1のパラメータ規模は1億を超えました。2020年にGPT-3が登場した頃には、パラメータ規模は100億を超えました。超大規模モデルの継続的な出現は、ディープラーニングの発展の可能性を示しています。

しかし、アンドリュー・ン氏は、ディープラーニングの手法は現在多くの消費者向け企業で広く使用されているものの、これらの企業は多くの場合、大規模なユーザーベースを持ち、モデルのトレーニング用に大規模なデータセットを入手できると考えています。しかし、大規模なデータセットを入手できない多くの業界では、大量のデータの提供から高品質のデータの提供に重点を移す必要があります。

2. コードからデータへ、少量のデータで高品質なモデルをトレーニング

過去 10 年間、ディープラーニング モデルのトレーニングの主流のアプローチは、データセットをダウンロードしてからコードの改善に重点を置くことでした。ただし、機械学習モデルがほとんどのデータセットに対して正常であっても、そのうちの 1 つのデータセットだけは正常から逸脱している場合、このデータセットに適応するためにモデル アーキテクチャ全体を変更するのは非効率的です。

もう 1 つのアプローチは、データから始めることです。このタイプのアプローチは、「データ中心の AI」と呼ばれます。一般的なアプローチは、より多くのデータを追加することでモデルの精度を向上させることです。この点について、アンドリュー・ン氏は、あらゆる状況でより多くのデータを収集しようとすると作業量が膨大になるため、ノイズデータ(意味のないデータ)にラベルを付けるツールの開発や、モデルトレーニング用の少量だが高品質なデータを提供するための的を絞った方法の提供に取り組んでいると述べました。

Andrew Ng 氏は、一般的に使用している方法は、データの強化またはデータ ラベルの一貫性の向上であると述べています。たとえば、10,000 枚の写真を含むデータ セットで、同じ種類の写真 30 枚に異なるデータ ラベルが付けられている場合、一貫性のないラベルを持つ写真を識別するツールを構築して、研究者がモデル トレーニング用に大量のデータを収集する代わりに、それらの写真にすばやくラベルを付け直せるようにしたいと考えています。

3. Landing AIはデータラベル付けツールを提供し、ユーザーが独自にモデルを更新できるようにします。

2017年、Andrew Ng氏は、製造会社に製品検査用のコンピュータービジョンツールを提供し、メーカー製品の目視検査を行うLanding AIを設立しました。アンドリュー・ン氏は同社のホームページで、人間の目で回路基板の傷を検出するのは人間の観察能力の限界を超えているが、AIを使った識別の精度ははるかに高いと述べた。

Landing AI は、異常が発生したときにデータにタグを付けることができるツールを提供することで、顧客が独自の機械学習モデルをトレーニングできるようにすることに重点を置いており、企業はモデルを自分で迅速に更新できます。

Andrew Ng氏は、これは製造業だけの問題ではないと述べた。医療・健康分野を例に挙げてみよう。各病院の電子カルテには独自のフォーマットがあり、各病院のプログラマーに異なるモデルを開発させるのは非現実的だ。唯一の方法は、顧客に適応型モデルを構築できるツールを提供することだ。Landing AIは現在、コンピュータービジョンの分野でそのようなツールを推進しており、他のAI分野でもそのような作業を行う必要がある。

結論: ディープラーニングの手法は、より多くのデータではなく、より正確なデータに移行する可能性がある

長い間、ディープラーニング モデルの更新と最適化は、主にモデルを調整するか、直接データを追加してモデルを繰り返しトレーニングし、モデルの精度を向上させることに依存してきました。 Andrew Ng 氏は、よりターゲットを絞ったモデルの最適化を実現するために、ノイズの多い少量のデータをラベル付けして更新することを推奨しています。

以前、Andrew Ng氏はTwitterで「データ中心のAI」コンテストを立ち上げ、データを通じてモデルを最適化する方法に多くの実務家の注目を集めました。ますます多くの研究者がデータ拡張や合成データなどの方法を使用して、より効率的なモデルトレーニングを実現しています。将来、データ最適化がモデルの反復を実現するための主流の方法になるかどうかはまだわかりません。

<<:  3Dの名の下、「インテリジェント製造」の包囲はAIビジョンユニコーンの新たな戦場です

>>:  デジタル技術が自動車産業をどう変えるのか

ブログ    
ブログ    
ブログ    

推薦する

サイバーセキュリティを変える、最もホットなハッカーツール:武器化された人工知能FraudGPT

FraudGPT の「成功」は、生成 AI の武器化とハッキング技術の民主化という危険な時代の到来...

...

マイクロソフトはAIの助けを借りてWindows全体をクラウドに移行する

Microsoft は、Windows 365 を通じて、ますます多くの Windows 機能とコン...

...

...

DeLu Deep Vision: 3Dマシンビジョンに焦点を当て、セキュリティの「スマートアイ」を照らす

[[283588]] [51CTO.comより]先日、「勢いの刷新と知能の統合」をテーマにした世界人...

SSD ソリッド ステート ドライブの構造: マスター制御アルゴリズム、ファームウェア、NAND フラッシュ メモリ

SSD ソリッド ステート ドライブは近年のストレージ技術における大きな進歩であり、コンピューターの...

何開明のMAEが人気になってから、ビジュアルトランスフォーマーを整理したいですか?この記事は100以上の

[[436989]]コンピュータービジョン界は最近非常に活発です。まず、He Kaiming 氏らは...

ディープラーニングがロボットの変形可能な物体の取り扱いにどのように役立つか

翻訳者 | 李睿校正:孫淑娟人間にとって、変形可能な物体を処理することは、硬い物体を処理することより...

...

...

マイクロソフト、感情分析技術の販売を中止し、顔認識ツールの使用を制限

マイクロソフトは、人工知能システムのためのより責任ある枠組みを構築する取り組みの一環として、画像分析...

コンテキスト化によって生成型AIの可能性を解き放つ方法

生成型人工知能 (GenAI) が驚異的なスピードで進歩するにつれ、その真の価値を活用したい企業にと...