今後10年間で、AIは「スモールデータ」時代の到来を告げるでしょうか?

今後10年間で、AIは「スモールデータ」時代の到来を告げるでしょうか?

AI 研究に携わる人なら誰でも、データが AI の開発において重要な役割を果たすことをよく知っています。 従来、最先端の AI の開発は大量のデータによって支えられており、ビッグデータは機械学習プロジェクトを成功に導く鍵であると長い間考えられてきました。ディープラーニングのエンジンとして、ビッグデータとビッグモデルは 15 年間にわたって成功を収めてきました。 今日では、事前トレーニング済みの大規模モデルは、企業が AI インフラストラクチャを構築するための強力なツールとなっています。業界では、ビッグデータから構築されたさまざまな大規模モデルが登場しています。

  • スイッチトランス

Googleは2021年1月11日に提案し、パラメータの数がGPT-3の1750億から1兆6000億に増加したと主張した。 Switch Transformer は、スパースにアクティブ化されたエキスパート モデル (Mixture of Experts) に基づいています。論文では、同じコンピューティング リソースで、トレーニング速度が T5 (Text-To-Text Transfer Transformer) モデルの 4 ~ 7 倍になる可能性があると述べられています。

  • MT-NLG

2021年末、NVIDIAとMicrosoftは共同で、5,300億のパラメータを持つモデルであるMT-NLGをリリースしました。これは、最大かつ最も強力な言語生成事前トレーニングモデルであると言われています。

  • 啓蒙2.0

2021年6月、北京青山学院はWuda 2.0をリリースしました。パラメータ規模は1.75兆で、GPT-3の10倍であり、Google Switch Transformerの1.6兆パラメータ記録を超えています。

  • 「神々の叙任」

2021年11月、深センで開催されたIDEAカンファレンスで、広東・香港・マカオ大湾区デジタル経済研究所(IDEA)の沈向陽理事長は、「風神坊」ビッグモデルオープンソース計画の開始を正式に発表しました。この計画には、最大のオープンソースの中国BERTビッグモデル「二朗神」シリーズを含む、5つのシリーズの10億レベルの自然言語事前トレーニング済みビッグモデルが含まれています。 ただし、いくつかのシナリオではビッグ データは適用できず、「スモール データ」の方が優れたソリューションとなる場合があることに注意してください。

1. 将来、AIはビッグデータからスモールデータへと移行する

業界はビッグデータとビッグモデルで大きな進歩を遂げてきましたが、このスケールアップのアプローチは、データセットが十分に大きくない新興産業や伝統的な産業には適していません。

従来の業界では、公開データに基づく大規模な事前トレーニング済みモデルはほとんど役に立ちません。

「大量の検索データと経済データは部品の欠陥を検出するのに役立たず、医療記録にもあまり役に立たない」とアンドリュー・ン教授は語った。

さらに困難なのは、膨大な量のユーザーデータにアクセスできるインターネット企業とは異なり、従来の企業には AI トレーニングをサポートするための膨大な量の特定データを収集する方法がないことです。

たとえば、自動車製造業界では、リーン 6 シグマ管理技術が広く適用されているため、ほとんどの部品メーカーと一次サプライヤーは、100 万バッチの製品あたり不良品が 4 個以下になるように努めています。その結果、製造業者は不合格製品のサンプルデータが不足し、製品品質検査のための優れた性能の目視検査モデルをトレーニングすることが困難になっています。

最近の MAPI 調査によると、回答者の 58% が AI ソリューションの導入における主な困難はデータ ソースの不足であると考えています。

アンドリュー・ン教授は次のように述べています。「過去 10 年間の AI における最大の変化はディープラーニングであり、次の 10 年間はデータ中心へと移行すると思います。ニューラル ネットワーク アーキテクチャが成熟するにつれて、多くの実用的なアプリケーションのボトルネックとなるのは、「必要なデータをどのように取得し、開発するか」です。」

各国がデータとプライバシーのセキュリティに関する法律や規制を制定し、AI技術の規制を強化したため、AIにとってのビッグデータの配当期間は永久に過ぎ去りました。

ガートナーのレポートによると、2025年までに70%の組織が、分析のためのコンテキストを増やし、AIのデータ需要を減らすために、ビッグデータからスモールデータやエキゾチックデータに重点​​を移さざるを得なくなるだろう。

しかし、これは AI の発展が妨げられることを意味するものではありません。逆に言えば、スモールデータの時代においては、AIにも大きな可能性があるのです。

アンドリュー・ン教授は、融合学習、強化学習、知識移転などの方法に基づいて、スモールデータも大きな役割を果たすことができると考えています。AIの将来のトレンドの1つは、ビッグデータからスモールデータへの移行です。

2. 小規模データはどのように AI を推進するのか?

スモールデータの「スモール」とは、データ量が少ないということだけではなく、特に重要な高品質データが必要であることに留意することが重要です。スモール データとは、ビジネス インサイトを生成し、自動化された意思決定を可能にする要件を満たすデータ タイプを使用してモデルを構築することを指します。

数枚の写真を収集するだけで高品質のモデルが得られると期待し、AI に過度の期待を抱く人を見かけます。実際の展開においては、モデル構築に最適なデータを探し出し、正しい内容を出力する必要があります。

この点に関して、アンドリュー・ン教授は次のような例を挙げました。訓練された機械学習システムはほとんどのデータセットでは良好なパフォーマンスを発揮しますが、データのサブセットでのみ逸脱します。現時点では、このサブセットのパフォーマンスを向上させるためにニューラル ネットワーク アーキテクチャ全体を変更するのは非常に困難です。ただし、データのサブセットのみに基づいて設計できれば、より的を絞った方法でこの問題に対処することができます。

たとえば、ある音声認識システムは、背景に車の騒音があるとパフォーマンスが低下しました。これを知っていれば、より多くのデータを収集するために膨大なコストと時間がかかる作業を行うのではなく、車の騒音を背景により多くのデータを収集することができます。

たとえば、スマートフォンには、傷、へこみ、穴、素材の変色、その他の種類の汚れなど、さまざまな種類の欠陥があります。トレーニングされたモデルが欠陥の検出では全体的に優れたパフォーマンスを発揮するが、ピットマークではパフォーマンスが低い場合は、ピットマーク クラス専用のデータをさらに生成することで、合成データ生成をよりターゲットにしてこの問題に対処することができます。

実は、スモールデータは新しい話題ではありません。機械学習の分野では、スモールデータを処理する方法がますます増えています。

  • 少数ショット学習

少数サンプル学習技術により、少量のトレーニングデータが機械学習モデルに提供されます。モデルが完全な教師あり学習状態にあり、トレーニングデータが不十分な場合に適しています。

少数ショット学習技術は、コンピューター ビジョンの分野でよく使用されます。コンピューター ビジョンでは、モデルがオブジェクトを認識するために多くの例を必要としない場合があります。たとえば、スマートフォンのロック解除に使用される顔認識アルゴリズムを使用すれば、何千枚もの人物の写真を必要とせずにスマートフォンを開くことができます。

  • ナレッジグラフ

ナレッジグラフは、生のビッグデータをスクリーニングして形成されるため、二次データセットに属します。ナレッジ グラフは、定義された意味を持ち、特定のドメインを説明するデータ ポイントまたはラベルのセットで構成されます。

たとえば、ナレッジ グラフは、有名な女優の名前の一連のデータ ポイントと、共演した女優同士を結ぶ線 (またはエッジ) で構成されます。ナレッジグラフは、非常に解釈しやすく再利用しやすい方法で知識を整理するための非常に便利なツールです。

  • 転移学習

機械学習モデルが、別のモデルをトレーニングして、このモデルが関連タスクを完了できるようにするための出発点となる場合、転移学習テクノロジが必要になります。

本質的には、あるモデルから別のモデルに知識を転送することです。元のモデルを開始点として使用し、追加のデータを使用してモデルをさらにトレーニングし、新しいタスクを処理するモデルの能力を開発します。元のモデルの一部のコンポーネントが新しいタスクに必要ない場合は、それらを削除することもできます。

転移学習技術は、大量の計算能力とデータを必要とする自然言語処理やコンピュータービジョンなどの分野で特に効果的です。転移学習技術を適用すると、タスクに必要な作業負荷と時間を削減できます。

  • 自己教師学習

自己教師学習の原理は、モデルが既存のデータから教師信号を収集できるようにすることです。モデルは既存のデータを使用して、観測されていないデータや隠れたデータを予測します。

たとえば、自然言語処理では、データ サイエンティストがモデルに欠落している単語を含む文を入力し、欠落している単語を予測するようにモデルに依頼する場合があります。隠されていない単語から十分な文脈の手がかりを得た後、モデルは文中の隠された単語を認識することを学習します。

  • 合成データ

合成データは、特定のデータセット内に既存のデータでは埋められないギャップがある場合に利用できます。

一般的な例としては顔認識モデルがあります。顔認識モデルには、人間の肌の色をすべてカバーする顔画像データが必要ですが、問題は、肌の色が薄い顔の写真よりも肌の色が濃い顔の写真のデータが少ないことです。データ サイエンティストは、暗い顔を認識するのが難しいモデルを作成するのではなく、暗い顔のデータを人工的に作成して、表現の平等性を実現できます。

しかし、機械学習の専門家は、これらのモデルを現実世界でより徹底的にテストし、コンピューターで生成されたデータセットが不十分な場合は追加のトレーニングデータを追加する必要があります。

3. スモールデータの大きな可能性

今日、スモールデータの可能性は業界で高く評価されています。

2021年9月、米国サイバーセキュリティおよび新興技術庁(CSET)は「スモールデータ人工知能の巨大な可能性」と題するレポートを発表し、長い間無視されてきたスモールデータ人工知能の可能性は計り知れないと指摘しました。

まず、大規模組織と小規模組織間の AI 機能の格差を縮小します。

さまざまな機関のデータの収集、保存、処理能力に大きな差があるため、AIを「持つ者」(大手テクノロジー企業など)と「持たざる者」の間の格差が広がっています。スモールデータを使用して AI システムを構築することで、中小企業が AI に参入する際の障壁が大幅に下がり、従来の企業プロジェクトの研究開発時間とコストが削減され、数万の商業プロジェクトにとって重要なブレークスルーとなるでしょう。

第二に、データが不足している分野での開発を促進します。

電子健康記録を持たない人々の病気リスクを予測するアルゴリズムの構築や、活火山が突然噴火する可能性の予測など、多くの差し迫った問題では、利用可能なデータがほとんどないか、まったく存在しない。

スモール データ メソッドは、欠落データや不足データを処理するための原則的な方法を提供します。ラベル付きデータとラベルなしデータの両方を活用し、関連する問題からの知識を転送できます。スモール データは、関連分野の事前知識を頼りに少数のデータ ポイントでより多くのデータ ポイントを作成したり、シミュレーションを構築したり構造仮説をエンコードしたりして新しい分野での冒険を始めたりするためにも使用できます。

3 番目に、ダーティ データの問題を回避します。

スモール データ アプローチは、「ダーティ データ」にうんざりしている大規模な組織にメリットをもたらします。無数の「汚れたデータ」は、データを「浄化」する前に、データをクリーニング、ラベル付け、整理するために多くの人的資源と物的資源を必要とします。スモールデータ方式のデータラベル付け方法は、ラベルを自動的に生成することで、大量のラベルのないデータをより簡単に処理できます。転移学習、ベイズ法、または人工データアプローチは、それぞれ関連するデータセット、構造化モデル、および合成データに基づいて、クリーンアップする必要があるデータの量を削減することで、ダーティデータの問題の規模を大幅に削減できます。

4番目に、個人データの収集を減らします。

世界各国は、個人情報保護に関する政策や規制を次々と導入しています。スモールデータ方式を利用することで、個人情報の収集を大幅に削減できます。人工的にデータを合成したり、シミュレーショントレーニングアルゴリズムを使用したりすることで、機械学習の使用が簡単になり、消費者データの大規模な収集、使用、開示を心配する必要がなくなります。

4. 結論

AIは膨大な量のデータに依存しており、データは欠かせない戦略リソースですが、スモールデータの潜在力を過小評価すべきではありません。特に、AIが適用される次の10年間では、ビッグデータからスモールデータ、高品質のデータに移行する時期が来ています。

<<:  デジタル変革の波の中で、車の購入もアルゴリズムの最適化に頼ることができるのでしょうか?

>>:  企業の78%が2022年までにAIを主要な収益源と見なしている

ブログ    
ブログ    

推薦する

OpenAIがSoraを発表: 現実を再定義する画期的なビデオ生成モデル

概要:ほんの数日前、ビッグ アイヴァンが携帯電話でソーシャル メディアをちょっとチェックしたとき、信...

...

マインドコントロールが現実に:話したり手を動かさずに、ただ横たわっているだけでゲームをプレイできる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

3つの大きな弱点がAIスタートアップへの扉を閉ざしている

先月、投資会社a16zがAIスタートアップが直面する困難を分析した記事を発表しました。AIスタートア...

人工知能は標的の照準を加速し、人間と機械の統合を支援して即時攻撃を可能にします。

米国の国防月報ウェブサイトは2020年9月23日、米陸軍当局者が、8月11日から9月23日まで行われ...

自動運転車は見たことのない物体を避けることができないのか?問題はトレーニングパイプラインにある

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

海外メディア:人間はますます余暇を持ち、AIは資本主義を排除する

ベストセラー作家のバーナード・マー氏はフォーブス誌に「人工知能はいかにして資本主義を殺すか」と題する...

複数のAI企業の人事担当者/面接官が明かす:機械学習エンジニアの採用方法

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

産業用ロボットの 4 つのプログラミング技術のうち、いくつ知っていますか?

1. 概要現在、ロボットは溶接、組み立て、ハンドリング、塗装、研磨などの分野で広く利用されており、...

LeCunは再び自己回帰LLMを批判:2つの論文で証明されているように、GPT-4の推論能力は非常に限られている

「自己回帰型 LLM が人間レベルの AI に近い、あるいは人間レベルのパフォーマンスに達するにはス...

...

AIとITの自動化の6つのレベル

IT サービスの自動化の時代に入りつつあります。しかし、IT 業界では、自動車業界が評価されるのと同...

メディア分野における人工知能の革新は期待に値する

過去 30 年間にわたり、この種のイノベーションの歴史に残る例は数多くありました。ウェブサイト上のメ...

...