人工知能は実際のデータセットを「放棄」するのか?

人工知能は実際のデータセットを「放棄」するのか?

現在、人工知能技術は、顔認識、音声認識、仮想デジタルヒューマンなど、私たちの日常生活のあらゆる側面に応用されています。

しかし、よくある問題として、研究者が機械学習モデルをトレーニングして特定のタスク(画像分類など)を実行したい場合、大量のトレーニング データを使用する必要があることが多いのですが、このデータ(セット)を入手するのは必ずしも簡単ではないということがあります。

たとえば、研究者が自動運転車用のコンピューター ビジョン モデルをトレーニングする場合、実際のデータには高速道路を走る人間と犬のサンプルが含まれていない可能性があります。そのようなデータに遭遇すると、モデルは何をすべきか分からなくなり、不要な結果につながる可能性があります。

さらに、既存のデータを使用してデータセットを生成するには、数百万ドルの費用がかかる可能性があります。

さらに、最良のデータセットであっても、モデルのパフォーマンスに悪影響を与えるバイアスが含まれていることがよくあります。

では、データセットの取得と使用には非常にコストがかかるため、モデルのパフォーマンスを確保しながら、人工的に合成されたデータをトレーニングに使用することは可能でしょうか?

最近、マサチューセッツ工科大学 (MIT) の研究チームによる調査で、合成データでトレーニングされた画像分類機械学習モデルは、実際のデータでトレーニングされたモデルと同等か、それ以上の性能を発揮できることが示されました。

関連研究論文のタイトルは「  マルチビュー表現学習のためのデータソースとしての生成モデル  」は、ICLR 2022の会議論文として発表されました。

実際のデータに失われない

この特定の機械学習モデルは、生成モデルと呼ばれます。データセットと比較すると、保存や共有に必要なメモリが大幅に少なく、プライバシーや使用権に関する問題を回避できるだけでなく、従来のデータセットに存在する偏見や人種や性別の問題も発生しません。

論文によると、トレーニングプロセス中、生成モデルはまず特定のオブジェクト(車や猫など)を含む数百万枚の画像を取得し、次に車や猫の外観を学習し、最後に類似のオブジェクトを生成します。

簡単に言えば、研究者たちは事前にトレーニングされた生成モデルを使用して、モデルトレーニングデータセット内の画像に基づいて、ユニークでリアルな画像の大規模なストリームを出力しました。

(ソース:   Pixabay

研究者らは、生成モデルを実際のデータでトレーニングすると、実際のデータとほとんど区別がつかない合成データを生成できると述べている。

さらに、生成モデルはトレーニング データに基づいてさらに拡張できます。

生成モデルを車の画像でトレーニングすると、さまざまな状況で車がどのように見えるかを「想像」し、さまざまな色、サイズ、状態の車の画像を出力できます。

生成モデルの多くの利点の 1 つは、理論的には無限の数のサンプルを作成できることです。

これを基に、研究者たちはサンプル数がモデルのパフォーマンスにどのように影響するかを解明しようとした。結果は、場合によっては、固有のサンプルの数を増やすと、さらなる改善につながることを示しています。

そして、彼らの意見では、生成モデルの最も素晴らしい点は、オンライン リポジトリでそれらを見つけて使用することができ、モデルに介入することなく優れたパフォーマンスを得られることです。

しかし、生成モデルにはいくつかの欠点もあります。たとえば、場合によっては、生成モデルによってソースデータが明らかになり、プライバシーのリスクが生じる可能性があり、適切に監査されない場合は、トレーニングに使用されたデータセットのバイアスが増幅される可能性があります。

生成AIはトレンドか?

有効なデータの不足とサンプリングの偏りは、機械学習の開発における主要なボトルネックとなっています。

近年、この問題を解決するために、Generative AI が人工知能分野で注目のトピックの 1 つとなり、業界からも大きな期待が寄せられています。

ガートナーは昨年末、2022年の重要な戦略的テクノロジートレンドを発表し、生成AIを「最も魅力的で強力な人工知能テクノロジーの1つ」と呼んだ。

ガートナーによれば、生成 AI は、現在の 1% 未満から 2025 年までに生成されるデータ全体の 10% を占めると予想されています。

図 | ガートナーの2022年の重要な戦略的テクノロジートレンド(出典:  ガートナー公式サイト

2020年、ガートナーが発表した「人工知能のハイプ・サイクル2020」において、生成AIが新たな技術のホットスポットとして初めて提案されました。

最新の「人工知能のハイプ・サイクル 2021」レポートでは、生成 AI は 2 ~ 5 年で成熟するテクノロジーとして登場しています。

(ソース:  ガートナーの人工知能ハイプサイクル、2021年

生成 AI の画期的な点は、既存のデータ (画像、テキストなど) から学習し、新しい類似のオリジナルデータを生成できることです。つまり、判断だけでなく創造も可能であり、自動プログラミング、医薬品開発、視覚芸術、社会的交流、商業サービスなどに活用できるのです。

しかし、生成 AI は、さまざまな否定的なニュースを生み出すことが多いディープフェイクなどの詐欺、不正行為、政治的噂、個人情報の詐称などに悪用される可能性もあります。

そこで疑問になるのが、十分に優れた生成モデルがある場合でも、実際のデータセットは必要なのか、ということです。

<<:  GPT-3の良き「パートナー」:この方法はモデルの劣化を軽減し、出力をより自然にします

>>:  人工知能は学習を通じて人類を自然災害から救うことができます。

ブログ    
ブログ    

推薦する

上海交通大学卒業生によるソロ作品! 50年間のゼロ進歩アルゴリズム問題が解決された

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

分散型AIで製造業を強化

家庭内の新しい仮想アシスタントから、受信トレイから迷惑メールを削除するスパムフィルターまで、人工知能...

2022年の政府活動報告を聞いた後、人工知能業界が注目するべき点は以下のとおりです。

2022年全国人民代表大会と中国人民政治協商会議が開幕した。3月5日には2022年政府活動報告が発...

...

...

メジャーアップデート!マイクロソフトが人工知能プラットフォーム「Windows ML」を発表

マイクロソフトは、Windows 開発者に、コードネーム Redstone 4 と呼ばれる今春の W...

AI には明るい未来があります。これらの 5 つのことをうまく実行すれば、将来の市場で発言権を持つ可能性が高まります。

2021年の初め、AIの軌道は混乱していました。業界のスター企業から悪いニュースが続々と届き、上場...

Apple iPhone 15の発表イベントではAI機能に焦点が当てられたが、AI技術についてはほとんど語られなかった

9月13日北京時間午前1時に行われたアップルの秋季製品発表イベントで、アップルの広報担当者はAI技術...

回答者の半数以上が顔認識技術の使用に懸念を抱いている

近年最も注目されている新技術の一つとして、顔認識技術が広く利用されています。人々の生活は便利になった...

5Gで「選ばれる」分野!自動運転バスがあなたのところにやって来ます

自動運転タクシー、バス、道路清掃車、物流配送車... 自動運転技術の急速な発展により、これらの無人車...

...

ナレッジグラフの過去と現在: ナレッジグラフがなぜ人気なのか?

[51CTO.com からのオリジナル記事] 近年、ナレッジグラフは、その強力な表現力、優れたスケ...

AI は無限であり、あなたの声によって動かされます。マイクロソフトは慈善団体や業界のパートナーと協力し、テクノロジーで愛を育むお手伝いをします。

12月2日、マイクロソフトと周迅のAI音声紅丹丹慈善プロジェクトの発起人である魯音源文化伝承社は、...

...