10億枚の画像で訓練されたFacebookの新しいAIモデルは、コンピュータービジョンに革命を起こす可能性がある

10億枚の画像で訓練されたFacebookの新しいAIモデルは、コンピュータービジョンに革命を起こす可能性がある

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

Facebookの研究者らは、インターネット上のラベルのない画像から学習できる新しいAIモデルを発表した。これはまだ初期段階ではあるが、研究チームはコンピュータービジョンの分野に革命をもたらす画期的な成果だと期待している。

SEER(SElf-SupERvised)と呼ばれるこのモデルには、手動でラベル付けされていない、公開されているInstagram画像10億枚が入力されました。しかし、AI アルゴリズムのトレーニングで通常使用されるラベルや注釈がなくても、SEER はデータセットを自律的にトレーニングし、継続的に学習し、最終的には物体検出などのタスクで最先端の精度を達成することができました。

画像はFacebook AIより

自己教師あり学習として知られるこのアプローチは、AI の分野ではすでに確立されています。写真内のオブジェクトの識別やテキストの翻訳などのタスクの実行方法を教える際に、慎重にラベル付けされたデータセットに頼るのではなく、与えられた情報から直接学習できるシステムで構成されています。

自己教師あり学習は、ほとんどの研究者にとって時間と労力がかかる作業であるデータの手動ラベル付けに必要な作業が大幅に削減されることを意味するため、最近大きな注目を集めています。データセットをキュレートする必要がないため、自己教師ありモデルはより大規模で多様なデータセットを処理できます。

いくつかの分野、特に自然言語処理においては、このアプローチはすでに画期的な進歩をもたらしています。ラベルなしテキストの量の増加に応じてアルゴリズムをトレーニングすることで、質問応答、機械翻訳、自然言語推論などのアプリケーションの進歩が可能になりました。

対照的に、コンピューター ビジョンは、自己教師あり学習革命にまだ完全には参入していません。 Facebook AI Research のソフトウェア エンジニアである Priya Gopal 氏は、SEER はこの種のものとしては初めてのものだと説明しています。 「ImageNetデータセットでトレーニングされた既存の自己教師型コンピュータビジョンモデルと比較すると、SEERはインターネット上で入手可能な画像でランダムにトレーニングできる初の完全自己教師型コンピュータビジョンモデルです」と彼女はZDNetに語った。

ImageNet は、研究者によってラベル付けされ、AI の進歩のためにより大規模なコンピューター ビジョン コミュニティに提供される、数百万枚の画像の大規模なデータベースです。

このプロジェクトのデータベースは、Facebook の研究者によって SEER のパフォーマンスを評価するためのベンチマークとして使用され、低高度写真撮影、物体検出、セグメンテーション、画像分類などのタスクにおいて、自己教師ありモデルが最先端の教師あり AI システムよりも優れたパフォーマンスを発揮することがわかりました。

「ランダム画像のみでトレーニングすることで、SEER は既存の自己教師モデルよりも優れたパフォーマンスを発揮します」と Goyal 氏は言います。「この結果は、ランダム画像での自己教師学習で非常に高品質のモデルを生成するために、ImageNet のような高度にキュレーションされたデータセットは必要ないことを示しています。」

自己教師学習の複雑さが増すにつれ、研究者の仕事に課題がないわけではありません。テキストに関しては、AI モデルは単語に意味を割り当てる役割を担います。しかし、画像の場合、アルゴリズムは、さまざまな写真の角度、ビュー、形状の違いを考慮して、各ピクセルが概念にどのように対応するかを決定する必要があります。

言い換えれば、研究者には大量のデータと、この複雑な情報プールから考えられるすべての視覚的概念を推測できる機械が必要です。

この課題を解決するために、ゴヤル氏と彼女のチームは、Facebook AI の既存の自己教師あり学習の研究から、類似する画像​​を別々のグループにクラスタ化する SwAV と呼ばれる新しいアルゴリズムを採用しました。科学者らはまた、人間の脳内のニューロンの接続パターンをモデル化し、画像内のさまざまなオブジェクトに重要性を割り当てる、深層学習アルゴリズムの一種である畳み込みネットワークも設計した。

Instagram の 10 億枚の画像データセットでは、控えめに言ってもシステムは巨大です。 Facebook チームは 32GB の RAM を搭載した V100 Nvidia GPU を使用していましたが、モデルのサイズが大きくなるにつれて、利用可能な RAM にモデルを収めることが不可欠になりました。しかしゴヤル氏は、コンピューティング能力が新しいシステムに適応していることを保証するために、さらなる研究が有益であると説明した。

「より多くの GPU でモデルをトレーニングするにつれて、それらの GPU 間の通信は高速化する必要があります。特定のメモリとランタイムの課題に対処するソフトウェアを開発できます」と彼女は言いました。

しかし、SEER を実際の使用事例に適用できるようになるまでにはまだ多くの作業が必要ですが、Goyal 氏はこの技術の影響を過小評価すべきではないと考えています。 「SEER により、大量のランダムなインターネット画像を使用して大規模なモデルをトレーニングできるようになり、コンピューター ビジョンがさらに進歩します」と彼女は述べています。

「この画期的な進歩により、テキストの自然言語処理で見られたのと同様に、コンピュータービジョンにおける自己教師あり学習に革命が起こる可能性があります。」

Facebook では、画像の説明の自動生成からポリシー違反コンテンツの識別まで、さまざまなコンピューター ビジョン タスクに SEER が使用されています。社外では、医療用画像処理など、画像やメタデータが限られている分野でもこの技術を活用できる可能性がある。

Facebook のチームは、SEER を次の開発段階に進めるためにさらなる作業を求めました。研究の一環として、研究チームはオープンソースのVISSSLと呼ばれる自己教師あり学習用の包括的なPyTorchベースのライブラリを開発し、AIコミュニティのより多くのメンバーにこの技術をテストするよう促しました。

<<:  5つの新たなAI IoTアプリケーション

>>:  全光自動運転ネットワーク、F5G全光スマートシティの共同構築

ブログ    

推薦する

インテルと4Paradigmが協力し、誰もがAIを利用できるように

[51CTO.com からのオリジナル記事] 今日、人工知能はもはや遠い概念ではなく、私たちの仕事と...

NLP タスクに最適な 6 つの Python ライブラリ

この記事では、自然言語処理タスクに最適な 6 つの Python ライブラリを紹介します。初心者でも...

スマートシティGPT?ジェネレーティブAIがスマートシティにどのように役立つか

生成AIとは何ですか?生成 AI は、データを分析し、パターンと傾向を識別し、都市計画と管理に関する...

ネイチャー誌の記事で、ウォータールー大学のチームが「量子コンピュータ+大規模言語モデル」の現状と将来についてコメントした。

今日の量子コンピューティング デバイスをシミュレートする際の主な課題は、量子ビット間で発生する複雑な...

大規模言語モデルの脆弱性緩和ガイド

大規模言語モデル (LLM) アプリケーションは世界中で急速に普及していますが、企業は依然として大規...

教育省:100 以上の AI 専門専攻を構築し、500 万人の AI 人材のギャップを埋めます。

AIが再び国家の議題に!教育部は、「国務院による新世代人工知能発展計画の公布に関する通知」を実施し...

膨大な顔情報が収集されている: 315 Galaが顔認識の混乱を暴露

3月15日、毎年恒例のCCTV Finance 3.15 Galaが開催されています。序文から判断す...

...

自然言語処理が人工知能の中核である理由

コンピュータが人間を騙して自分は人間だと信じ込ませることができるなら、そのコンピュータは知的であると...

通信 AI 市場は 2031 年に 388 億ドルに達すると予想されます。5G/6G と AI の統合により、さまざまなメリットがもたらされます。

4G と 5G の世界的な展開は商用サービスの進歩よりも速く、6G は 2030 年までに登場する...

良いプロンプトを書くときは、これらの 6 つのポイントを覚えておいてください。覚えていますか?

効果的なプロンプトを書くことは、AI とのやり取りを成功させるための鍵となります。優れたプロンプトは...

AIを信頼していない経営者は何を考えているのか?

経営幹部は長い間、より高度な意思決定にデータ分析を使用することに抵抗し、AI 支援による意思決定より...

推奨システムにおけるTensorFlowの分散トレーニング最適化の実践

著者 | Yifan、Jiaheng、Zhengshao などMeituan の高度にカスタマイズさ...

298.2億ドル規模のロボット市場がなぜこれほど不振なのか?

以前、マッキンゼー・グローバル・インスティテュートは、2030年までに約70%の企業が少なくとも1つ...

...