10億枚の画像で訓練されたFacebookの新しいAIモデルは、コンピュータービジョンに革命を起こす可能性がある

10億枚の画像で訓練されたFacebookの新しいAIモデルは、コンピュータービジョンに革命を起こす可能性がある

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

Facebookの研究者らは、インターネット上のラベルのない画像から学習できる新しいAIモデルを発表した。これはまだ初期段階ではあるが、研究チームはコンピュータービジョンの分野に革命をもたらす画期的な成果だと期待している。

SEER(SElf-SupERvised)と呼ばれるこのモデルには、手動でラベル付けされていない、公開されているInstagram画像10億枚が入力されました。しかし、AI アルゴリズムのトレーニングで通常使用されるラベルや注釈がなくても、SEER はデータセットを自律的にトレーニングし、継続的に学習し、最終的には物体検出などのタスクで最先端の精度を達成することができました。

画像はFacebook AIより

自己教師あり学習として知られるこのアプローチは、AI の分野ではすでに確立されています。写真内のオブジェクトの識別やテキストの翻訳などのタスクの実行方法を教える際に、慎重にラベル付けされたデータセットに頼るのではなく、与えられた情報から直接学習できるシステムで構成されています。

自己教師あり学習は、ほとんどの研究者にとって時間と労力がかかる作業であるデータの手動ラベル付けに必要な作業が大幅に削減されることを意味するため、最近大きな注目を集めています。データセットをキュレートする必要がないため、自己教師ありモデルはより大規模で多様なデータセットを処理できます。

いくつかの分野、特に自然言語処理においては、このアプローチはすでに画期的な進歩をもたらしています。ラベルなしテキストの量の増加に応じてアルゴリズムをトレーニングすることで、質問応答、機械翻訳、自然言語推論などのアプリケーションの進歩が可能になりました。

対照的に、コンピューター ビジョンは、自己教師あり学習革命にまだ完全には参入していません。 Facebook AI Research のソフトウェア エンジニアである Priya Gopal 氏は、SEER はこの種のものとしては初めてのものだと説明しています。 「ImageNetデータセットでトレーニングされた既存の自己教師型コンピュータビジョンモデルと比較すると、SEERはインターネット上で入手可能な画像でランダムにトレーニングできる初の完全自己教師型コンピュータビジョンモデルです」と彼女はZDNetに語った。

ImageNet は、研究者によってラベル付けされ、AI の進歩のためにより大規模なコンピューター ビジョン コミュニティに提供される、数百万枚の画像の大規模なデータベースです。

このプロジェクトのデータベースは、Facebook の研究者によって SEER のパフォーマンスを評価するためのベンチマークとして使用され、低高度写真撮影、物体検出、セグメンテーション、画像分類などのタスクにおいて、自己教師ありモデルが最先端の教師あり AI システムよりも優れたパフォーマンスを発揮することがわかりました。

「ランダム画像のみでトレーニングすることで、SEER は既存の自己教師モデルよりも優れたパフォーマンスを発揮します」と Goyal 氏は言います。「この結果は、ランダム画像での自己教師学習で非常に高品質のモデルを生成するために、ImageNet のような高度にキュレーションされたデータセットは必要ないことを示しています。」

自己教師学習の複雑さが増すにつれ、研究者の仕事に課題がないわけではありません。テキストに関しては、AI モデルは単語に意味を割り当てる役割を担います。しかし、画像の場合、アルゴリズムは、さまざまな写真の角度、ビュー、形状の違いを考慮して、各ピクセルが概念にどのように対応するかを決定する必要があります。

言い換えれば、研究者には大量のデータと、この複雑な情報プールから考えられるすべての視覚的概念を推測できる機械が必要です。

この課題を解決するために、ゴヤル氏と彼女のチームは、Facebook AI の既存の自己教師あり学習の研究から、類似する画像​​を別々のグループにクラスタ化する SwAV と呼ばれる新しいアルゴリズムを採用しました。科学者らはまた、人間の脳内のニューロンの接続パターンをモデル化し、画像内のさまざまなオブジェクトに重要性を割り当てる、深層学習アルゴリズムの一種である畳み込みネットワークも設計した。

Instagram の 10 億枚の画像データセットでは、控えめに言ってもシステムは巨大です。 Facebook チームは 32GB の RAM を搭載した V100 Nvidia GPU を使用していましたが、モデルのサイズが大きくなるにつれて、利用可能な RAM にモデルを収めることが不可欠になりました。しかしゴヤル氏は、コンピューティング能力が新しいシステムに適応していることを保証するために、さらなる研究が有益であると説明した。

「より多くの GPU でモデルをトレーニングするにつれて、それらの GPU 間の通信は高速化する必要があります。特定のメモリとランタイムの課題に対処するソフトウェアを開発できます」と彼女は言いました。

しかし、SEER を実際の使用事例に適用できるようになるまでにはまだ多くの作業が必要ですが、Goyal 氏はこの技術の影響を過小評価すべきではないと考えています。 「SEER により、大量のランダムなインターネット画像を使用して大規模なモデルをトレーニングできるようになり、コンピューター ビジョンがさらに進歩します」と彼女は述べています。

「この画期的な進歩により、テキストの自然言語処理で見られたのと同様に、コンピュータービジョンにおける自己教師あり学習に革命が起こる可能性があります。」

Facebook では、画像の説明の自動生成からポリシー違反コンテンツの識別まで、さまざまなコンピューター ビジョン タスクに SEER が使用されています。社外では、医療用画像処理など、画像やメタデータが限られている分野でもこの技術を活用できる可能性がある。

Facebook のチームは、SEER を次の開発段階に進めるためにさらなる作業を求めました。研究の一環として、研究チームはオープンソースのVISSSLと呼ばれる自己教師あり学習用の包括的なPyTorchベースのライブラリを開発し、AIコミュニティのより多くのメンバーにこの技術をテストするよう促しました。

<<:  5つの新たなAI IoTアプリケーション

>>:  全光自動運転ネットワーク、F5G全光スマートシティの共同構築

推薦する

AIが3Aの傑作をプレイ、OpenAIは調査されるか? 2023年のAIパノラマレポートが10の予測を発表

State of Report は今年で 6 年目を迎え、人工知能分野の風向計となっています。業界お...

幼稚園のAI教材を公開!プログラミング学習は幼稚園から始まる

AIの学習は幼稚園から始まる最近、インターネット上で「人工知能実験教科書」の写真が流通している。この...

中国の自動運転が新たなブレークスルーをもたらす:百度世界2020のCCTV生中継で完全無人運転を体験

中国の自動運転は新たな進歩を遂げ、無人運転の時代が到来した。 9月15日、百度はCCTVニュースと提...

「疑似人工知能」が飛び交う。スマートホームで実現できるのか?

AlphaGo から Master まで、人工知能 (AI) は再びテクノロジー界の最前線に押し上...

なぜ「ハイエンド」アルゴリズムエンジニアはデータ移民労働者になったのでしょうか?

まず、Zhihu の「アルゴリズム エンジニアになるのはどんな感じか」という質問に対する私の回答を共...

顔認識と指紋認識のどちらがより定量化しやすいでしょうか?

顔認証と指紋認証は、携帯電話のロックを解除する主な 2 つの方法です。私たちは、日常の仕事でも公共の...

人工知能 VS 人間: 私たちは本当にいつも負け続けるのでしょうか?

ディープ・ブルー・コンピュータシステムがチェスチャンピオンのガルリ・カスパロフを華々しく破ってから2...

来年のビジネス インテリジェンスの見通しはどうでしょうか?

インテリジェント テクノロジーの使用が拡大するにつれて、ビジネス インテリジェンスの最新動向を常に把...

ハッカーがテスラの自動運転システムの「隠しモード」を解除

最近開催されたカオスコンピューティングカンファレンスで、ベルリン工科大学のサイバーセキュリティ研究者...

警告!長距離LiDAR認識

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

レポートの解釈: 企業の 91% が 2023 年に AI がビジネスの成長を促進すると予想

[[245538]]人工知能 (AI) により、早期導入メーカーはすでに分析、ビジネス インテリジェ...

「緊急天使」がロボットを救出するために前進し、事態を収拾した

科学技術の進歩と社会の発展に伴い、ロボット産業は繁栄の時代を迎えています。ロボット工学は、コンピュー...

AI による顔を変える動画が何百万人ものユーザーを獲得。たった 1 ステップで楽しさから恐怖感まで

今朝、私の友人の輪の中に、AI による顔の変形に関する短い動画が大量に現れました。これらの短編動画の...

ドローンの耐久性の低さの問題を軽減するために、一般の人がこれを行うことができます

[[396949]]近年、新世代の通信およびナビゲーション技術の継続的な進歩を背景に、我が国のドロー...

アリババが世界初のAI中国語フォント「Ali Hanyi Intelligent Bold」を開発

1月22日、アリババはHanyi Fontと提携し、世界初の人工知能中国語フォント「 Ali Han...