Facebook は 10 億枚のソーシャルソフトウェア写真を使用して新しい AI アルゴリズムをトレーニングします

Facebook の研究者は最近、インターネット上のランダムなラベルなし画像のセットから学習できる新しい人工知能モデル SEER をリリースしました。 Facebookの「画期的な進歩」はまだ初期段階にあるが、チームはそれがコンピュータービジョンの分野における「革命」につながると期待している。

SEER は SElf-SupERvised (自己教師あり学習) の略です。SEER は手動でキュレーションされていない 10 億枚の Instagram 公開写真を使用してトレーニングされました。つまり、画像にはアルゴリズムのトレーニングで通常行われるようなラベル付けや注釈が付けられていませんが、SEER はデータセットを自律的に使用してデータを学習および処理することができ、最終的には物体検出などのタスクで最高の精度を達成できます。

SEER が使用する方法は「自己教師あり学習」と呼ばれます。自己教師あり学習は、人工知能の分野ではすでに非常に成熟しています。写真内のオブジェクトの識別やテキストの翻訳などのタスクの実行方法をトレーニングするために、慎重にラベル付けされたデータセットに頼ることなく、トレーニングに使用される情報から直接学習システムを作成できます。

自己教師あり学習は最近、科学界で大きな注目を集めています。なぜなら、この手法では、人間がデータにラベルを付ける必要性が大幅に減るからです。データにラベルを付けるという、ほとんどの研究者がやりたがらない、面倒で時間のかかる作業です。同時に、自己教師ありモデルでは手動でキュレーションされたデータセットを必要としないため、より大規模で多様なデータセットを活用できます。

いくつかの分野（特に自然言語処理）では、自己教師あり学習法が画期的な進歩を遂げています。ラベルなしテキストでトレーニングされた多くのアルゴリズムにより、質問応答、機械翻訳、自然言語推論などのアプリケーションでさまざまな進歩が可能になりました。

対照的に、コンピュータービジョンは自己教師あり学習革命をまだ完全には受け入れていません。 Facebook AI Researchのソフトウェアエンジニア、プリヤ・ゴパル氏は、SEERはコンピュータービジョンの分野では初の試みだと語った。彼女は記者団にこう語った。「SEERは、インターネット上のランダムな画像を使って訓練された初の完全な自己教師型コンピュータビジョンモデルであり、大幅に編集されたImageNetデータセットを使って訓練された既存の自己教師型コンピュータビジョンとは対照的だ。」

ImageNet は、研究者によってラベル付けされた数百万枚の画像で構成される大規模なデータベースです。ImageNet は、人工知能の開発を促進することを目的として、一般的なコンピュータービジョンコミュニティに公開されています。

Facebook の研究者は、プロジェクトのデータベースをベンチマークとして使用して SEER のパフォーマンスを評価し、低照度、物体検出、セグメンテーション、画像分類などのタスクにおいて、自己教師ありモデルが最先端の教師あり AI システムよりも優れていることを発見しました。

「SEER は、ランダム画像のみを使用してトレーニングされた既存の自己教師モデルよりも優れています」と Goyal 氏は言います。「この結果は基本的に、コンピュータービジョンでは ImageNet のような高度にキュレーションされたデータセットは必要なく、ランダム画像を使用した自己教師学習ですでに非常に高品質のモデルを生成できることを示しています。」

自己教師学習には高度な洗練性が求められるため、この分野での研究者の研究には課題がないわけではありません。テキストの場合、AI モデルは単語に特定の意味を割り当てる必要がありますが、画像の場合、アルゴリズムは、異なる画像内の同じ概念のさまざまな角度、ビュー、形状を考慮しながら、各ピクセルに対応する概念を割り当てる必要があります。

言い換えれば、研究者が画像を処理する場合、複雑な情報データベースから考えられるすべての視覚的概念を推測できる大量のデータとモデルが必要になります。

この目標を達成するために、ゴヤル氏と彼女のチームは、Facebook AI の自己教師あり学習に関する既存の取り組みを基に、「SwAV」と呼ばれる新しいアルゴリズムを開発した。これは、類似の概念を示す画像を異なるグループに分類するものである。 Facebookの科学者らは、人間の脳内のニューロンの接続パターンをシミュレートし、画像内のさまざまなオブジェクトに異なる重要度を割り当てることができる、深層学習アルゴリズムの畳み込みネットワークも設計した。

このシステムは、少なくとも十分な大きさである 10 億枚の Instagram 画像という強力なデータセットを使用します。 Facebook チームは、V100 Nvidia GPU と 32GB のメモリを使用しました。モデルのサイズが大きくなるにつれて、チームは利用可能なメモリに合わせてモデルを使用する必要がありました。しかしゴヤル氏は、さらなる研究によってコンピューティング能力を新しいシステムに適応させることができるようになると説明した。

「より多くの GPU でモデルをトレーニングするにつれて、より高速なトレーニングを可能にするために、GPU 間の通信が十分に高速である必要があります」と彼女は言います。「このような課題は、特定のメモリとランタイムの予算に適した、明確に定義されたソフトウェアと研究手法を開発することで解決できます。」

したがって、SEER を実際の使用事例に適用できるようになるまでには、まだいくつかの作業が必要です。しかしゴヤル氏は、SEER技術の影響を過小評価すべきではないと考えている。彼女は、「SEER テクノロジーにより、大量のインターネット上のランダム画像を使用して大規模なモデルをトレーニングできるようになり、コンピュータービジョンの分野であらゆる進歩を遂げることができるようになりました」と述べました。

「この画期的な進歩により、テキストを含む自然言語処理で見られた自己教師あり学習革命と同様に、コンピュータービジョンにおける自己教師あり学習の革命が可能になる可能性がある」とゴヤル氏は語った。

SEER は、画像の説明の自動生成、ポリシー違反コンテンツの識別など、Facebook 内で幅広いコンピュータービジョンタスクに使用できます。 SEER テクノロジーは、Facebook 以外にも、医療用画像処理など、画像やメタデータが限られている分野でも役立つ可能性があります。

Facebookチームは、SEERを次の開発段階に進めるためにさらなる作業を求めました。 Facebook チームは、自己教師あり学習に使用できる PyTorch ベースの多目的ライブラリも開発しました。このライブラリは「VISSSL」と呼ばれ、幅広い AI コミュニティがこの技術をテストに使用できるようにオープンソース化されています。

<<: AIが脳波を80%以上の精度で解読！あなたの目の中で最も美しいtaを高度に復元します

>>: スズメバチのように機敏！ MITの中国人助教授が「センチメートルサイズ」の昆虫型ロボットを開発