Facebookの新しいAIモデルSE​​ERは自己教師学習を実現し、LeCunは最も有望だと称賛している

Facebookの新しいAIモデルSE​​ERは自己教師学習を実現し、LeCunは最も有望だと称賛している

[[385451]]

この記事はWeChatの公開アカウント「Xinzhiyuan」から転載したもので、著者はXinzhiyuanです。この記事を転載する場合は、新知源公式アカウントまでご連絡ください。

ラベルは不要、データを自己分析します!

Facebook の新しい AI モデルはコンピューター ビジョンに革命をもたらすのでしょうか?

先ほど、Facebook は 10 億枚の画像でトレーニングされた AI モデル「SEER」(Self-supervised の略) を発表しました。

このモデルには 10 億のパラメータが含まれており、ラベルをほとんど使用せずに画像内のオブジェクトを認識でき、さまざまなコンピューター ビジョン ベンチマークで最先端の結果を達成しています。

ほとんどのコンピューター ビジョン モデルは、ラベル付けされたデータセットから学習されることを覚えておいてください。

Facebook の最新モデルは、データのさまざまな部分間の関係性を明らかにすることで、データからラベルを生成します。

このステップは、将来究極の人間知能を実現するために非常に重要であると考えられています。

新しい AI モデル SEER はコンピューター ビジョンに革命をもたらすのでしょうか?

パラメータは常に機械学習システムの基本的な構成要素であり、過去のトレーニング データから派生したモデルの一部です。

AI の未来は、注釈付きのデータセットに依存せずに、与えられたあらゆる情報から推論する能力にあります。

テキスト、画像、またはその他の種類のデータが与えられると、AI は写真内のオブジェクトを完璧に識別し、テキストを解釈し、要求されたその他のタスクを実行できます。

フェイスブックの主任科学者ヤン・ルカン氏は、これは背景知識、つまり「常識」を備えた機械を構築し、現在のAIをはるかに超える課題を解決する最も有望な方法の1つだと語った。

自然言語処理 (NLP) は大きく進歩しました。その中で、大量のテキストに対する非常に大規模なモデルの自己教師付き事前トレーニングは、自然言語処理において大きな進歩を遂げました。

[[385453]]

現在、Facebook は、SEER コンピューター ビジョン モデルがその目標に一歩近づいたと主張しています。

注釈を必要とせずに、インターネット上の任意のランダム画像セットから学習できます。

視覚の自己監視は困難な作業です。

テキストの場合、意味概念は個別の単語に分解できますが、画像の場合、モデルはどのピクセルがどの概念に属するかを独自に推測する必要があります。

同じ概念が異なる画像間で変化することが多く、それが問題をより困難にします。したがって、単一の概念のバリエーションを把握するには、多数の異なる画像を表示する必要があります。

研究者らはインスタグラムの公開画像10億枚を使ってモデルを訓練した。

人工知能システムが複雑な画像データを処理できるようにするには、少なくとも 2 つのコア アルゴリズムが必要であることが分かりました。

1 つは、アルゴリズムがメタデータや注釈なしで大量のランダム画像から学習できることです。もう 1 つは、畳み込みニューラル ネットワーク (ConvNet) が、このデータからすべての視覚概念をキャプチャして学習するのに十分な大きさであることです。

畳み込みニューラル ネットワークは 1980 年代に初めて提案され、モデル内のコンポーネント間の接続パターンが視覚皮質のパターンに似ていることから、生物学的プロセスにヒントを得ました。

SEER: 10億枚の画像、ラベル付け不要、自己学習データセット

SEER モデルは、最新のアーキテクチャ ファミリ「RegNet」とオンライン自己教師トレーニング「SwAV」を組み合わせて、10 億のパラメータを持つ数十億のランダム画像にトレーニングを拡張します。

研究チームは、SwAV と呼ばれる新しいアルゴリズムを採用して使用しました。これは FAIR 研究から始まり、後に自己教師あり学習に適用されました。

SwAV はオンライン クラスタリング手法を使用して、類似した視覚概念を持つ画像をすばやくグループ化し、画像の類似性を活用して自己教師学習の最先端技術を向上させると同時に、トレーニング時間を 6 分の 1 に短縮します。

この規模のモデルをトレーニングするには、精度を犠牲にすることなく、実行時間とメモリの点で効率的なモデル アーキテクチャも必要です。

幸いなことに、FAIR の建築設計における最近の革新により、これらのニーズにぴったり合う RegNet と呼ばれる新しいモデル ファミリが誕生しました。

RegNet モデルは数十億、さらには数兆のパラメータにまで拡張でき、さまざまな実行時間やメモリの制約に合わせて最適化できます。

研究チームは、ランダムな IG 画像での SEER 事前トレーニングと ImageNET での事前トレーニングを比較し、その結果、教師なしの特徴は教師ありの特徴よりも平均で 2% 高かったことが示されました。

SEER テクノロジーに最後の要素を追加するのは、VISSSL 自己教師学習一般ライブラリです。

VISSSL for SEER はオープンソースであり、より広範なコミュニティが画像からの自己教師学習を実験できるようにする汎用ライブラリです。

VISSSL は、さまざまな最新手法を使用して小規模から大規模まで自己教師ありトレーニングを可能にする PyTorch ベースのライブラリです。

VISSSL には、広範なベンチマーク スイートと、60 を超える事前トレーニング済みモデルのモデル ズーも含まれており、研究者は複数の最新の自己教師あり学習法を比較できます。

VISSSL は、複数の既存のアルゴリズムを統合し、各 GPU のメモリ要件を削減し、任意のモデルのトレーニング速度を向上させることで、大規模な自己教師あり学習を可能にします。

SEER の自己教師ありモデルは、VISSSL と同じコアツール上に構築されており、デフォルトよりも高いデータ スループットを提供する PyTorch 用のカスタム データ ローダーと組み合わされています。

自己教師あり学習の未来

Facebook によれば、SEER は Instagram の公開画像 10 億枚で事前トレーニングした後、最先端の自己教師ありモデルよりも優れた性能を発揮したという。

SEER は、オブジェクト検出分析、セグメンテーション、画像分類などのタスクでも最高の結果を達成しました。

一般的な ImageNet 10% データセットでトレーニングした場合、SEER は依然として 77.9% の精度を達成しました。

データセットのわずか 1% でトレーニングした場合、SEER の精度は 60.5% でした。

次に、Facebook は SEER の背後にある技術の一部を公開しますが、アルゴリズム自体は公開しません。SEER は Instagram ユーザーのデータを使用してトレーニングされたためです。

このアプローチにより、より野心的な視覚認識タスクを実践できるようになると、MITの計算知覚・認知研究所所長のオード・オリヴァ氏は言う。しかし、SEERのような最先端のAIアルゴリズムの規模と複雑さは、問題も引き起こす。

SEER には数十億または数兆のニューラル接続またはパラメータが含まれる可能性があり、そのようなアルゴリズムには膨大な計算能力が必要となり、利用可能なチップの供給に負担がかかります。

Facebook チームは 32GB の RAM を搭載した V100 Nvidia GPU を使用していましたが、モデルのサイズが大きくなるにつれて、利用可能な RAM にモデルを収めることが不可欠になりました。

[[385456]]

自己教師あり学習は、AI 研究専用に作成されたトレーニング データだけでなく、世界中の膨大な情報から機械が直接学習できるようにするため、長い間 Facebook AI の焦点となってきました。

自己教師あり学習は、他の研究分野と同様に、コンピューター ビジョンの将来に大きな影響を与えます。

人間による注釈やメタデータの必要性を排除することで、コンピューター ビジョン コミュニティはより大規模で多様なデータセットを処理できるようになります。

Facebookの研究者らは「この画期的な進歩は、コンピュータービジョンにおける自己教師学習に革命をもたらす可能性がある」と述べた。

参考文献:

https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision/

https://venturebeat.com/2021/03/04/facebooks-new-computer-vision-model-achieves-state-of-the-art-performance-by-learning-from-random-images/

<<:  人工知能は医療と健康分野に破壊的な革命をもたらすだろう

>>:  ドローン技術がモバイルIoTの範囲を拡大

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

非人道的だ!人工知能はソーシャルエンジニアリングの天敵である

人工知能 (AI) はまだ初期段階ですが、AI は急速に企業が自らを守るための重要な手段になりつつあ...

機械学習実践体験: データプラットフォームの設計と構築

近年人気の技術である機械学習は、数多くの「人工知能」製品でよく知られているだけでなく、従来のインター...

ポーランドのラム酒製造会社ディクタドールが世界初のAIヒューマノイドCEOを任命

AIによって仕事が奪われるのではないかと心配する人が多い中、ある企業が世界初のAIヒューマノイドロボ...

5G + AI の統合開発は、インダストリアル インターネットにどのように役立ちますか?

2021年、デジタル経済の重要な一部である産業インターネットが再び政策の焦点となりました。中国工業...

GPT-3 ハイパーパラメータは単一の GPU で解決できます。まず小さなモデルをトレーニングし、ワンクリックで移行します

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

年収100万のAI関連職種4つ

ディープラーニング技術の成熟に伴い、AIは最先端技術から徐々に普及しつつあります。最先端のテクノロジ...

人工知能をより人間らしくする 高齢者向けにAIをもっとデジタル化すべき

人工知能は新たなインフラの一つとして、人々の社会生活のあらゆる分野に統合され、あらゆるものがつながり...

...

AI と機械学習はデータセンター運用にどのような変化をもたらすのでしょうか?

今日のデータセンターは、ほぼ克服不可能と思われる課題に直面しています。データ センターの運用はかつて...

...

2023 年のテクノロジー業界の最高、最悪、そして最も醜い出来事

翻訳者 | ジン・ヤンレビュー | Chonglou 2023 年はテクノロジー業界にとってエキサイ...

ChatGPTに加えて、知っておくべき14の大きなモデルがあります

多くの上司は人工知能を未来と見ており、多くのテクノロジーリーダーは ChatGPT を人工知能と同義...