この記事はWeChatの公開アカウント「Xinzhiyuan」から転載したもので、著者はXinzhiyuanです。この記事を転載する場合は、新知源公式アカウントまでご連絡ください。 ラベルは不要、データを自己分析します! Facebook の新しい AI モデルはコンピューター ビジョンに革命をもたらすのでしょうか? 先ほど、Facebook は 10 億枚の画像でトレーニングされた AI モデル「SEER」(Self-supervised の略) を発表しました。 このモデルには 10 億のパラメータが含まれており、ラベルをほとんど使用せずに画像内のオブジェクトを認識でき、さまざまなコンピューター ビジョン ベンチマークで最先端の結果を達成しています。 ほとんどのコンピューター ビジョン モデルは、ラベル付けされたデータセットから学習されることを覚えておいてください。 Facebook の最新モデルは、データのさまざまな部分間の関係性を明らかにすることで、データからラベルを生成します。 このステップは、将来究極の人間知能を実現するために非常に重要であると考えられています。 新しい AI モデル SEER はコンピューター ビジョンに革命をもたらすのでしょうか? パラメータは常に機械学習システムの基本的な構成要素であり、過去のトレーニング データから派生したモデルの一部です。 AI の未来は、注釈付きのデータセットに依存せずに、与えられたあらゆる情報から推論する能力にあります。 テキスト、画像、またはその他の種類のデータが与えられると、AI は写真内のオブジェクトを完璧に識別し、テキストを解釈し、要求されたその他のタスクを実行できます。 フェイスブックの主任科学者ヤン・ルカン氏は、これは背景知識、つまり「常識」を備えた機械を構築し、現在のAIをはるかに超える課題を解決する最も有望な方法の1つだと語った。 自然言語処理 (NLP) は大きく進歩しました。その中で、大量のテキストに対する非常に大規模なモデルの自己教師付き事前トレーニングは、自然言語処理において大きな進歩を遂げました。
現在、Facebook は、SEER コンピューター ビジョン モデルがその目標に一歩近づいたと主張しています。 注釈を必要とせずに、インターネット上の任意のランダム画像セットから学習できます。 視覚の自己監視は困難な作業です。 テキストの場合、意味概念は個別の単語に分解できますが、画像の場合、モデルはどのピクセルがどの概念に属するかを独自に推測する必要があります。 同じ概念が異なる画像間で変化することが多く、それが問題をより困難にします。したがって、単一の概念のバリエーションを把握するには、多数の異なる画像を表示する必要があります。 研究者らはインスタグラムの公開画像10億枚を使ってモデルを訓練した。 人工知能システムが複雑な画像データを処理できるようにするには、少なくとも 2 つのコア アルゴリズムが必要であることが分かりました。 1 つは、アルゴリズムがメタデータや注釈なしで大量のランダム画像から学習できることです。もう 1 つは、畳み込みニューラル ネットワーク (ConvNet) が、このデータからすべての視覚概念をキャプチャして学習するのに十分な大きさであることです。 畳み込みニューラル ネットワークは 1980 年代に初めて提案され、モデル内のコンポーネント間の接続パターンが視覚皮質のパターンに似ていることから、生物学的プロセスにヒントを得ました。 SEER: 10億枚の画像、ラベル付け不要、自己学習データセット SEER モデルは、最新のアーキテクチャ ファミリ「RegNet」とオンライン自己教師トレーニング「SwAV」を組み合わせて、10 億のパラメータを持つ数十億のランダム画像にトレーニングを拡張します。 研究チームは、SwAV と呼ばれる新しいアルゴリズムを採用して使用しました。これは FAIR 研究から始まり、後に自己教師あり学習に適用されました。 SwAV はオンライン クラスタリング手法を使用して、類似した視覚概念を持つ画像をすばやくグループ化し、画像の類似性を活用して自己教師学習の最先端技術を向上させると同時に、トレーニング時間を 6 分の 1 に短縮します。 この規模のモデルをトレーニングするには、精度を犠牲にすることなく、実行時間とメモリの点で効率的なモデル アーキテクチャも必要です。 幸いなことに、FAIR の建築設計における最近の革新により、これらのニーズにぴったり合う RegNet と呼ばれる新しいモデル ファミリが誕生しました。 RegNet モデルは数十億、さらには数兆のパラメータにまで拡張でき、さまざまな実行時間やメモリの制約に合わせて最適化できます。 研究チームは、ランダムな IG 画像での SEER 事前トレーニングと ImageNET での事前トレーニングを比較し、その結果、教師なしの特徴は教師ありの特徴よりも平均で 2% 高かったことが示されました。 SEER テクノロジーに最後の要素を追加するのは、VISSSL 自己教師学習一般ライブラリです。 VISSSL for SEER はオープンソースであり、より広範なコミュニティが画像からの自己教師学習を実験できるようにする汎用ライブラリです。 VISSSL は、さまざまな最新手法を使用して小規模から大規模まで自己教師ありトレーニングを可能にする PyTorch ベースのライブラリです。 VISSSL には、広範なベンチマーク スイートと、60 を超える事前トレーニング済みモデルのモデル ズーも含まれており、研究者は複数の最新の自己教師あり学習法を比較できます。 VISSSL は、複数の既存のアルゴリズムを統合し、各 GPU のメモリ要件を削減し、任意のモデルのトレーニング速度を向上させることで、大規模な自己教師あり学習を可能にします。 SEER の自己教師ありモデルは、VISSSL と同じコアツール上に構築されており、デフォルトよりも高いデータ スループットを提供する PyTorch 用のカスタム データ ローダーと組み合わされています。 自己教師あり学習の未来 Facebook によれば、SEER は Instagram の公開画像 10 億枚で事前トレーニングした後、最先端の自己教師ありモデルよりも優れた性能を発揮したという。 SEER は、オブジェクト検出分析、セグメンテーション、画像分類などのタスクでも最高の結果を達成しました。 一般的な ImageNet 10% データセットでトレーニングした場合、SEER は依然として 77.9% の精度を達成しました。 データセットのわずか 1% でトレーニングした場合、SEER の精度は 60.5% でした。 次に、Facebook は SEER の背後にある技術の一部を公開しますが、アルゴリズム自体は公開しません。SEER は Instagram ユーザーのデータを使用してトレーニングされたためです。 このアプローチにより、より野心的な視覚認識タスクを実践できるようになると、MITの計算知覚・認知研究所所長のオード・オリヴァ氏は言う。しかし、SEERのような最先端のAIアルゴリズムの規模と複雑さは、問題も引き起こす。 SEER には数十億または数兆のニューラル接続またはパラメータが含まれる可能性があり、そのようなアルゴリズムには膨大な計算能力が必要となり、利用可能なチップの供給に負担がかかります。 Facebook チームは 32GB の RAM を搭載した V100 Nvidia GPU を使用していましたが、モデルのサイズが大きくなるにつれて、利用可能な RAM にモデルを収めることが不可欠になりました。
自己教師あり学習は、AI 研究専用に作成されたトレーニング データだけでなく、世界中の膨大な情報から機械が直接学習できるようにするため、長い間 Facebook AI の焦点となってきました。 自己教師あり学習は、他の研究分野と同様に、コンピューター ビジョンの将来に大きな影響を与えます。 人間による注釈やメタデータの必要性を排除することで、コンピューター ビジョン コミュニティはより大規模で多様なデータセットを処理できるようになります。 Facebookの研究者らは「この画期的な進歩は、コンピュータービジョンにおける自己教師学習に革命をもたらす可能性がある」と述べた。 参考文献: https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision/ https://venturebeat.com/2021/03/04/facebooks-new-computer-vision-model-achieves-state-of-the-art-performance-by-learning-from-random-images/ |
<<: 人工知能は医療と健康分野に破壊的な革命をもたらすだろう
近年、人工知能の継続的な成熟に伴い、生体認証技術は生活のあらゆる分野に浸透し、コストが削減され、効率...
1 概要自動運転車 (AV) が安全で効率的な運転を実現するには、リアルタイムで正確かつ堅牢な位置特...
【元記事は51CTO.comより】 「(段)幕」という言葉はシューティングゲームから生まれたもので、...
7月13日、新たな訴訟で、Googleがチャットボット「バード」などの人工知能(AI)製品のトレーニ...
[[244555]]ビッグデータダイジェスト制作編集者: グアグア、アイリーンこの投稿には、私がこれ...
[[436699]] [51CTO.com クイック翻訳]アナリストとして、私はニュースや業界の最新...
そのため、データ変換率が低いと機械学習の有効性が著しく低下する可能性があることに注意することが重要で...
[[418617]]人工知能と人間の知能は互いに対立するものではなく、本質的に共生関係にあります。企...
誰かがGPT-3の独占に挑戦しなければなりません! GPT-3 は発売以来、最大の AI 言語モデル...
自動車の知能化の時代が到来しました。 12月8日、広州で開催された第2回百度アポロエコシステムカンフ...
ニューラル ネットワークの理解: ディープラーニングは長い間、解釈可能性が低いと考えられてきました。...