自己教師あり学習は、さまざまなタスクで階層的な特徴を学習し、実生活で利用可能な膨大なデータをリソースとして使用できます。したがって、より一般的な人工知能に向かう方法です。これは、ディープラーニングの3大巨頭の1人でチューリング賞受賞者のヤン・ルカンが常に主張してきた研究方向でもあります。 LeCun 氏は、強化学習と比較して、自己教師あり学習 (SSL) は多くのフィードバックを生成でき、入力の任意の部分を予測できるため (ビデオの将来の画像を予測するなど)、幅広い応用の可能性があると考えています。 自己教師学習は、ラベル付けされた画像、テキスト、音声、その他のデータ ソースから学習するのではなく、環境を直接観察することで学習します。ただし、さまざまなモダリティ(画像、テキスト、音声など)からの学習方法には大きな違いがあります。この違いにより、自己教師あり学習の広範な応用が制限されます。たとえば、画像を理解するために設計された強力なアルゴリズムは、テキストに直接適用できないため、複数のモダリティで同じペースで進歩を促進することが困難になります。 現在、MetaAI (旧 Facebook AI) は、複数のモダリティにわたるベンチマークで既存の SOTA 手法を上回る、data2vec と呼ばれる新しい自己教師あり学習アーキテクチャを提案しています。 data2vec は、マルチモーダル学習のための最初の高性能自己教師ありアルゴリズムです。 Meta AI は、音声、画像、テキストにそれぞれ data2vec を適用し、コンピューター ビジョンと音声タスクにおける最高の単一目的アルゴリズムを上回り、NLP タスクで競争力のある結果を達成します。さらに、data2vec は、1 つのモダリティだけでなく複数のモダリティにわたる進歩を改善する、新しい包括的な自己教師あり学習パラダイムを表しています。 data2vec は、AI の進歩を加速させるだけでなく、対照学習や入力例の再構築に依存せず、周囲の世界のさまざまな側面をシームレスに理解できるマシンの構築に近づきます。 data2vec により、研究者はより適応性の高い AI を開発できるようになり、Meta AI は、さまざまなタスクにおいて既存のシステムを上回るパフォーマンスを発揮できると考えています。
論文の第一著者であるMeta AI研究者のアレクセイ・バエフスキー氏は次のように述べています。「最新のSSLメソッドdata2vecをリリースし、個別のトレーニングと比較して、同じ事前トレーニングタスクで視覚、音声、NLPでSOTAを達成しました。」音声とテキストのコードとモデルはすでにリリースされており、ビジョン モデルのコードは近日中にリリースされる予定です。 近々 Meta の CTO (Reality Labs チームの AR、VR、AI、Portal などを率いる) になる Boz もツイートしました。「data2vec が、複数のモダリティにわたるより一般的な自己教師あり学習への道を切り開くのに役立つことを嬉しく思います。この作業は、私たちが構築している AR グラス向けのコンテキスト化された AI の開発にも大きな影響を与えるでしょう。」 data2vec はどのように機能しますか?ほとんどの AI は依然として教師あり学習に基づいており、ラベル付けされたデータを使用するタスクにのみ機能します。しかし、機械がより多くのタスクを完了できるようにしたい場合、ラベル付けされたデータをすべて収集することは非現実的になります。たとえば、研究者たちは英語の音声とテキストの大規模な注釈付きデータセットを作成するために多くの作業を行ってきましたが、地球上で話されている何万もの言語に対してそれを行うのは現実的ではありません。 自己監督により、コンピューターは世界を観察し、画像、音声、またはテキストの構造を理解することで世界について学習できるようになります。特別な訓練なしに画像を分類したり音声を理解したりできる機械も、はるかにスケーラブルになります。 Data2vec は、入力の部分的なビューを与えられた完全な入力モデル表現を予測することによってトレーニングされます (下のアニメーションに示すように)。まず、data2vec はトレーニング サンプルのマスクされたバージョン (学生モデル) をエンコードし、次に、モデルの重みの指数移動平均としてパラメーター化された同じモデル (教師モデル) を使用して、入力サンプルのマスクされていないバージョンをエンコードすることによって、トレーニング ターゲット表現を構築します。ターゲット表現はトレーニング サンプル内のすべての情報をエンコードし、学習タスクは、入力部分ビューが与えられた場合に学生がこれらの表現を予測することです。 data2vec は、画像、音声、テキストから同じように学習します。 モデルアーキテクチャMeta AI は標準の Transformer アーキテクチャを使用します (Vaswani ら、2017)。コンピューター ビジョンの場合、Meta AI は ViT 戦略を使用して、画像をそれぞれ 16 x 16 ピクセルにまたがる一連のパッチとしてエンコードし、それを線形変換に入力します (Dosovitskiy ら、2020 年、Bao ら、2021 年)。音声データは、16kHzの波形を50Hzの表現にマッピングする多層1次元畳み込みニューラルネットワークを使用してエンコードされます(Baevski et al.、2020b)。テキストは前処理されてサブワード単位が取得され (Sennrich et al., 2016; Devlin et al., 2019)、学習された埋め込みベクトルを介して分布空間に埋め込まれます。 data2vec は、画像の場合はピクセルまたは視覚トークン、テキストの場合は単語、音声の場合は学習したレパートリーなど、さまざまなモダリティに対して異なる単位を予測することもできます。ピクセルの集合はオーディオ波形やテキストの段落とは大きく異なるため、アルゴリズムの設計はその特定のモダリティに密接に結びついています。つまり、アルゴリズムはモードごとに異なる動作をします。 マスキング: 入力サンプルがトークン シーケンスとして埋め込まれた後、Meta AI はマスク ユニットの一部を学習したマスクされた埋め込みトークンに置き換え、そのシーケンスを Transformer ネットワークに送ります。コンピューター ビジョンの場合、Meta AI は Bao らのブロック単位の戦略に従います。音声の場合、Meta AI は潜在的な音声表現の範囲をマスクします。言語の場合、Meta AI はマスクされたトークンを使用します。 トレーニング目標: Meta AI によって予測される表現は、特定の時間ステップだけでなく、サンプルからの他の情報もエンコードするコンテキスト表現です。これは、Transformer ネットワークで自己注意を使用しているためであり、予測目標にコンテキスト情報が欠けている BERT、wav2vec 2.0、BEiT、MAE、SimMIM、MaskFeat との重要な違いです。 マルチモーダル: data2vec は、入力データの表現を予測するモデルをトレーニングすることで、アプローチを簡素化します。視覚的なトークン、単語、音などを予測するのではなく、入力データの表現を予測することに重点を置くことで、単一のアルゴリズムでまったく異なるタイプの入力を処理できます。これにより、学習タスクにおけるモダリティ固有の目標への依存が排除されます。 表現を直接予測することは簡単ではなく、さまざまなモダリティにわたって信頼できる、タスクの堅牢な特徴正規化を定義する必要があります。この研究では、教師ネットワークを使用して、まず画像、テキスト、または音声からターゲット表現を計算します。次に、入力の一部をマスクし、生徒ネットワークを使用してプロセスを繰り返し、教師ネットワークの潜在表現を予測します。学生モデルは、部分的な情報しか見ることができない場合でも、完全な入力データの表現を予測する必要があります。教師ネットワークは生徒モデルと同一ですが、重みがわずかに異なります。 実験と結果この研究では、ImageNet コンピューター ビジョン ベンチマークでこの方法をテストし、結果は次のとおりです。 コンピューター ビジョン用の data2vec: ImageNet ベンチマークでの ViT-B モデルと他の方法のパフォーマンス比較。 音声用 data2vec: 10 時間のラベル付きデータを使用した LibriSpeech ベンチマークでの基本モデルと他の方法のパフォーマンス比較。エラー率が低いほど、パフォーマンスが優れていることを意味します。 テキストの data2vec: 元の BERT 設定を使用して再トレーニングした場合の、GLUE 自然言語理解ベンチマークにおけるベース モデルのパフォーマンスを RoBERTa と比較した値。スコアが高いほど、パフォーマンスは優れています。 観察による学習自己教師学習は、コンピュータービジョンやビデオなどのさまざまな分野で大きな進歩を遂げてきました。このアプローチの核となる考え方は、より広範囲に学習することで、AI がまったく見たことのないタスクを含むさまざまなタスクを完了することを学習できるようにすることです。研究者たちは、機械がトレーニングデータに示された動物を認識できるだけでなく、説明を与えられた新しい生き物も識別できるようにしたいと考えている。 data2vec は、その自己教師ありアルゴリズムが複数のモダリティにわたって優れたパフォーマンスを発揮し、最先端のアルゴリズムよりも優れていることを実証しています。これにより、より一般的な自己教師あり学習への道が開かれ、ビデオ、テキスト、オーディオを使用して複雑な世界について学習するという目標に人工知能がさらに近づきます。 高品質なデータの収集にはコストがかかることから、この研究では、data2vec によってコンピューターが少量のラベル付きデータだけでタスクを完了できるようになることも期待されています。 data2vec は、より汎用的な人工知能に向けた重要なステップであり、将来的にはモダリティ固有の特徴抽出器の必要性がなくなる可能性があります。 |
<<: 1年間で18本の論文:Google Quantum AI チームの2021年年次概要
>>: アカデミー会員焦力成: 進化最適化とディープラーニングに関する考察
2023 年の幕がゆっくりと下りる中、IT 業界は楽観と慎重さをもって新年を待ち望んでいます。警戒感...
2024年初頭のキング爆弾として、ソラの出現は追いつくための新たな目標を設定しました。ヴィンセントビ...
[[242009]]この記事の著者は、Microsoft Internet Engineering...
再び5月12日。13年前の今日、マグニチュード8.0の地震が四川省汶川市を襲いました。この地震は地元...
2024年1月10日、Honor MagicOS 8.0発表会と開発者会議において、Honor Te...
以前、RSA アルゴリズムの説明をしてほしいと頼まれたことがあります。今日は私が学んだことに基づいて...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
こんなことは今まで見たことがありません。AIの巨人たちが袖をまくり上げて、オンラインで「戦い」始めま...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
最近、中国サイバースペース管理局は「インターネット情報サービスアルゴリズム推奨管理規則(草案)」(以...
COVID-19の流行は深刻ですが、多くの新しい技術の助けにより、予防と制御の対策は何年も前と同じ...
[[91338]] HTML5 がリリースされてから長い時間が経ちますが、日々の仕事や個人の Web...