LeCun はそれを見て良かったと言っていました! Meta AI は音声、視覚、テキストで同時に SOTA を達成

LeCun はそれを見て良かったと言っていました! Meta AI は音声、視覚、テキストで同時に SOTA を達成

人間の知能は「マルチモーダル学習」の総体であり、分類の境界を越えてさまざまな情報源や形式からの情報と経験を理解し、適用する能力を意味します。

たとえば、ネイチャー チャンネルでトラのドキュメンタリーを見ていて、その後に誰かが「大きな白い猫が風のように吠えている」と説明しているのを聞いた場合、その人はこの言語による説明と以前の視聴結果を組み合わせて、他の人がトラを説明していることがわかり、無謀に走ってスライディングやタックルをしようとはしないでしょう。

人工知能が同様のマルチモーダル学習効果を達成できるようにすることは、非常に困難でありながらやりがいのある作業です。

音声、画像、テキストデータを独立して処理する単一のアルゴリズムがいかに優れていても、異なるモダリティのデータ間で使用できない場合、最終的には、画像認識、音声モダリティ検出、自然言語処理など、さまざまなデータに適用できる単一の基本フレームワークを持つアルゴリズムよりも劣ることになります。

Meta AI 研究グループの data2vec アルゴリズムがこれを実現しました。研究チームはブログで、機械学習を人間の知能に近づけるためには、さまざまなモーダルデータに対する既存の自己教師あり学習アルゴリズムの障壁を克服する必要がある、と述べた。

論文リンク: https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language

オープンソースプロジェクト: https://github.com/pytorch/fairseq/tree/main/examples/data2vec

これに対して、LeCun 氏は祝福のメッセージも投稿しました。「ImageNet (視覚)、LibriSpeech (音声認識)、GLU (NLP) における data2vec の結果は、既存の SOTA よりも優れています。」

data2vec: CV、NLP、音声認識を網羅

現在、主流の人工知能は依然として、ラベル付けされたデータに基づく教師あり学習に依存しています。

この種の「教師あり学習」は、特殊なモデルのトレーニングに非常に効果的であり、多くの場合、トレーニングされたタスクで非常に優れたパフォーマンスを発揮します。

しかし、「松葉杖」に頼る AI は、ラベル付けされたデータが不十分な領域では簡単に失敗する可能性があり、科学者が AI のために「松葉杖」を次から次へと注意深く作成するのはあまりにも手間がかかりすぎるでしょう。

たとえば、さまざまな国の研究者が自国の音声とテキストの大規模なラベル付きデータセットを作成するために多大な努力を払ってきましたが、地球上の何万もの言語に対してこれを行うのは不可能です。

このとき必要になるのが「自己教師学習」です。

自己監督により、コンピューターは、ラベル付けされた画像、テキスト、音声、またはその他のデータ ソースを利用する必要なく、独自の観察を通じて画像、音声、またはテキストの構造を把握し、世界について学習できるようになります。しかし、現在、自己教師あり学習アルゴリズムが画像、音声、テキスト、その他のモダリティから学習する方法には大きな違いがあります。

アルゴリズムは、画像の場合はピクセルまたは視覚的な注釈、テキストの場合は単語、音声の場合は学習した音のカタログなど、各モダリティに対して異なる単位を予測します。

ピクセルのセットは、オーディオ波形やテキストの一部とは大きく異なります。このため、アルゴリズムの設計は常に特定のモダリティに関連付けられており、アルゴリズムはモダリティごとに異なる動作をします。

この違いは、自己教師あり学習のより広範な応用に対する大きな障害となってきました。画像を理解するために設計された強力なアルゴリズムは、テキストなどの別のモダリティに直接適用できないため、複数のモダリティにわたって同じペースで進歩を進めることは困難です。

Data2vec は、音声、画像、テキストにそれぞれ適用できる、複数のモダリティに適用可能な初の高性能自己教師ありアルゴリズムです。そのパフォーマンスは、コンピューター ビジョンと音声のこれまでの最高の単一目的アルゴリズムを上回り、NLP タスクでも競争力があります。

data2vec の導入は、複数のモダリティでモデルのパフォーマンスを向上させるだけでなく、対照学習や入力インスタンスの再構築に依存しない、新しい総合的な自己教師学習パラダイムを表しています。

Data2vec は、モダリティに関係なく、入力データの独自の表現を予測するようにモデルをトレーニングします。

これらの表現を使用すると、視覚的なラベル、単語、または音を予測するのではなく、単一のアルゴリズムで完全に異なるタイプの入力を処理できるため、学習タスクにおけるモダリティ固有の目標への依存がなくなります。

ただし、表現を予測する前に、さまざまなモダリティにわたって堅牢なタス​​クの正規化された特徴を定義する必要があります。

Data2vec は、まず画像、テキスト、または音声のイントネーションからターゲット表現を計算する教師モデルを使用します。次に、入力の一部をマスクし、生徒モデルでプロセスを繰り返して、教師の潜在的表現を予測します。

学生モデルは、部分的な情報しか見ていない場合でも、入力データ全体の表現を予測する必要があります。

SOTAトリプル

コンピュータビジョン

著者らは、ImageNet-1K トレーニング セットの画像で data2vec を事前トレーニングし、同じベンチマークのラベル付きデータを使用して、結果として得られた画像分類モデルを微調整しました。

各画像に対して単一のラベルを予測する必要がある下流タスクの場合、著者らは平均プーリング表現の上にソフトマックス正規化分類器を積み重ねることでこれを実装します。

結果は、data2vec が ViT-B および ViT-L を使用した以前の作業よりも優れていることを示しています。マスク予測設定でコンテキスト化された潜在的表現を予測すると、生の入力ピクセル、エンジニアリングされた画像の特徴、視覚的な注釈などのローカルターゲットを予測する方法と比較して、非常に優れたパフォーマンスを発揮します。

さらに、data2vec は現在の SOTA 自己蒸留法よりも優れたパフォーマンスを発揮します。

音声処理

チームは、Librispeech (LS-960) の 960 時間の音声オーディオ データで data2vec を事前トレーニングしました。このデータセットには、英語のオーディオブックからの比較的クリアな音声が含まれています。

異なるリソース環境でのパフォーマンスを理解するために、著者らは 10 分から 960 時間までのさまざまな量のラベル付きデータを使用して自動音声認識モデルを微調整しました。

離散音声単位に依存する 2 つの音声表現学習アルゴリズム、wav2vec 2.0 と HuBERT と比較します。結果は、data2vec がすべてのラベル付きデータ設定で改善し、10 分間のラベル付きデータで最大の向上 (相対 BER が 20% 改善) を示したことを示しています。

さらに、豊富なコンテキスト化された目標を使用すると、事前トレーニング中にコンテキスト化された目標を学習することで、個別の単位を学習する必要なくパフォーマンスを向上させることができます。

自然言語処理

Data2vec は、BERT と同じトレーニング設定を使用し、書籍コーパスと英語版 Wikipedia データで事前トレーニングされ、100 万回の更新と 256 シーケンスのバッチ サイズが使用されています。

チームは、自然言語推論 (MNLI、QLNLI、RTE)、文の類似性 (MRPC、QQP、STS-B)、文法性 (CoLA)、感情分析 (SST-2) などのタスクを含む一般言語理解評価 (GLUE) ベンチマークでこれをテストしました。

著者らは、各タスクによって提供されるラベル付きデータに対して data2vec を微調整します。結果は、data2vec が RoBERTa ベースラインよりも優れていることを示しています。

Data2vec は、トレーニング ターゲットとして個別の単位 (単語、サブワード、文字、またはバイト) を使用せず、マスクされていないテキスト シーケンス全体に対する自己注意から生じるコンテキストの潜在的表現を予測する、初めて成功した事前トレーニング済みの NLP モデルです。

これには、特定の個別の単位が出現するすべてのテキスト シーケンスの普遍的な表現ではなく、学習タスク内の現在のテキスト シーケンスの特定のプロパティを持つターゲットを予測するモデルが必要です。

さらに、トレーニング対象は閉じた語彙ではありません。これにより、モデルは必要に応じて独自のターゲット タイプを定義できます。

自己監督:周囲の世界を観察して学ぶ

2021年にGoogleが同様の目標を達成するために立ち上げた7月にリリースされたPerceiverと10月にリリースされたPathwaysと比較すると、Metaのdata2vecには利点がある。Pathwaysは具体的な詳細や論文のない業界の広報活動であるのに対し、Perceiverは依然として従来のラベル付きデータと教師あり学習パスに基づいている。

Meta AI 研究グループは研究をまとめる中で、data2vec にはさまざまな応用可能性があり、パンを焼くさまざまな方法やサッカーをするさまざまなテクニックなど、これまで機械には複雑すぎたスキルを、ビデオ、音声、テキストの組み合わせを通じて AI が学習できるようになると述べています。

地球上のすべての言語の音声認識のようなこれらのスキルは、ラベル付けされたデータを使用して AI に教えるにはコストがかかりすぎます。将来、AI は共通のアーキテクチャを使用して、データ モダリティ全体にわたる一般的な経験を学習し、それをさまざまなタスクの完了に適用します。この目標により、data2vec は実現に近づきました。

さらに、研究チームは次のようにも述べています。「実験で処理された潜在的表現変数は、3 つのモーダル データの混合エンコードではありません。単一モーダル データは単一のプロセスで処理されます。ただし、このプロジェクトの主な革新性は、data2vec が異なるモーダルのデータを基本的に一貫した方法で処理することです。これはこれまでに行われておらず、神経生物学者が説明する人間の視聴覚学習プロセスに近いものです。」

ただし、data2vec のマルチモーダル汎用ニューラル ネットワークには欠点がないわけではありません。データのモーダル ラベル付けに依存しているのです。画像、音声、テキストなどのデータは、まずモーダル分類を取得するために前処理する必要があります。これらのデータ タイプの手がかりは、論文の元の言葉では「小さなモダリティ依存のエンコーダ入力」と呼ばれる data2vec に入力されます。

本当の人間の知能は、データの前処理や「これはテキストソースからの知識で、あれは老人からの口頭情報だ」といった分類を必要としません。

著者について

Wei-Ning Hsu 氏は、Meta 人工知能研究グループの上級研究科学者です。MIT で博士号を取得しました。研究対象には、表現学習、自己教師学習、音声認識などがあります。

Jiatao Gu 氏は、Meta Artificial Intelligence Research Group の研究科学者です。香港大学で電子工学の博士号を取得しています。研究対象は自然言語処理とディープラーニングです。

Qiantong Xu は、Meta 人工知能研究グループの上級研究エンジニアです。彼の研究対象には、音響モデリングのための言語モデリングと会話様式認識が含まれます。

<<:  Metaは、メタバース内の肖像画がぼやけないようにするための新しい仮想背景処理AIを開発しました

>>:  脳はどうやって計算をするのでしょうか?加算と減算には専用のニューロンがあり、記号と単語は同じグループを活性化することができる。

ブログ    
ブログ    

推薦する

Nature の論文が xAI の目標を検証、人間の認知 AI が宇宙の本質を探る、マスク氏: 黙ってろ、金やるぞ!

馬氏は数日前にAIを使って宇宙の本質を探究することを目的としたAI企業xAIを発表したばかりだ。幸運...

RPA 導入によって企業が得る 10 のメリット

[[358363]] RPA(ロボティック・プロセス・オートメーション)は、企業の業務効率と生産性を...

スマート革命の始まり! AIは今後10年間で医療と芸術に革命を起こすだろう

人工知能 (AI) は、新しい材料を設計し、学習方法や周囲のあらゆるものとのやり取り方法を変え、人々...

顔をスキャンして食べて、拭いてから帰る、アリババの未来の人工知能レストランがお披露目!

[[218392]]毎年、最も注目を集めるのはジャック・マー氏だ。彼は住宅賃貸の保証金を免除したり...

...

...

...

爆発力で動く昆虫ロボットは、自重の22倍を運ぶことができ、垂直に59cmジャンプできる。

この小さなロボットはエネルギーに溢れています。体は昆虫ほどの大きさですが、自分の体重の22倍の重さの...

フェイフェイ・リーとチュンハン・デンが米国工学アカデミーに選出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

自動運転分野でファーウェイの「異常運転行動」関連特許が認可:認識精度向上が可能

昨日12月8日、華為技術有限公司は「異常運転行動を識別する方法」の特許権を取得し、公開番号はCN11...

ChatGPT Plusの登録が停止、OpenAIは容量の課題に直面

11月16日、海外メディアの報道によると、OpenAIのCEOであるサム・アルトマン氏は最近、Dev...

...

モバイルインターネット開発における人工知能技術の応用

[[189519]]インテリジェントな需要は2つの側面に反映されるモバイル インターネットの発展が新...