自己教師あり学習の概要と3つの主要分野における現状

自己教師あり学習の概要と3つの主要分野における現状

近年、教師あり学習によるディープラーニングも大きな成功を収めています。画像分類から言語翻訳まで、そのパフォーマンスは常に向上しています。ただし、一部の領域(希少疾患の医療データセットなど)では、大規模なラベル付きデータセットを収集することは高価であったり不可能であったりします。これらのタイプのデータセットは、自己教師ありアルゴリズムが予測モデルのパフォーマンスをさらに向上させる十分な機会を提供します。

[[433960]]

自己教師学習は、ラベルのないデータから情報表現を学習することを目的としています。この場合、ラベル付きデータセットはラベルなしデータセットよりも比較的小さくなります。自己教師学習では、このラベルなしデータを使用して、口実タスクと対照学習を実行します。

自己教師あり学習に関する優れた記事で、Jeremey Howard は教師あり学習を 2 つの段階に定義しています。「事前トレーニングに使用するタスクは先行タスクと呼ばれます。その後微調整に使用するタスクは下流タスクと呼ばれます。」自己教師学習の例には、将来の単語予測、マスクされた単語予測の修復、カラー化、超解像度などがあります。

コンピュータビジョンのための自己教師あり学習

自己教師あり学習法は、データの空間的および意味的構造に依存します。 画像の場合、空間構造の学習が非常に重要です。 画像から表現を学習するための事前タスクとして、回転、スプライシング、カラー化などのさまざまな手法が使用されます。 カラー化するには、グレースケールの写真を入力として取り込み、写真のカラーバージョンを生成します。 Zhangらの論文[1]では、鮮やかでリアルな陰影を生み出す陰影処理について説明している。

コンピューター ビジョンにおける自己教師学習で広く使用されているもう 1 つのアプローチは、画像パッチを配置することです。 一例としては、Doerschらによる論文[2]が挙げられる。 この研究では、大規模なラベルなし画像データセットが提供され、そこからランダムな画像パッチのペアが抽出されます。 この最初のステップの後、畳み込みニューラル ネットワークは、最初の画像パッチに対する 2 番目の画像パッチの位置を予測します。 図 2 はこのプロセスを示しています。

自己教師学習には、修復や誤分類された画像の識別など、他にもさまざまなアプローチがあります。 このテーマに興味のある方は、参考文献[3]をご覧ください。 上記のトピックに関する文献のレビューを提供します。

自然言語処理のための自己教師あり学習

自然言語処理タスクでは、自己教師あり学習法が最も一般的です。 Word2Vec 論文の「連続単語バッグ」アプローチは、自己教師学習の最も有名な例です。

同様に、自己教師学習には、隣接単語予測、隣接文予測、自己回帰言語モデリング、マスク言語モデリングなど、さまざまなアプローチがあります。 マスク言語モデリング定式化は、BERT、RoBERTa、および ALBERT の論文で使用されています。

テキストの自己教師学習の最近の例としては、Zhangらによる論文[4]が挙げられる。 著者らは、間隔を置いた文生成メカニズムを提案した。 このメカニズムは、要約の下流タスクを要約するために使用されます。

表形式データの自己教師学習

画像とテキストの自己教師学習は進歩しています。しかし、既存の自己教師あり学習法は表形式のデータには効果がありません。表形式のデータには空間的な関係や意味的な構造がないため、空間的および意味的な構造に依存する既存の手法は役に立ちません。

ほとんどの表形式データには、意味のある凸の組み合わせを持たないカテゴリ機能が含まれます。連続変数の場合でも、データ多様体が凸であるという保証はありません。しかし、この挑戦​​は研究者に新たな方向性を提示する。この点に関して行われた作業のいくつかについて簡単に説明します。

Vincentら[5]による研究では、ノイズ除去オートエンコーダのメカニズムが提案された。前のタスクは、破損したサンプルから元のサンプルを復元することです。別の論文では、Pathakら[6]は、破損したサンプルとマスクベクトルから元のサンプルを再構築するためのコンテキストエンコーダを提案した。

Tabnet [7]とTaBERT [8]の研究も自己教師学習に向けた漸進的な取り組みです。どちらの研究でも、事前タスクは破損した表形式データを回復することでした。 TabNet は各ステップで注目メカニズムと推論のための特徴の選択に重点を置いていますが、TABERT は自然言語の文章と半構造化テーブルの表現を学習します。

最近の研究(VIME)[9]では、新しい破損サンプル生成技術を使用してマスクベクトルと元のサンプルを回復するための新しい事前タスクが提案されました。 著者らはまた、対照学習と組み合わせて表形式データの教師あり学習を拡張できる新しい表形式データ拡張メカニズムを提案しています。 ここでの入力サンプルは、ラベルのないデータセットから生成されます。"

要約する

自己教師あり学習はディープラーニングにおける新たな標準です。 画像とテキストデータに対する自己教師あり学習技術は、それぞれ空間的依存性と連続的依存性に依存しているため、驚くべきものです。 ただし、表形式のデータには普遍的な相関構造は存在しません。 これにより、表形式データの自己教師学習がより困難になります。

<<:  初心者向けガイド: Numpy、Keras、PyTorch を使用した単純な線形回帰

>>:  上位 10 の古典的なソートアルゴリズムを理解するのに役立つ 20 枚の写真

ブログ    

推薦する

さまざまな機械学習アルゴリズムの選択の考え方を説明する記事

序文これは Zhihu に関する質問です: k 近傍法、ベイズ法、決定木、SVM、ロジスティック回帰...

人工知能に対する2つのアプローチの戦い

[[248047]] (AIの2つのルート)ホフスタッターは1995年に予測した。 (人工知能におい...

...

運輸・物流業界におけるAIと自動化のユースケース

現在、世界の一部の国や地域の運輸・物流業界は、流行病によって深刻な影響を受けています。コロナウイルス...

Microsoft が機械学習モデルを簡単に作成できる Lobe デスクトップ アプリケーションをリリース

なお、Lobe はインターネット接続やログインを必要とせず、現在は機械学習モデルの出力のみ可能である...

イノベーションを統合し、障壁を下げ、PaddlePaddleは人工知能を推進して大規模な工業生産を実現します。

5月20日、中国国家深層学習技術応用工程研究室と百度が共催する「WAVE SUMMIT 2021 ...

アルゴリズムやモデルがわかりませんか? UFIDA Jingzhi Industrial Brainは、産業インテリジェンスを簡単に習得する方法を教えます

現在、ビッグデータ、クラウドコンピューティング、人工知能技術が急速に発展しており、産業インターネット...

近年、軍事用人工知能スタートアップが人気を集めている理由

ロシアとウクライナの紛争が始まって2週間、データ分析会社パランティアのCEO、アレクサンダー・カープ...

...

...

クラウド管理と運用にAIを適用する方法

AI は、クラウドの管理と運用に大変革をもたらすものとして台頭しています。しかし、AI とクラウド ...

...

Horizo​​nの最新作! Sparse4D v3: エンドツーエンドの 3D 検出および追跡タスクのさらなる改善 (SOTA が 2 倍!)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

人工知能はモノのインターネットにおける次のブレークスルーとなるでしょうか?

AIoT は、モノのインターネットとそれに接続されたデバイスのネットワークをクラウドから解放し、イ...

人工知能の可能性を解き放つ3つのステップ

ガートナーのデータによると、2020 年までに人工知能は CIO の 30% 以上にとって最優先事項...