自己教師あり学習の概要と3つの主要分野における現状

自己教師あり学習の概要と3つの主要分野における現状

近年、教師あり学習によるディープラーニングも大きな成功を収めています。画像分類から言語翻訳まで、そのパフォーマンスは常に向上しています。ただし、一部の領域(希少疾患の医療データセットなど)では、大規模なラベル付きデータセットを収集することは高価であったり不可能であったりします。これらのタイプのデータセットは、自己教師ありアルゴリズムが予測モデルのパフォーマンスをさらに向上させる十分な機会を提供します。

[[433960]]

自己教師学習は、ラベルのないデータから情報表現を学習することを目的としています。この場合、ラベル付きデータセットはラベルなしデータセットよりも比較的小さくなります。自己教師学習では、このラベルなしデータを使用して、口実タスクと対照学習を実行します。

自己教師あり学習に関する優れた記事で、Jeremey Howard は教師あり学習を 2 つの段階に定義しています。「事前トレーニングに使用するタスクは先行タスクと呼ばれます。その後微調整に使用するタスクは下流タスクと呼ばれます。」自己教師学習の例には、将来の単語予測、マスクされた単語予測の修復、カラー化、超解像度などがあります。

コンピュータビジョンのための自己教師あり学習

自己教師あり学習法は、データの空間的および意味的構造に依存します。 画像の場合、空間構造の学習が非常に重要です。 画像から表現を学習するための事前タスクとして、回転、スプライシング、カラー化などのさまざまな手法が使用されます。 カラー化するには、グレースケールの写真を入力として取り込み、写真のカラーバージョンを生成します。 Zhangらの論文[1]では、鮮やかでリアルな陰影を生み出す陰影処理について説明している。

コンピューター ビジョンにおける自己教師学習で広く使用されているもう 1 つのアプローチは、画像パッチを配置することです。 一例としては、Doerschらによる論文[2]が挙げられる。 この研究では、大規模なラベルなし画像データセットが提供され、そこからランダムな画像パッチのペアが抽出されます。 この最初のステップの後、畳み込みニューラル ネットワークは、最初の画像パッチに対する 2 番目の画像パッチの位置を予測します。 図 2 はこのプロセスを示しています。

自己教師学習には、修復や誤分類された画像の識別など、他にもさまざまなアプローチがあります。 このテーマに興味のある方は、参考文献[3]をご覧ください。 上記のトピックに関する文献のレビューを提供します。

自然言語処理のための自己教師あり学習

自然言語処理タスクでは、自己教師あり学習法が最も一般的です。 Word2Vec 論文の「連続単語バッグ」アプローチは、自己教師学習の最も有名な例です。

同様に、自己教師学習には、隣接単語予測、隣接文予測、自己回帰言語モデリング、マスク言語モデリングなど、さまざまなアプローチがあります。 マスク言語モデリング定式化は、BERT、RoBERTa、および ALBERT の論文で使用されています。

テキストの自己教師学習の最近の例としては、Zhangらによる論文[4]が挙げられる。 著者らは、間隔を置いた文生成メカニズムを提案した。 このメカニズムは、要約の下流タスクを要約するために使用されます。

表形式データの自己教師学習

画像とテキストの自己教師学習は進歩しています。しかし、既存の自己教師あり学習法は表形式のデータには効果がありません。表形式のデータには空間的な関係や意味的な構造がないため、空間的および意味的な構造に依存する既存の手法は役に立ちません。

ほとんどの表形式データには、意味のある凸の組み合わせを持たないカテゴリ機能が含まれます。連続変数の場合でも、データ多様体が凸であるという保証はありません。しかし、この挑戦​​は研究者に新たな方向性を提示する。この点に関して行われた作業のいくつかについて簡単に説明します。

Vincentら[5]による研究では、ノイズ除去オートエンコーダのメカニズムが提案された。前のタスクは、破損したサンプルから元のサンプルを復元することです。別の論文では、Pathakら[6]は、破損したサンプルとマスクベクトルから元のサンプルを再構築するためのコンテキストエンコーダを提案した。

Tabnet [7]とTaBERT [8]の研究も自己教師学習に向けた漸進的な取り組みです。どちらの研究でも、事前タスクは破損した表形式データを回復することでした。 TabNet は各ステップで注目メカニズムと推論のための特徴の選択に重点を置いていますが、TABERT は自然言語の文章と半構造化テーブルの表現を学習します。

最近の研究(VIME)[9]では、新しい破損サンプル生成技術を使用してマスクベクトルと元のサンプルを回復するための新しい事前タスクが提案されました。 著者らはまた、対照学習と組み合わせて表形式データの教師あり学習を拡張できる新しい表形式データ拡張メカニズムを提案しています。 ここでの入力サンプルは、ラベルのないデータセットから生成されます。"

要約する

自己教師あり学習はディープラーニングにおける新たな標準です。 画像とテキストデータに対する自己教師あり学習技術は、それぞれ空間的依存性と連続的依存性に依存しているため、驚くべきものです。 ただし、表形式のデータには普遍的な相関構造は存在しません。 これにより、表形式データの自己教師学習がより困難になります。

<<:  初心者向けガイド: Numpy、Keras、PyTorch を使用した単純な線形回帰

>>:  上位 10 の古典的なソートアルゴリズムを理解するのに役立つ 20 枚の写真

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

現実世界の AI: 今こそ AI が必要な理由

人類が最も懸念している問題の一つは、人工知能(AI)の将来の発展です。真の AI は、人間の作業のス...

IoT、AI、デジタルツインをどのように統合するのか?

デジタル ツインは、物理世界とデジタル世界をつなぐため、常に興味深いものです。将来的には、すべてのも...

3万語に及ぶ記事: サーバー開発と設計のためのアルゴリズム集

[[442986]]孫子はこう言った。「行軍と戦闘の最善の方法は戦略を使うこと、次に良いのは敵の同盟...

産業用ロボット市場は変化しており、今後は国産品の台頭が期待されます!

皆さんご存知のとおり、2013年以来、我が国は世界最大の産業用ロボットの需要と応用市場となっています...

2019年にRedditの機械学習セクションで人気のプロジェクト17選:最新のコードとリソースがすべて利用可能

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

産業オペレーションの深化が人工知能コンピューティングセンター構築の鍵

新たな科学技術革命と産業革命の到来とともに、デジタル経済は第四次産業革命の重要な礎となり、新たな組織...

...

新しい3Dバイオプリンティング技術は皮膚と骨の損傷を同時に修復できる

海外メディアの報道によると、ペンシルベニア州立大学の研究者らは、2種類の異なる「バイオインク」を使用...

Nature のサブ出版物: 新しいアルゴリズムは、米国の 8 つの都市で 90% の精度で、1 週間前に 2 ブロック以内の犯罪を予測できます。

シカゴ大学の助教授イシャヌ・チャトパディアイ氏は、彼と彼のチームが「アーバン・ツイン」モデルを作成し...

マイクロソフトがAIインフラサービスコード名「Singularity」を発表

Microsoft Azure と研究チームは協力して、コードネーム「Singularity」という...

Googleの検索アルゴリズムがユーザーをより深く理解する方法

Googleは現在、コア検索アルゴリズムに変更を加えており、検索結果の最大10分の1のランキングに影...

...

ハリー・シャムが清華大学の記録を破り、ビデオを通じて任命された史上初の教授となり、説明可能なAIを訴える

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...