ディープラーニングの救済: 不十分な注釈付きデータによるディープラーニング手法

概要: ディープラーニングのデータ依存の問題を解決し、データ注釈コストを削減することが、業界の研究のホットスポットになっています。この記事では、半教師あり/弱教師あり学習、データ合成、能動学習、自己教師という研究の方向性について紹介します。

01. はじめに

ディープラーニングの発展のおかげで、近年多くのコンピュータービジョンタスクが優れた結果を達成しています。しかし、既存のディープラーニングアルゴリズムのほとんどは、大量の手動でラベル付けされたトレーニングデータに依存する教師あり学習アルゴリズムであり、データのラベル付けには非常に労力がかかります。そのため、ディープラーニングのデータ依存の問題を解決し、データ注釈コストを削減することが、業界の研究のホットスポットとなっています。この記事では、関連分野の論文をいくつか選択し、半教師あり/弱教師あり学習、データ合成、能動学習、自己教師の方向性を紹介します。

02. 半教師あり学習/弱教師あり学習

半教師あり学習は、教師あり学習と教師なし学習を組み合わせた学習方法です。半教師あり学習/弱教師あり学習では、大量のラベルなしデータ/弱ラベル付きデータと少量のラベル付きデータを使用して機械学習モデルをトレーニングします。期待される結果は、ラベルなしデータ/弱くラベル付けされたデータのほとんどを利用することで、得られたモデルが、ラベル付けされたデータのみでトレーニングされたモデルよりも優れていることです。弱くラベル付けされたデータはデータラベル情報が少なく、ラベル付けが簡単です。たとえば、ターゲット検出タスクでは通常、ターゲットカテゴリと座標にラベルを付ける必要があります。弱くラベル付けされたデータは、座標情報なしで画像内のターゲットカテゴリのみにラベルを付けます。

論文[1]は半教師あり画像分類論文である。実験は主にMNIST、CIFARなどの手書き画像データセットで行われている。図1は、この論文の方法のアーキテクチャを示している。図に示すように、左上隅と左下隅はそれぞれラベルなしデータセット U とラベル付きデータセット L であり、中央のオレンジがかった赤色のモジュールは論文のニューラルネットワークであり、右側はデータスクリーニングモジュールです。プロセスは次のとおりです。まず、ラベル付きデータセット L を使用して初期モデル M1 をトレーニングし、次に M1 を使用してラベルなしデータセット U で推論を実行します。U 内の各画像には、分類結果と対応する信頼度 S が与えられます。 Sに基づいて、U内のサンプルがスクリーニングされ、より高い分類信頼度と対応する推論結果を持つサンプルU1がGTとして取得され、ラベル付けされたサンプルL = L + U1に追加され、モデルのトレーニングが継続されてM2が得られます。上記のプロセスが繰り返され、トレーニングセットの数が増え続け、モデルのパフォーマンスが徐々に向上します。最終的なモデル M は、L のみを使用してトレーニングされたモデル M1 よりもはるかに優れたパフォーマンスを発揮します。

図1

論文[2]は半教師あり学習と弱教師あり学習を文字レベルのテキスト検出に適用した論文です。アイデアは[1]と似ており、モデルを強化するために増分学習も使用しています。図 2 に示すように、事前トレーニング済みの文字セット検出モデルを使用して、左側のラベルなしデータセット U を推測し、検出結果 D を取得します。図 2 の中央の上部と下部のモジュールは、それぞれ半教師ありスクリーニングモジュールと弱教師ありスクリーニングモジュールを表しています。半教師ありモジュールは、信頼しきい値を通じて D 内の非標準検出ボックスを削除します。弱教師ありモジュールには「単語レベル」の注釈ボックス情報があるため、「単語レベル」の注釈ボックスにない文字検出ボックスは削除されます。次に、2 つのモジュールの出力を使用してモデルが再トレーニングされます。

図2

論文[3]は、検出ボックスの注釈情報を使用してセグメンテーションタスクを実行するGAN（生成的敵対的ネットワーク）論文です。図[3]に示すように、左側は検出ボックス情報を含む画像、中央はジェネレータ、右側は識別器です。図3の中央にある上側の枝は、元の画像の注釈ボックスの外側の背景領域を切り取り、下側の枝は元の画像から注釈ボックスの対象領域を切り取ります。中央のジェネレーターは、元の画像の注釈ボックス内にマスクを生成し、その後、マスクと上側の枝と下側の枝の2つの画像を組み合わせて偽の画像を作成します。識別器は、画像が本物か合成かを識別する必要があります。生成的敵対的アプローチを使用することで、最終的に優れたジェネレータセグメンテーションネットワークがトレーニングされ、プロセス全体ではセグメンテーション注釈情報の関与なしに、検出ボックス注釈情報のみを監視に使用します。

図3

03. データ合成

教師あり学習ではモデルがラベル付きデータに依存することを避けられないため、データを自動的に生成することも人件費を削減する方法の 1 つです。データを合成する方法は、手動でルールを設計したり、GAN ネットワークを使用して生成したりするなど、数多くあります。論文[4]では、テキスト認識タスクのために手動で設計されたルールに基づいた合成データ法が提案された。合成画像サンプルは、前景画像レイヤー、背景画像レイヤー、エッジ/シャドウレイヤーで構成されています。合成プロセスは 6 つのステップに分かれています。

フォントのレンダリング: フォントをランダムに選択し、テキストを前景レイヤーにレンダリングします。

境界線/影のレンダリング: 前景レイヤーのテキストなどからエッジシャドウを生成します。

ベースカラーリング: 3 つのレイヤーを色で塗りつぶします。

投影歪み: 前景と影をランダムに歪ませます。

自然なデータブレンディング: 画像を実際のシーン画像とブレンドします。

ノイズ: ガウスノイズなどを追加します。

図4

ドメイン適応とデータの合成に GAN を使用することも研究の方向性です。主な懸念事項としては、ソースドメインとターゲットドメイン間の外観と形状の類似性などがあります。論文[5]では、2種類の類似性を同時に考慮して敵対的な結果を生み出しています。

図5

04. アクティブラーニング

人間の学習プロセスと同様に、さまざまなサンプルはさまざまな方法で既存のモデルを改善するのに役立ちます。小学校の知識しか学習していない人にとって、中学校の知識のボトルネックを突破することは困難です。アクティブラーニングの出発点もこれに似ており、ラベル付けされていないデータセットからモデルの改善に最も役立つサブセットを選択し、手動でラベル付けを行うことです。したがって、同じ量のサンプル（同じラベリングコスト）にラベルを付ける場合、アクティブラーニング戦略を使用してトレーニング用のサンプルを選択するモデルが最適に近くなります。アクティブラーニングのプロセスを図 6 に示します。モデルは左側のラベル付きデータセットでトレーニングされます。モデルはラベルなしデータセットで推論され、注釈の重要性が高いサンプルは手動ラベル付けに送られます。その後、新しくラベル付けされたデータセットを使用してモデルを再トレーニングし、改善します。

図6

アクティブラーニングの分野では、ラベル付けされていないデータがモデルの改善にどのように役立つかを定義する指標には、不確実性、差異、多様性が含まれます。不確実性とは、サンプルについての推論における既存モデルの信頼性が十分に高くないことを意味し、多様性とは、新しいサンプルとラベル付けされたデータセット内のサンプルの違いを指し、多様性は、新しいサンプルが十分に多様であることを強調します。分類問題では、論文[6]は分類タスクにおける能動学習プロセスであり、入力画像に対するモデルが生成したパッチ予測の分散と不確実性によって測定されます。論文[7]では、検出タスクにおける検出ボックスの信頼度は分類の信頼度のみを表し、位置の信頼度は含まれていないことを強調しています。そのため、位置の信頼度は、2段階検出器におけるRPNと最終出力ボックスの差（図7）、およびデータ拡張後の検出ボックスと元の画像の検出ボックスの差など、検出ボックスの品質の評価を補完するために提案されています。

図7

論文[8]では、既存の能動学習モデルのほとんどがタスク固有のものであることを指摘し、タスクに依存しないサンプル選択戦略を提案し、分類や検出などのタスクで実験的に検証しています。図 8 に示すように、この論文では、ラベルなしデータセットの損失を予測するためにメインタスク学習ネットワークに追加できる損失予測ブランチを提案しています。予測損失が大きいサンプルは、モデルがそれらについて高い不確実性を持っていることを示しています。トレーニングフェーズ中の損失予測ブランチの監視情報は、メインタスク学習ネットワークの損失です。

図8

05. 自己監督

自己教師あり学習は教師なし学習の一種であり、最近学界で話題になっています。ラベルのないデータの構造や特性を利用して、ネットワーク学習を監視するためのラベルを人工的に構築します。通常、自己教師学習モデルはターゲットタスクに直接適用されるのではなく、下流のタスクの事前トレーニングモデルとして使用されます。論文[9]は自己教師あり学習における新たな展開である。この論文の方法を用いて得られた教師なしモデルは、多くの下流タスクにおいて教師あり学習を用いて微調整された事前学習済みモデルよりも優れている。図9(c)はMoCoのアルゴリズム図であり、(a)と(b)は従来の関連手法を表しています。

対照学習は MoCo の出発点であり、入力サンプルに対してデータ拡張を実行して拡張セットを取得します。次に、図では、左側のエンコーダーが y を入力し、右側のエンコーダーが y または y を入力します (y は他のサンプルとは異なります)。ネットワークは対照損失を通じて最適化され、同じサンプルソースからの入力に対しては同様の特徴をエンコードし、異なるサンプルソースからの入力に対しては異なる特徴をエンコードします。このプロセスには 2 つの重要なポイントがあります。計算量が大きすぎると計算リソースがそれを許可しなくなります。右側のエンコーダーによって抽出された特徴 k は、可能な限り最新のエンコーダーによって取得される必要があります。図 9 (a) では、ミニバッチ内の 1 つのサンプルをとして、残りのサンプルをそれぞれとして使用しています。各ミニバッチ内の k が最新のものであるという利点がありますが、k の数が少なすぎてミニバッチによって制限されるという欠点があります。図9(b)は、すべてのサンプルをエンコードしてメモリバンクに保存し、定期的に更新します。kの数を無制限にできるという利点がありますが、欠点は、特徴が必ずしも最新のものではないという点です。 MoCo はキューに格納された特徴を使用し、最新のサンプル特徴をキューに送信し、キューの最後にある特徴を削除します。キューのサイズは制御可能で、k は基本的に最新の期間にエンコーダによって抽出されます。

図9

06. 結論

データのラベル付けコストの削減は、ディープラーニングの分野では避けられない研究課題となっています。一方では、データを合成し、機械がデータに自動的にラベル付けできるようにすることは、深く探求する価値のある方向性です。他方では、ニューラルネットワークのデータ依存性を減らしたり、モデルがデータ自体の本質的な構造を認識できるようにすることも特に重要です。業界関係者の中には、データ抽出が人工知能の次なるブレークスルーになるかもしれないとさえ考えている人もいます。

<<: LSTM ニューラルネットワークを使用して株価の動向を予測する

>>: 清華特別賞：AIを使って甲骨文字を鑑定する人もいれば、6Gを研究する人もいれば、オリンピックチャンピオンの楊倩もいる