もう一つの(深層)学習:自己教師あり学習は次の大きなものになるでしょうか?

もう一つの(深層)学習:自己教師あり学習は次の大きなものになるでしょうか?

自己教師あり学習入門

[[251602]]

確かに、ディープラーニングは、特に画像認識タスクにおいて、機械学習をある程度変えました。 2012 年、Alex-net はコンピューター ビジョンのタスクを解決するか、少なくとも大幅に改善するための (まだ終わっていない) コンテストを開始しました。基本的な考え方は非常にしっかりしているものの (あらゆるものにディープ ニューラル ネットワークを使用する)、研究者たちは非常に異なるアプローチを採用しました。

  • モデル アーキテクチャを最適化してみてください。
  • プログラムの最適化など、トレーニング プランの最適化を試みてください。
  • 順序、サイズ、種類などのデータを最適化してみてください。

これらの研究経路はそれぞれ、トレーニングの質(速度、精度、場合によっては一般化)を向上させますが、同じことを行うと漸進的な改善にはつながるものの、大きな進歩にはつながらないようです。

一方、深層学習に関する研究が増え続けるにつれ、現在のアプローチには、特に一般化の面で大きな欠陥があることが明らかになっています。たとえば、オブジェクトが回転すると一般化が失敗するという最近の研究結果があります。

したがって、より積極的な改善が必要であると思われます。あるいは、よりリスクの高い可能性のある分野に研究の範囲を拡大するかもしれません。

上記の方法に加えて、変更を試みる他の指示がいくつかあります。

  • Nクラスのワンショット学習
  • 半教師あり学習
  • ドメイン適応
  • 自己教師学習

これらのアプローチは、多少異なるトレーニングパラダイムを採用し、より創造的になることを試みたり、人間のようなパターンを模倣したりします。上記の方法(およびその他の方法)が大きな進歩を遂げたという証拠はまだ見つかっていませんが、非常に重要な結果が得られており、トレーニング プロセスについても多くのことを教えてくれます。

この記事では、最も興味深いアプローチのいくつかについて説明します。そのいくつかは、実際に実行されており、それを「さまざまな種類の (ディープ) 学習」と呼んでいます。私は決してディープラーニングの将来の発展を予測するつもりはありませんが、注目されていないかもしれない最近の興味深い研究をいくつか紹介したいと思います。読者にとって、いくつかの目的のみを提供する場合があります:

  • 知らなかった作品を知るのも面白いかもしれません。
  • 仕事に新たなアイデアが浮かぶかもしれません。
  • ディープラーニングにおける、これまで理解できなかった論理的な部分やタスク間の関係性などを学ぶことができます。

このシリーズの最初の部分では、私がこのシリーズを書く主な動機の 1 つである自己教師学習について説明します。

自己教師学習

Web を検索し、遭遇するすべての画像からシームレスに学習するエージェントがあると想像してください。このコンセプトは非常に興味深いものです。なぜなら、これを実装できれば、ディープラーニングの最大の障害である注釈付きデータが(部分的に)取り除かれることになるからです。

しかし、どのようにでしょうか? もともとはテキストで提案されたもので、人間によって適切に構築されているため、注釈なしでそこから学習できる概念が多数あります。次の単語/前の単語を予測することは、単語の埋め込みや言語モデルのタスクで行われるような顕著な例です。

視覚においては、このようなトリックはもう少し複雑です。なぜなら、視覚データ (画像やビデオ) は人間によって明示的に作成されるわけではないからです (もちろん、写真家の中には、写真を撮る際にある程度の思考を凝らす人もいます)。しかし、すべてのビデオ、ましてやすべての画像が、信号を抽出できる何らかの論理構造を持っているわけではありません。

これは、教師なし学習の別の形式ではないでしょうか? 確かにそうですが、特別な微妙な点があります。タスクは教師あり (分類など) であるため、効果的な注釈は作成されません。このトピックは私のお気に入りであり、すぐにこの記事の主題になりました。これがディープラーニングにおける最高の成果につながるかどうかは保証できませんが、素晴らしいアイデアが生まれたことは確かです。

これらのタスクは自己教師学習と呼ばれます。異なるラベル、キャプション、またはタイトルが付いた画像を意味する「弱い注釈」とは異なり、自己教師タスクでは注釈ではなく画像自体が考慮されます。注釈のない画像から何がわかるのか知りたい方は、お楽しみに。

では、早速、自己監督の分野からのアイデアをいくつか見てみましょう。

カラー化

おそらく、画像の中で最も直感的な信号は色です。ほとんどのコンピュータ化されたカラー表現には 3 つのチャネルがありますが、1 つまたは 2 つを注釈としてシームレスに使用できます。

古い画像をカラー化するのは興味深い作業なので、それを扱った作品は数多くあります。ただし、完全に自動的なカラー化(自己教師ありとして適格)を考慮すると、数値はかなり減少します。

この場合のカラー化タスクは「クロスチャネル エンコーダー」として形成されます。つまり、画像内の 1 つの (またはいくつかの) チャネルが他のチャネルのエンコードに使用されます。この概念については、後の記事でさらに詳しく説明します。

最も目を引く塗り絵は、リチャード・チャンとアレクセイ・エフロスがデザインしたものです。

シェーディング タスクに対処する一般的な方法は、標準の RGB エンコーディングではなく、Lab カラー スペースを使用することです。 Lab カラー スペースでは、L は明度 (白黒の強度) を表し、ab チャネル (a - 緑から赤、b - 青から黄色) を予測するために使用されます。

ラボコードカラーリング

これから説明するすべてのタスクでわかるように、自己教師あり学習はディープラーニングで慣れているほど簡単ではありません。一部のアーティファクトは、モデルが設計目標を達成するのを妨げます。さらに、トレーニングが慎重に検討されていない場合、モデルが「ショートカット」を作成し、他のタスクへの一般化が妨げられることがあります。

カラー化タスクの課題は次のとおりです。

1. 色付けにおける固有の曖昧さ:一部の画像では、複数の色付けが可能であることは明らかです。この問題により、トレーニングと評価中にいくつかの問題が発生します。

下のドナルド・トランプの画像では、カーテンの色は赤や青(その他多数)である可能性があります。ドナルドのネクタイはマッチする(またはマッチしない)ことができます。データセット内のネクタイとカーテンのさまざまな例が与えられると、モデルはそれらを平均化し、これらのアイテムを灰色にする傾向があります。

解決策: Zhang 氏の論文では、研究者は色付けを回帰問題ではなく分類問題として扱いました。彼らのモデルは、特別な損失関数を使用するだけでなく、画像の実際の色ではなく確率分布レイヤーを予測し、これらの確率を Lab 空間で利用可能な 313 色のいずれかの色に変換します。

2. 偏り:実験室は均一に分散された空間ではありません。ほとんどのソリューションは、雲や路面などの頻度が高いため、低い値になる傾向があります。

解決策:この問題を解決するために、損失関数の再重み付けが行われます。

3. 評価の問題:これで、モデルは正しい異なる回答を予測できるようになりました。たとえば、グラウンド トゥルースが青でモデルが赤を選択した場合、標準評価では間違っていると見なされます。

解決策:次のようなさまざまな評価方法を使用します: 人間による事後分類 - 実際の画像と機械で色付けされた画像を比較して分析するよう人間に依頼する「色付けチューリング テスト」。さらに、画像は画像分類器に送られ、その結果が実際の画像と比較されます。

このモデルはカラー化チューリングテストで 35% のスコアを獲得しました。これはそれほど悪くありません。

この画像では、機械で着色された犬は元の犬よりもリアルに見えます

最近の別の論文では、Larson らは Zhang および Efros (2 つの論文は相互に言及している) と共同で、空間的に局所化された多層スライス (ハイパーコラム) と回帰損失を使用しました。彼らは、色のヒストグラムを予測し、そこからサンプリングすることで、曖昧さの問題を克服しようとしました。

この研究では、LAB 空間の使用に加えて、「HSV」色空間に関連する色相/彩度属性の予測も試みています。

コンテクスト

色の予測の次に明白な(しかし創造的な)タスクは、画像の構造を学習することです。より正確には、画像切り抜きの内容を予測しようとします。

このタスクは word2vec から直接インスピレーションを得たもので、おそらく画像の「スキップ グラム」と呼ぶことができるでしょう。

ただし、テキストでは、単語数は語彙のサイズに制限され、100 万を超えることはできません。画像パッチはピクセル単位で完成しますが、より広い空間に存在します。これは GAN にも当てはまると言う人もいるかもしれませんが、

実際には正しい解決策はたくさんあるので、一般化するのは難しいです。

GAN については次のセクションで説明します。

このパラダイムでは、実際のタスクは自然には現れません。研究者はモデルが解決するための「ゲーム」を考え出す必要があります。たとえば、いくつかの顕著な例を挙げます。

スプライシングコンテキスト

パッド入りのパッチはうまく一般化されていないようだったので、研究はジグソーパズルのようなタスクに変わりました。最初のものは、Doersch 氏と Efros 氏の研究です。画像からパッチが切り取られ、その関係を分類するようにモデルがトレーニングされます。例を挙げて簡単に説明しましょう。

色付けと同じように、この作業は簡単ではありません。具体的には、モデルは「近道」を見つけています。つまり、高レベルの特徴とその関係を実際に学習するのではなく、エッジや照明の関係など、特定の低レベルの特徴を学習する場合があります。これは多くの場合、画像セクションを示唆します。

これを修正するために、研究者はパッチにディザリングを適用しました (画像を参照)。

研究者たちが抱えていたもう一つの問題は、モデルがスポットの位置を、照明のアーティファクト(色収差)をモデル化して予測していたことだ。つまり、一部のカメラでは、画像のさまざまな部分で色の分布が異なります。解決策: これは、緑とマゼンタを灰色に変換するなど、色変換によって部分的に処理されます。

次に目立った結果は、Noroozi 氏と Favaro 氏によるこの論文です。この論文では、さらに難しい問題に取り組み、9 つの部分からなるパズル全体を解きましたが、はるかに優れた結果が得られました。

研究者らは、パッチの適切なシャッフルの検証を適用し、画像ごとに複数のシャッフルを実行しました。

コンテキストエンコーダ

前述のように、word2vec はテキスト内の欠落している単語を埋めます。 ビジョンにはそのような試みがあるのでしょうか? 実際、あります。この論文では、Pathak ら (そしてもちろん Efros) が、画像上の切り取られたスペースを埋めるためにいくつかのオートエンコーダ モデルを試しました。

実際にそれが可能であることが判明しました。特に、敵対的損失の追加により、複数のモダリティの処理がうまく回避され (前述のとおり)、「平均化された」結果がぼやけるのを防ぐことができます。

回転

次のレベルの話に進む前に、回転予測について少し触れておきたいと思います。この論文では、画像の回転を予測するための革新的なアプローチを採用しています。

創造的であることに加えて、回転予測は比較的高速であり、些細な特徴の学習を克服するためにこれまでに見た他のタスクのように事前の考慮を必要としません。

この論文では、ネットワークが画像の重要な部分(頭、目など)にどのように焦点を合わせているかを示す「注意マップ」についても検討しています。

ImageNet 分類への転移学習に関する最先端の結果を報告している一方で (他のほとんどの研究は Pascal に関連していました)、査読者は論文にいくつかの欠陥を発見したため、いくつかの措置を講じる必要があります。

一般化

では、このすべての作業を経て、私たちは何を得たのでしょうか? 確かに、白黒画像をカラー化するのは良いことですし、ジグソーパズルを解くのは楽しいデモ アプリケーションかもしれませんが、より大きな目標は、主なタスク、特に分類、検出、セグメンテーションでより良い結果を達成することです。

最も一般的なベンチマークは VOC Pascal データセットであり、ImageNet で事前トレーニングした場合の最先端のデータは次のとおりです。

現在の結果は次のとおりです。

テスト結果

まあ、まだそこには至っていないようですね。自己教師データの量は事実上無制限ですが、「古典的な」Imagenet ベースの転移学習の結果に挑戦する研究はまだ行われていません。特定のタスクに関する優れた結果については、後の記事で説明します。

上記のタスクに対する標準的な一般化に加えて、研究者はこのタスク セットの特定の機能を使用して、画像クラスタリング (最近傍法、ビジュアル データ マイニングなど) などの他の多くのタスクへの一般化を試みてきました。

要約する

次の大きなステップは自己教師あり学習から生まれるのでしょうか? そうなるかもしれませんし、そうでないかもしれません。しかし、これらのさまざまなアプローチを探求することで、ディープラーニングの分野が大幅に改善され、間接的に実際のブレークスルーにプラスの影響を与える可能性があると私は信じています。次の投稿では、興味深く斬新な結果につながるアイデアや方法をさらに学びます。

<<:  マイクロソフト、機械学習モデル向けの高性能推論エンジン ONNX をオープンソース化

>>:  2019年、AI技術は製造業が小さな努力で大きな成果を達成するのを助けるだろう

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

機械学習は言語から意味を抽出するのにまだ苦労している

私たちは幼児期から言語を吸収し始めます。簡単な単語は1年目か2年目に出てきます。 6 歳までに語彙は...

目の反射神経が 3D の世界を開き、ブラック ミラーを実現します。メリーランド州出身の中国人による新作がSFファンを熱狂させる

「唯一の真の発見の旅は、未知の土地を訪れることではなく、他人の目を通して宇宙を見ることだ。」 - マ...

...

「自由に眠る」にはヘッドバンドを着けるだけ | Nature サブ出版物

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能応用シナリオのレビューと展望

2020 年は特別で忘れられない年であり、人工知能にとっても同じことが言えます。 [[374502]...

人間の動作生成を再構築し、拡散モデルと検索戦略を統合した新しいパラダイム、ReMoDiffuseが登場

人間の動作生成タスクは、エンターテインメント、仮想現実、ロボット工学などの分野のニーズを満たす、リア...

自動運転データの所有権をめぐる戦い

次のようなシナリオを想像してください。 あなたはレベル3の自動運転機能を備えたAudi A8を所有し...

3つの興味深い写真: 負荷分散アルゴリズムの改善が必要

図1: 負荷分散アルゴリズムの改善が必要[[91541]]図2: 開発者対テスター、非常に奇妙な図[...

2022年、AIネットワーク管理が信頼を高める

米国で売上高最大のソーセージブランドであるジョンソンビルソーセージのグローバルネットワークオペレーシ...

2018 年に最も人気のあるディープラーニング フレームワークはどれでしょうか?この科学的なランキングからわかることは

ディープラーニングは、機械学習の分野で最も注目されているテクノロジーです。ディープラーニング フレー...

...

わずか数行のコードで最初のウェブアプリを作成

データ サイエンス プロジェクトの展開は、データ サイエンティストと機械学習エンジニアの両方に必要な...

クアルコムとインテルはAIをデータセンターから移行したいと考えている

これまで、AI への投資のほとんどは、大規模なデータセンター内でテクノロジーを実行することに重点を置...

【WOT2018】4人の重鎮専門家が企業ビジネスにおけるNLPの詳細な応用を分析

[51CTO.comより引用] 2018年11月30日から12月1日まで、WOT2018グローバル人...