この 13 年間の深い測定学習は無駄になったのでしょうか?

この 13 年間の深い測定学習は無駄になったのでしょうか?

おそらく、どの分野においても、頭を下げて突き進むことと同じくらい、立ち止まって考えることが大切なのでしょう。

[[326375]]

メトリック学習は、学習が非常に効率的であるメトリック空間を学習することです。この方法は、小規模なサンプルの分類には有効ですが、回帰学習や強化学習などの他のメタ学習分野では、メトリック学習法の有効性はまだ検証されていません。

顔認識や指紋認識などのオープンセット分類タスクでは、カテゴリの数は多いものの、クラス内のサンプル数は比較的少ないことがよくあります。この場合、ディープラーニングに基づく分類方法には、クラス内制約の欠如や分類器の最適化の難しさなど、いくつかの制限が見られることがよくあります。これらの制限は、ディープ メトリック ラーニングを通じて解決できます。

「過去 4 年間、ディープ メトリック学習の分野の論文では、精度の大幅な向上が定期的に報告されており、通常は 10 年前の手法の精度の 2 倍以上になっています。」私たちは本当にこのような驚くべき進歩を遂げたのでしょうか?

最近、Facebook AIとコーネル工科大学の研究者らが、プレプリントプラットフォームarXivに最新の研究論文を発表し、過去13年間のディープメトリック学習の分野における研究の進歩は「実際には存在しない」と主張した。

論文リンク: https://arxiv.org/pdf/2003.08505.pdf

研究者たちは、これらの計量学習に関する論文には、不公平な実験比較、テストセットのラベル漏洩、不合理な評価指標など、実験設定に多くの欠陥があることを発見しました。そこで彼らは、計量学習の分野における複数の研究を再検討するための新たな評価方法を提案した。最後に、彼らは実験を通じて、既存の論文で主張されている改善は実際には「無視できるほど小さい」ものであることを示しました。ArcFace、SoftTriple、CosFace など、近年の 10 個のアルゴリズムは、13 年前の Contrastive および Triplet ベースライン メソッドと比較して、大幅な改善は実現していません。

つまり、論文で主張されている改善点は増加しています。

しかし、実際の状況は停滞しています。

以前の論文の欠点は何ですか?

1. 不公平な比較

新しいアルゴリズムのパフォーマンスが既存の方法よりも優れていると主張するため。できるだけ多くのパラメータを一定に保つことが重要です。これにより、パフォーマンスの向上が追加のパラメータではなく、新しいアルゴリズムによるものであることが保証されます。しかし、既存のメトリック学習論文ではそうではありません。

精度を向上させる最も簡単な方法の 1 つは、ネットワーク アーキテクチャを最適化することですが、これらの論文ではこの基本パラメータを固定していません。メトリック学習におけるアーキテクチャの選択は非常に重要です。小さいデータセットの初期精度は、選択したネットワークによって異なります。 2017 年に広く引用された論文では ResNet50 が使用され、パフォーマンスが大幅に向上したと主張されています。これは疑問視される点です。なぜなら、比較には GoogleNet が使用されており、初期の精度がはるかに低かったからです (表 1 を参照)。

2. テストセットフィードバックによるトレーニング

この分野のほとんどの論文では、各データセットを分割し、クラスの最初の 50% をトレーニング セットとして使用し、残りをテスト セットとして使用します。トレーニングプロセス中、研究者はテストセット上のモデルの精度を定期的にチェックします。つまり、検証セットはなく、モデルの選択とハイパーパラメータの調整はテストセットからの直接のフィードバックを通じて行われます。一部の論文では、パフォーマンスを定期的にチェックするのではなく、事前に設定された回数のトレーニングを反復した後の精度を報告しています。この場合、反復回数は決定されず、ハイパーパラメータはテスト セットのパフォーマンスに基づいて調整されます。この慣行は機械学習研究における基本ルールに違反しています。トレーニングにテスト セットからのフィードバックに依存すると、テスト セットの過剰適合につながる可能性があります。したがって、メトリック学習論文に記載されている精度の継続的な向上は疑問視されることになります。

3. 一般的に使用される精度指標の欠点

精度を報告するために、ほとんどのメトリック学習論文では、Recall@K、正規化相互情報量 (NMI)、および F1 スコアが使用されています。しかし、これらは本当に最良の指標なのでしょうか? 図 1 は 3 つの埋め込み空間を示しています。それぞれ特性が異なりますが、各 Recall@1 スコアは 100% に近く、この指標は基本的に有益ではないことを示しています。

新しい評価方法

上記の欠陥により、計量学習の分野に「偽りの繁栄」が生じています。そこで研究者らは、損失関数を適切に評価することを期待して、新たな評価方法を提案した。これを実現するために、彼らは次のことを設定しました。

1. 公正な比較と再現

すべての実験は PyTorch で実行され、ImageNet を使用して BN-Inception ネットワークを事前トレーニングしました。過剰適合を減らすために、トレーニング中に BatchNorm パラメータをフリーズします。バッチサイズは 32 に設定されています。

トレーニング中、ランダムなサイズ変更の切り抜き戦略によって画像の拡張が行われます。すべてのネットワーク パラメータは、学習率 1e-6 の RMSprop を使用して最適化されます。損失関数を計算する前と評価中に、埋め込みは L2 正規化されます。

2. クロスバリデーションによるハイパーパラメータ探索

最適な損失関数のハイパーパラメータを見つけるために、ベイズ最適化を 50 回繰り返し実行しました。各反復には 4 段階のクロス検証が含まれていました。

クラスの前半はクロス検証に使用され、4 つのパーティションが作成されます。上位 0 ~ 12.5% が最初のパーティション、12.5 ~ 25% が 2 番目のパーティション、というように続きます。

後半はテスト セットとして使用されます。これは、以前の論文の結果との比較を容易にするために、メトリック学習論文で長年使用されてきたのと同じ設定です。

ハイパーパラメータは、平均検証精度を最大化するように最適化されます。最適なハイパーパラメータを得るために、各トレーニング セット パーティションの最高精度チェックポイントがロードされ、テスト セットの埋め込みが計算され、L2 正規化されてから、精度が計算されます。

3. より有益な精度指標

研究者らは、平均平均精度と R 精度の考え方を組み合わせた R での平均精度 (MAP@R) を使用して精度を測定しました。

R 精度の弱点は、正しいランク取得を考慮していないことです。そのため、本研究ではMAP@Rを使用しました。 MAP@R の利点は、Recall@1 よりも情報量が豊富であることです (図 1 を参照)。クラスタリング手順を必要とせずに埋め込み空間から直接計算でき、理解も容易です。適切にクラスター化された埋め込みスペースに報酬を与えます。

実験

1. 損失とデータセット

研究者らは、複数の会議論文(表6参照)から近年メトリック学習の分野で提案された先進的な手法を選択し、11種類の損失と1種類の損失+マイナーの組み合わせで実験を行った。

これまで、計量学習の分野の論文には検証損失に焦点を当てた内容がなかったため、この研究ではこの点に関して 2 つの損失が追加されました。

研究者らは、メトリック学習の分野で広く使用されている 3 つのデータセット、CUB200、Cars196、Stanford Online Products (SOP) を選択しました。これら 3 つのデータセットを選択することにより、以前の論文との比較も容易になります。表 3-5 は、トレーニング実行の平均精度と、該当する場合は 95% 信頼区間を示しています。最高の平均精度は太字の値で表されています。事前トレーニング済みモデルの精度も含まれており、モデルの埋め込み値は PCA を使用して 512 または 128 に削減されます。

2. 紙と現実

まず、論文の結果の全体的な傾向を見てみましょう。図4(a)は、この分野での「期待された」精度の向上を示しています。つまり、新しい方法によって古い方法が完全に排除されたということです。

しかし、図4(b)に示すように、実験結果は期待と一致していません。

研究者らは、これらの論文が、対照損失とトリプレット損失という 2 つの従来の方法に対する改善点を誇張して主張していることを発見しました。多くの論文では、その方法の性能がコントラスト損失を 2 倍以上上回り、トリプレット損失よりも 50% 以上高かったと述べられています。これらの改善は、これらの損失によって精度が非常に低くなったことに起因しています。

このデータの一部は、2016 年の Lifting Structured Loss 論文から引用したもので、対照損失とトリプレット損失の実装において、バッチごとに N/2 サンプル ペアと N/3 サンプル トリプレットをサンプリングしています (N はバッチ サイズ)。したがって、各バッチではデータのごく一部のみが使用されました。

トリプレットのマージンを 1 に設定しましたが、最適値は約 0.1 です。これらの実装上の欠陥にもかかわらず、ほとんどの論文では、より意味のあるベースラインを得るために損失の独自の実装に頼るのではなく、単にこれらの低い数値を引用しています。

これらのベースライン損失によって示される適切な実装、公平な競争条件、および機械学習の実践により、図 4(b) に示すトレンド グラフが得られます。実際、このグラフは滑らかであるように見えます。これは、さまざまな方法のパフォーマンスが 2006 年と 2019 年の両方で同様であることを示しています。つまり、計量学習アルゴリズムは論文で主張されているほど進歩しておらず、論文で言及されていない最先端の論文も疑問視されている。

過去 10 年間の研究への投資は無駄になったのでしょうか?

この論文が発表された後、多くの人が「メトリック学習はボトルネックに達したのか?この研究の方向性を今後も進めるべきなのか?」と議論しました。

最初の質問に対する答えは「はい」であり、2 番目の質問に対する答えも「はい」です。

中国科学院計算技術研究所の博士課程の学生で知乎のユーザーでもある王金東氏は、「圧倒されたり、他者を攻撃したり、この分野の将来に失望したりする必要はない」と考えている。

実際、どんな分野も長い発展の期間を経て、必ず過去を振り返って反省する研究者が出てくるものです。学術研究でもこの法則が当てはまります。「やり過ぎると、なぜ始めたのかを忘れてしまう」

画像出典:Zhihu @ 王進東は家にいません。 https://www.zhihu.com/question/394204248/answer/1219383067

また、ディープ メトリック ラーニング分野の研究者であり、CVPR 2019 論文の第一著者でもある人物もこの質問に答えるためにやって来て、自身の研究プロジェクトの紹介の冒頭にこの論文を置き、「この分野で働いている人たちにこの論文を見てもらい、この分野に不慣れな人たちを正しい方向に導いてほしい。私自身も以前、このような落とし穴に陥ったことがあるから」と願っていました。

画像出典: Zhihu@Wang Xun。 https://www.zhihu.com/question/394204248/answer/1219001568

質問は議論につながり、議論は反省につながります。止まった後に考えることは、道路を急ぐことと同じくらい重要です。あなたの分野でもそのような議論があったことはありますか?

参考リンク: https://www.zhihu.com/question/394204248

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  機械学習: バッチ正規化を使用する場合の欠点は何ですか?

>>:  ビッグデータは私たちを新たな AI の冬に引きずり込むのか?

ブログ    
ブログ    
ブログ    

推薦する

レノボグループが従業員の払い戻しの内部監査を実施できるようRPAロボットを導入

数万人の従業員を抱える大企業にとって、従業員の払い戻しに関する内部監査の難しさは想像に難くありません...

...

海外メディア:マスク氏はxAIがOpenAIに勝つと夢想しているが、わずか11人の研究者に頼るのは難しすぎる

7月13日、イーロン・マスク氏が新たに設立した人工知能企業xAIは、「宇宙を理解する」ことができ、O...

人工知能と人間の思考の類似点と相違点

人間の思考(合理性や心を含む)とはいっ​​たい何なのかという問いは、哲学者や科学の巨匠たちを常に悩ま...

「ビッグデータが古い顧客を殺す」といった混乱が顕著になる中、どのような「アルゴリズム」が必要なのでしょうか?

次のような経験をしたことはありませんか。求人検索サイトで仕事の希望に関するアンケートに答えると、サイ...

2019年ディープラーニングフレームワークランキング(トップ10からトップ3まで)

【51CTO.comオリジナル記事】 1. 前に書く5Gは2019年上半期の輝く「星」と言えるが、...

人工知能によりデータセンターのコストと制御ニーズが増加

人工知能 (AI) はコンピューティングとデータ分析の世界を変えています。機械学習、自然言語処理、コ...

アルゴリズム問題の分析プロセス

[[384555]]トピックを理解する最近アルゴリズムの問​​題をたくさん見ていますが、小さな問題を...

人工知能の長所と短所をどのように見ていますか?

人工知能は、人間の生活に強固な物質的基盤を築くだけでなく、より多くの人々を単純で退屈な反復作業から解...

肖像情報セキュリティには「内部と外部の共同管理」が必要

防疫期間中、マスクの着用は人々の日常の外出に必須の装備となった。マスク着用者の顔認識技術が実際に活用...

...

対称暗号化、非対称暗号化、ハッシュアルゴリズムについてお話ししましょう

[[327803]]対称暗号化対称キー暗号化とは何ですか?対称暗号化は、対称暗号コーディング技術を...

NLP を上手に使いこなすには、適切な「武器」が必要です。GLUE で 1 位にランクされている武器をご存知ですか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

拡散モデルを使用してビデオを生成することもでき、その結果は非常に印象的です。新しいSOTAが達成されました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2021年4月のロボット工学分野の重要な動向の概要

ポスト疫病時代において、国内ロボット市場は急速に発展しました。一方、ロボット工学の分野は好調な勢いを...