水注入、ピット占拠、ナンセンス:機械学習の学術界における「疑似科学」

水注入、ピット占拠、ナンセンス:機械学習の学術界における「疑似科学」

[[236693]]

ビッグデータダイジェスト制作

翻訳者:張秋月、郝貴儿、倪倩、飛、ヴァージル、銭天培

最近の機械学習界隈は少々混乱しています。

今年のNIPSでは記録破りの8,000件の応募があった一方で、Fei-Fei Li氏やKerasフレームワークの作者であるFrançois Chollet氏などの大物たちは、機械学習の開発がボトルネック期に入ったことを認めた。

これを受けて、カーネギーメロン大学のザカリー・C・リプトン教授とスタンフォード大学のジェイコブ・スタインハート教授が共同で「機械学習研究における憂慮すべき傾向」と題する論文を発表しました。

彼らは、機械学習界には「疑似科学」的な現象が多すぎると容赦なく指摘しました。

文在寅氏がこの記事を翻訳した。近年の機械学習界で何が起こったかを見てみましょう。

1. はじめに

機械学習 (ML) の研究者は協力して、データ駆動型アルゴリズムに関する知識を作成し、普及させます。研究者が書く論文では、何が学べるかを理論的に説明する、厳密な実験を通じて理解を深める、予測精度の高いシステムを構築する、といった目標のいずれかを達成しようとすることがあります。

どのトピックを調査するかを決めるのは主観的かもしれませんが、トピックが確立されると、論文は(客観的に)読者のニーズに基づいて構築され、基礎知識が構築され、それを可能な限り明確に表現することで、最も価値のある学術的貢献をすることができます。

どのような論文が読者にとって最も役立つでしょうか? そのような論文が満たす必要のある条件を列挙してみましょう。これらの論文には次のことが求められます。

  • 読者が直感に基づいて理解できるように支援しますが、直感的な説明と証拠によって裏付けられたより強い結論を区別します。
  • 代替仮説を検討し排除した実証的調査について説明する[62]
  • 理論的分析と直感的または経験的主張との関係を明らかにする[64]
  • 読者の理解を助けるために適切な言葉を使用し、誤解を招くような、または根拠のない概念の意味合い、他の定義との矛盾、または他の関連しているが異なる概念との混同を避けるために用語を選択してください[56]。

機械学習は絶えず進歩していますが、これらの進歩は理想的な目標から外れることがよくあります。この記事では、ML 研究における次の 4 つの逸脱に焦点を当てます。

  • 説明と推測を区別できない。
  • 実験上の成果の源を特定できないこと。例えば、成果が実際にはハイパーパラメータの調整によるものであるにもかかわらず、ニューラル ネットワーク モデル アーキテクチャへの不必要な変更によるものとして強調してしまうことなどです。
  • 数学の誤用: 概念を明確にするという望ましい効果を達成せずに、数学を混乱させる方法または過度に表現的な方法で使用すること。例: 技術的な概念と非技術的な概念を混同する。
  • 言語の誤用。たとえば、口語的な意味合いを持つ専門用語を選択したり、既存の専門用語を過剰に使用したりすること。

こうした傾向の理由は不明ですが、ML 学術コミュニティの急速な拡大、その結果として査読者の不足が深刻化していること、学術研究と短期的な成功の尺度 (引用、注目度、起業機会など) の間のインセンティブがしばしば不一致であることなどが要因となっている可能性があります。各モデルには程度の差はあるものの、それに応じた解決策がありますが、私たちはこの問題を全体として議論し、学術界がこれらの傾向にどのように対応すべきかについて、未熟な提案をいくつか提示したいと思います。

機械学習の影響が拡大するにつれ、研究論文は学生、ジャーナリスト、政策立案者など、より幅広い読者に届くようになっています。研究論文によって研究の進歩が加速し、新しい研究者の研修期間が短縮され、より正確な情報を明確に伝えることで公共の議論においてより建設的な役割を果たすことができることを願っています。

学術研究の漏洩は一般大衆を誤解させ、機械学習の知識の基盤を損ない、将来の研究を妨げる可能性があります。実際、これらの問題の多くは、AI の歴史の中で、そしてより一般的には科学研究の世界で、何度も何度も繰り返されてきました。

1976年、ドリュー・マクダーモット[53]はAIコミュニティが自己規律を放棄していると非難し、「もし我々が自分自身を批判しなければ、遅かれ早かれ誰かが我々に代わって批判するだろう」と予言的に警告した。同様の議論は1980年代から1990年代にかけて繰り返された[13,38,2]。心理学などの他の分野では、実験基準の低さが学問の権威に対する国民の信頼を損ねている。[14]機械学習の現在の力は、理論的な[22、7、19]と実験的な[34、25、5]の両方における、今日までの広範かつ厳密な研究によるものです。明確な科学的思考とコミュニケーションを促進することで、学術コミュニティが現在享受している信頼と投資を、今後も維持することができます。

2. 声明

この記事で取り上げた事例のほとんどは、機械学習界の上級研究者によるものです。新参者には私たちの質問に答えたり反論したりするための平等な手段がないことを考慮して、彼らの作品についてはあまりコメントしません。

3. 懸念される傾向

以下の各サブセクションでは、(1)傾向を説明し、(2)対応する例(肯定的なものも否定的なものも)をいくつか示し、(3)その結果を説明します。個々の論文の弱点を指摘することはデリケートな問題となる可能性があるため、その影響を最小限に抑えるために、例は短く具体的にしました。

1. 説明と推測

新しい分野の研究では、明確な知的視点にまだまとまっていない直感に基づいた探索が伴うことがよくあります。私たちは、推測を、厳密な科学的精査を受けていない可能性のある直感的な理解を著者が伝える手段であると認識しています。しかし、論文の中には、説明を装って実際には推測であるものを提示するものも多く、科学論文の厳密さや著者の専門知識に対する評判により、こうした推測は権威あるものとみなされることもあります。

例えば、[33]は内部共変量シフトと呼ばれる概念を中心に直感的な理論を提唱した。要約から始めると、内部共変量シフトの議論は、この記事が技術的な事実を述べていることを示しているようです。しかし、論文では重要な用語が明確に定義されていないため、真の値を決定的に決定することはできません。たとえば、この論文では、バッチ正規化によって、トレーニング中に隠れたアクティベーションの分布の変動が低減され、モデルが改善されることを示しています。

では、この変化を定量化するためにどのような乖離尺度が使用されるのでしょうか? 論文では明確にされていません。いくつかの研究では、バッチ正規化のこの解釈は正しくない可能性があることを示唆している[65]。しかし、[33]で与えられた推測的な説明は、例えば[60]では「深層ニューラルネットワークは、内部共変量シフトの問題のために最適化が非常に難しいことで知られている」と述べられており、事実として引用されている。

私たち自身も、説明を憶測としてまとめてしまうという点で同様に罪を犯しています。 [72]では、JSは「高次元性と多数の無関係な特徴は、攻撃者に攻撃を構築するためのより多くのスペースを提供する」と述べたが、次元性が攻撃性に与える影響を測定するための実験は行わなかった。 [71]で、JSはカバレッジという直感的な概念を定義せずに導入し、説明の形式として使用しました。たとえば、「カバレッジ不足の1つの症状は、不確実性の推定が不十分で、高精度の予測を生成できないことです。」振り返ってみると、私たちは論文で説明した作業にとって重要なアイデアを伝えたかったので、議論の核心部分を推測的であるとラベル付けすることには消極的でした。

上記の例とは対照的に、[69]は推測と事実を区別しました。この論文では、ドロップアウト正規化(ニューラル ネットワークをトレーニングするためのトリック)を紹介し、ドロップアウトと有性生殖の関係について詳細に推測していますが、これらの推測を​​「動機」というセクションに置くことで、この 2 つを明確に区別しています。このアプローチにより、読者の混乱を避けながら、著者が非公式な考えを表現できるようになります。

別の良い例として、[3]はニューラルネットワークを訓練するための実用的なガイドを提示しました。ここで著者は不確実性を注意深く指摘している。論文では、ガイドラインを権威あるものとして提示するところまでは至らず、「これらの推奨事項は長年の実験から導き出されたものであり、ある程度数学的に検証されているが、疑問視され、改善されるべきである。これらの推奨事項は良い出発点ではあるものの、一般的に正式に検証されておらず、理論的分析や堅実な比較実験作業を通じて対処できる多くの疑問が残る」と述べている。

2. 実証結果の真の情報源を特定できない

機械学習の専門家によるレビュープロセスでは、技術革新に大きな重点が置かれています。おそらく査読者のこのニーズに応えて、多くの論文では複雑なモデル(ここで言及)と複雑な数学(§3.3 を参照)を強調しています。複雑なモデルが正当化される場合もありますが、巧妙な問題の定式化、科学的な実験、最適化の経験、データ前処理技術、広範なハイパーパラメータの調整、または既存の方法を興味深い新しいタスクに適用することなどを通じて、経験的な結果を生み出せる他の多くの方向性もあります。場合によっては、提案された一連の技術を組み合わせることで、重要な実証的結果が得られることがあります。 このような場合、どの技術がレポートに必要なコア技術であるかを理解するのは読者の責任となります。

多くの場合、著者は適切なアブレーション研究(アブレーション研究とは、分割研究/対照実験/条件削除などを通じて他の要因からの干渉を排除することを指します)を実施せずに多くの調整を提案し、経験的結果のソースを不明瞭にします。場合によっては、こうした調整の 1 つだけで結果が改善されることもあります。これにより、著者らが多くの作業(いくつかの改善点を提案)を行ったという誤った印象を読者に与える可能性がありますが、実際には著者らは十分な作業を行っていません(適切なアブレーション研究は行われていません)。さらに、この慣行は、言及されている変更がすべて必要であると読者に誤解を招きます。

最近、Melisら[54]は、一連の発表結果を検証しました。当初はネットワークアーキテクチャの複雑な革新によるものと考えられていたこれらの結果は、実際にはハイパーパラメータのチューニングの改善によるものでした。同様に、1997 年以来実質的に変更されていない LSTM (Long Short-Term Memory) ネットワークのオリジナル バージョンは、引き続き驚くほど優れたパフォーマンスを発揮します。したがって、Melis らによる研究で最も重要な部分は、実際にはハイパーパラメータの調整です。同様の評価問題は、深層強化学習[30]や生成的敵対的ネットワーク(GAN)[51]でも見つかっている。経験的厳密さと失敗の結果についてのさらなる議論については[68]を参照。

対照的に、多くの論文では優れたアブレーション解析が行われており[41、45、77、82]、さらには実験結果の起源を遡及的に分離しようと試みており、それによって新たな発見につながる可能性もあります[10、65]。しかし、アブレーションは新しい方法を理解するための必要かつ十分な条件ではなく、計算力係数を考慮すると実用的ではない可能性があります。この方法の理解は、その堅牢性のテスト(例えば[15]では既存の言語モデルが屈折形態素を処理できないことが判明)とエラーの定性分析からも得られます。

経験的研究は理解を深めることを目的としており、新しいアルゴリズムがない場合でも有用です。例えば、ニューラルネットワークの挙動を調べることで、敵対的摂動に対するニューラルネットワークの感受性が特定されるようになった[74]。注意深く研究すると、困難なデータセットのベースラインを更新する取り組みの限界が明らかになることもよくあります。 [11]はニュース文章を読んで理解するための課題を設計し、質問の73%は単一の文を見ることで回答でき、2%のみが複数の文を見る必要があったことを発見しました(残りの25%の例は曖昧であったり、共参照エラーがあったりしました)。

さらに、より単純なニューラル ネットワークと線形分類器は、以前のタスクで評価された複雑なニューラル アーキテクチャよりも優れたパフォーマンスを発揮します。同様の考え方で、[80]はVisual Genome Scene Graphsデータセット(Visual Genome)の強力なベースラインを分析し構築しました。

3. 数学の誤用

私たち (ZL) が初期の博士論文を執筆していたとき、経験豊富なポスドクから、論文にはもっと数式が必要だというフィードバックを受けました。ポスドクはこのシステムを支持しなかったが、論文審査の「暗黙のルール」が明らかになり、たとえ数式の一部が理解しにくいものであっても、数式が多ければ多いほど、査読者は論文の技術的な深さを信じるようになるだろうということが明らかになった。

数学は科学的コミュニケーションにとって重要なツールであり、正しく使用すれば正確さと明瞭さを伝えることができます。しかし、すべてのアイデアや主張が正確な数学的記述に適しているわけではなく、特に直感的または経験的な主張に関しては、自然言語もコミュニケーションに欠かせないツールです。

数学と自然言語の記述が、その関係を明確に述べずに混在すると、論文と理論の両方に悪影響が及びます。理論の問題はあいまいな定義によって不明瞭になり、弱い議論が技術的な深さを装うことで裏付けられることになります。経済学者ポール・ローマーが「数学理論と同様に、数学の濫用では言語と記号が混在しているが、緊密なつながりがないため、自然言語の主張と形式言語の主張の間にずれが生じる余地が十分にある」と説明していることから、私たちはこの形式言語の濫用と呼んでいます。

数学の誤用はいくつかの形で現れます。

まず、一部の論文では、技術的な深さを伝えるために数学を誤用していますが、これは明確に説明するよりも「威圧」することを目的としています。よくある犯人は定理です。定理の結論が実際には論文の主な主張を裏付けていない場合でも、定理は実験結果に権威を与えるために論文に挿入されます。私たち(JS)は[70]でこの間違いを犯しました。そこでは「段階的な強いDoeblin連鎖」の議論は提案された学習アルゴリズムとは関係がありませんでしたが、読者に理論的な深さの感覚を与えました。

Adamオプティマイザー[35]を提案した論文でも同じ間違いを犯しており、この問題が普遍的であることを示しています。これを経験的に強力な最適化装置として提示する過程で、凸の場合に収束するという定理も提示しますが、これは非凸最適化に焦点を当てた応用論文では不要です。この証明は後に[63]で誤りであることが示された。

第二に、一見正式なようでありながら非公式な提案も多くの問題を引き起こします。例えば[18]は、ニューラルネットワークの最適化の難しさは局所的最小値ではなく鞍点から生じると主張している。証拠として、この研究ではガウス確率場に関する統計物理学の論文[9]を引用し、高次元ガウス確率場のすべての局所最小値は、大域最小値に非常に近い誤差を持つ可能性が高いことを指摘しています(同様の記述は関連研究[12]にも見られます)。

これは正式な主張かもしれませんが、特定の定理がないため、主張された結果を検証したり、その正確な内容を判断したりすることが困難になります。私たちの理解では、この主張は、高次元では(局所最小値と全体最小値の間の)差が消えると言うことよりも、実際には(部分的に)数学的なものです。しかし、これを明確にするには、より正式な声明が必要です。また、[18]では、局所最小値における損失関数は鞍点における損失関数よりも小さいという考えがより明示的に述べられ、検証されていることがわかります。

最後に、一部の論文では理論を過度に広く引用したり、あまり具体的でない定理を引用したりしています。たとえば、「ただの昼食はない」という定理は、保証された学習手順を排除するものではないにもかかわらず、不当なヒューリスティックの使用を正当化するためによく使用されます。

数学の誤用に対する最善の対策はそれを避けることですが、いくつかの論文はさらに一歩進んで、良い例を示しています。反事実的推論に関する最近の論文[8]は非常にしっかりしており、多くの数学的基礎が含まれており、それが適用される経験的問題との明確なつながりがあります。読者に明確かつ簡潔に提供されるこのガイダンスは、機械学習における反事実的推論を研究する新興コミュニティの発展に役立ちます。

4. 言語の誤用

機械学習における言語の誤用は、一般的に、示唆的な定義、用語の過剰使用、および「スーツケースワード」の 3 つのカテゴリに分類されることがわかりました。

(1)示唆的な定義

最初のカテゴリーでは、研究者は新しい技術用語を作成し、それに特定の示唆的な意味を持たせます。これは、人間の特徴(読解力[31]や音楽作曲[59])やスキル(好奇心[66]や恐怖[48])を反映していることが多い。多くの論文では、提案されたモデルの構成要素を「思考媒体[36]」や「意識の事前条件[4]」など、人間の認知を示唆するような名前で呼んでいます。

私たちの目標は、この言葉を含むすべての学術文献を排除することではありません。正当な理由がある場合、この言葉の使用は、有益なインスピレーションの源を伝える可能性があります。しかし、示唆的な用語に技術的な意味が割り当てられると、後続の論文ではその用語を受け入れるか置き換えるかして、読者を混乱させるしか選択肢がなくなります。

実験結果を曖昧に定義された「人間の」パフォーマンスの観点から説明することは、現在の能力についての誤った認識を反映するものでもあります。 [21]で報告された「皮膚科医レベルの皮膚がん分類器」を例にとると、それを皮膚科医と比較すると、皮膚がんの機械分類が皮膚科医の診断とは根本的に異なる作業であるという事実が不明瞭になってしまう。現実には、皮膚科医はさまざまな状況に遭遇し、予測できない変化にもかかわらず職務を遂行しなければなりません。ただし、機械学習分類器は、想定される iid (サンプルは互いに独立しており、同じ分布に従う) テスト セットでのみ低いエラーを達成します。

対照的に、[29]における人間レベルのパフォーマンスは、ImageNet分類タスク(より広範な物体認識タスクではなく)において優れていると明示的に主張されている。この場合でも、厳密な論文が 1 つ(それほど厳密ではない論文が多数ある中で [21、57、75])あるだけでは、公の議論の流れを元の軌道に戻すのに十分ではありません。人気のある記事では、現代の画像分類器は「人間の能力を超えており、より多くのデータがあればより良い決定が下されることを効果的に実証している」と評され続けている[23]が、これらの関連付けは「赤い服を着たアジア人」をピンポンボールと誤分類するなど、偽の相関関係に依存しているという証拠があるにもかかわらず[73]。

こうした間違いを犯しているのはディープラーニングの論文だけではありません。言語の誤用は ML の多くのサブフィールドで問題になっています。 [49]は、機械学習の公平性に関する最近の文献では、統計的平等の概念を表現する単純な方程式に「不均衡な影響」などの複雑な法理から借用した用語が頻繁に使用されていることを論じた。 このため、単純な予測モデルの統計を指すのに「公平性」、「機会」、「差別」という言葉が頻繁に使用される文献が生まれ、違いを無視する研究者を混乱させ、倫理的要件を機械学習に組み込むのがいかに簡単かについて政策立案者を誤解させています。

(2)専門用語の過剰使用

2 つ目の悪用方法は、正確な技術的意味を持つ用語を不正確または矛盾した方法で使用することです。たとえば、「デコンボリューション」という用語は、厳密には畳み込みを数学的に逆転させるプロセスを表しますが、現在ではディープラーニングの文献では、オートエンコーダや生成的敵対ネットワークでよく見られる転置畳み込み(アップコンボリューションとも呼ばれる)を指すために使用されています。この用語は、デコンボリューション問題を扱うディープラーニング[79]で初めて登場しましたが、その後、アップコンボリューションを使用するあらゆるニューラルアーキテクチャを指すために過度に使用されるようになりました[78, 50]。

この用語の過剰は永続的な混乱を生み出します。デコンボリューションに言及する新しい機械学習論文では、(i)その本来の数学的意味を引用するか、(ii)アップコンボリューションを説明するか、(iii)[28]のように「アップコンボリューション」という用語がプロセスを説明するのにぎこちなく使用されているように混乱を解消しようとするかのいずれかが考えられます。

別の例として、生成モデルは伝統的に、入力が分布 p(x) または結合分布 p(x, y) であるモデルです。対照的に、識別モデルは入力ラベルが与えられた条件付き分布 p(y | x) です。

ただし、最近の研究では、「生成モデリング」という用語は、現実的な構造化データを生成できるあらゆるモデルを指すために緩く使用されています。表面的には、これは p(x) の定義と一致しているように見えますが、いくつかの欠点が隠れています。たとえば、GAN (Generative Adversarial Networks) や VAE (Differential Networks) は、条件付き推論 (x1 と x2 が 2 つの異なる入力機能である場合の p(x2 | x1) からのサンプリングなど) を実行できません。

この用語をさらに解釈すると、一部の識別モデルは構造化データを生成することができるため、誤って生成モデルであると考えられるようになりました[76]。これは私たち(ZL)が[47]で犯した間違いです。この混乱を解決し、追跡可能な歴史的背景を提供するために、[58]は正統的な生成モデルと暗黙的な生成モデルを区別しています。

バッチ正規化に移ると、[33]は共変量シフトをモデルの入力分布の変化として説明しています。実際には、共変量シフトとは、入力分布p(x)は変化する可能性があるが、ラベリング関数p(y | x)は変化しない特定のタイプのシフトを指します[27]。さらに、[33]の影響により、Google Scholar検索エンジンでは、「共変量シフト」を検索したときに最初に返される参考文献としてバッチ正規化がリストされます。

言語を誤用することによる結果の 1 つは、(生成モデルの場合と同様に) 未解決の問題をより単純なタスクとして再定義することで、遅い進歩を隠蔽できることです。これは多くの場合、擬人化された命名と示唆的な定義を組み合わせることで行われます。かつてAIにとって大きな課題であった言語理解と読解は、現在では特定のデータセットに対して正確な予測を行うことに特に焦点を当てています[31]。

(3)「スーツケース言葉」

最後に、ML 論文における「スーツケース ワード」の過剰使用について説明しましょう。この用語は、ミンスキーが2007年に著した『感情マシン』[56]で、単語が複数の意味を持つ現象を指すために初めて使用されました。

ミンスキーは、意識、思考、注意、感情、感覚などの心理的プロセスには単一の原因や起源しかないと説明しました。 ML の多くの用語がこのカテゴリに分類されます。例えば[46]は、解釈可能性には普遍的に合意された意味はなく、しばしば矛盾したアプローチや要件が引用されていると指摘した。したがって、互いに対話しているように見える論文であっても、概念は異なる可能性があります。

別の例として、「一般化」には特定の技術的な意味(トレーニングセットからテストセットへの一般化)と、転移(あるグループから別のグループへの一般化)や外部妥当性(実験設定から現実世界への一般化)に近いより一般的な意味があります[67]。これらの概念を混同すると、現在のシステムの能力を過大評価することになります。

定義を暗示し、用語を過剰に定義すると、新しいスーツケース単語が生まれます。公平性に関する文献では、法律、哲学、統計の言語が過剰に使用されることが多く、「バイアス」などの用語は、私たちにそれらを解き明かすことを強いるスーツケースのような言葉になっています[17]。

スーツケースワードは、一般的なスピーチや感動的なスピーチで効果的です。スーツケースワードは、さまざまな意味を統合する包括的な概念を反映する場合があります。たとえば、「人工知能」は学術部門の理想的な名前かもしれません。一方、技術的な議論でスーツケースワードを使用すると混乱を招く可能性があります。 例えば、[6]は「インテリジェンス」と「最適化能力」という用語を含む方程式を作成した(ボックス4)。この方程式では、これらのスーツケース単語は1次元スカラーを使用して定量化できると暗黙的に想定されている。

4. これらの傾向の背後にある理由についての考察

上記のパターンはトレンドを表しているのでしょうか。もしそうなら、その潜在的な原因は何でしょうか。私たちは、これらのパターンが拡大していると推測しており、進歩に対する自己満足、コミュニティの急速な拡大、審査員の規模の制限、奨学金のインセンティブと短期的な成功の尺度との不一致など、いくつかの要因に起因すると考えています。

1. 進歩に対する慢心

機械学習の急速な進歩により、強力な実証的結果が弱い議論を隠すための言い訳として使われる可能性があるという態度につながることがあります。有効な結果が得られた著者は、結果を説明する要因がある限り(§3.1 を参照)、それらの要因を解明することを目的とした実験を省略し(§3.2)、誇張した用語を使用し(§3.4)、数式を乱用する(§3.3)限り、恣意的で裏付けの乏しいストーリーを挿入することが許可される場合があります。

同時に、査読プロセスの一枚岩的な性質により、査​​読者は、強力な実証的定量的結果を達成した論文を受け入れる以外に選択肢がないと感じる可能性があります。実際、論文が却下されたとしても、次の段階でこれらの欠陥が気付かれたり修正されたりする保証はないので、査読者は欠陥のある論文を受け入れることが最善の選択肢であると考えるかもしれません。

2. 成長痛

2012年頃からディープラーニングの優れた性能により機械学習の人気が高まり、その分野も急速に発展しました。私たちは業界の急速な拡大を前向きな発展と見ていますが、いくつかの副作用もあります。

若手著者を保護するために、私たちは著名な研究者の論文だけでなく、私たち自身の論文も引用することを好みます。しかし、新しい研究者はこのモデルの影響を受けやすいかもしれません。たとえば、用語に詳しくない著者は、単語を誤用したり、再定義したりする可能性が高くなります。一方、経験豊富な研究者もこの罠に陥ることがあります。

急速な成長により、査​​読者の数も 2 つの方法で減少します。査読者の数に比べて提出される論文の数が増える一方で、経験豊富な査読者の割合が減少します。経験の浅い査読者は、構造的な革新を追求したり、誤った定理に惑わされたり、不適切な言語の使用など、深刻だが検出が難しい問題を無視したりする可能性が高くなります。これにより、上記の傾向が促進され、さらには引き起こされることになります。同時に、経験豊富だが負担が重い査読者は「チェックボックスモード」に移行し、より定型的な文章を好み、使い慣れた論文のテンプレートから大きく外れた創造的または賢明で先見性のある作品を拒否することがあります。さらに、多忙な査読者には、提出された論文のすべての問題に対処する時間や、それに気づく時間さえない可能性があります。

3. インセンティブの不一致

著者に悪いインセンティブを与えているのは査読者だけではない。機械学習がメディアの注目を集め、機械学習のスタートアップが人気を博し一般的になるにつれ、メディア(「何を報道するのか?」)や投資家(「何に投資するのか?」)からもある程度のインセンティブが提供されるようになりました。メディアはこうした傾向の一部を煽ってきた。機械学習アルゴリズムの擬人化された説明がニュース報道を活気づけた。

この論文[55]を例に挙げると、オートエンコーダを「シミュレートされた脳」として擬人化しています。人間レベルのパフォーマンスを示唆するわずかなヒントは、ニュースではしばしば誇張され、例えば[52]では、ディープラーニングを使用して画像にキャプションを付けるシステムは「人間に近いレベルの理解力」を持っていると説明されています。投資家も AI 研究を受け入れており、たった 1 つの論文に基づいてスタートアップ企業への投資を決定することも多い。

私たち(ZL)が投資家と仕事をしてきた経験から言うと、投資家は、研究の方向性がメディアで報道されたスタートアップ企業に惹かれることが多いのです。金銭的なインセンティブはメディアの注目と密接に関係しています。チャットボットのスタートアップに対する最近の熱狂は、学界やメディアにおける会話システムや強化学習擬人化の出現と一致していることに注目します。ただし、奨学金の不足が投資家の関心を集めているのか、それともその逆なのかを知ることは困難です。

V. 議論

多くの人が、この分野が活況を呈しているときに介入すべきではないと言うかもしれません。成功を台無しにすべきではないのです。これらの反論に対して、私たちは次のように答えます。まず、上で説明した文献は機械学習の最近の成功の結果であり、その原因ではありません。

実際、ディープラーニングの成功への道を導いてきた文献の多くは、ディープネットワークのトレーニングの原理に関する非常に慎重な実証研究です。これらには、ランダムパラメータ探索のシーケンシャルパラメータ探索に対する利点[5]、異なる活性化関数の動作特性[34、25]、および教師なし学習のための事前トレーニングの理解[20]が含まれます。

第二に、欠陥のある学術研究は、研究コミュニティとより広い社会的認知に悪影響を及ぼしてきました。パート III では、この例を数多く見てきました。根拠のない主張が何千回も引用され、いわゆる改善が単純なベンチマークによって覆され、高度な意味論的推論をテストしているように見えるデータは実際には単純な文法の流暢さをテストしているだけであり、学術的な対話を混乱させるために多数の不適切な用語が使用されています。この最後の問題は、研究結果の一般公開にも影響を及ぼします。

例えば、欧州議会は「機械が自己認識を持つようになる」場合の規制上の制約を考慮した報告書を採択した[16]。機械学習の研究者は、自らの研究に関する誤解のすべてに責任があるわけではないが、擬人化された査読済み論文には、ある程度の責任があるようだ。

私たちは、科学と理論をより真剣かつ正確に表現することが、科学の進歩と一般大衆への科学の普及に非常に重要であると信じています。さらに、ヘルスケア、法律、自動運転などの主要分野で機械学習を適用する実務家として、機械学習システムの機能と限界を正確に理解することは、機械学習を責任を持って適用するのに役立ちます。この記事の最後のセクションでは、いくつかの反論について議論し、背景を説明します。

1. マイナス要因の考慮

上記の提案に対して、いくつかの否定的な要因も考慮しました。この記事の草稿を読んだ読者の中には、確率的勾配降下法は勾配降下法よりも収束が速いことが多いと指摘する人もいます。つまり、「よりクリーンな」論文を書くようにという私たちのアドバイスにもかかわらず、ノイズは多いがより高速なプロセスが研究のスピードアップに役立つ可能性があるということです。

たとえば、Imagenet分類に関する画期的な記事[39]は、アブレーション学習を実行せずにいくつかの方法を提案しました。これらの要因のいくつかは、後に不要であるとみなされました。ただし、実験結果が非常に重要であり、計算コストが非常に高い場合、他のすべての要因が完全に排除されるまで待つのは費用対効果がない場合があります。

別の関連する懸念は、高い基準が元のアイデアの公開を思いとどまらせるかもしれないということです。このような見解は一般に珍しく、非常に危険です。経済学などの他の分野では、高い基準は非常に長い出版サイクルにつながり、記事が正式に公開されるまでに数年かかる場合があります。校正には時間がかかりすぎて、新しい研究に費やすことができるリソースを奪います。

最後に、専門化が役立つ場合があります。新しい概念やアイデアを思いついたり、新しいシステムを構築したりする研究者は、知識を慎重に照合して洗練する人とまったく同じである必要はありません。

これらの考慮事項は非常に現実的であり、上記の基準があまりにも厳しい場合があると考えています。ただし、多くの場合、それらは簡単に実装でき、数日の余分な実験と慎重な文章しか必要としません。

さらに、これらのポイントを上げて、侵害してはならないルールを作成するのではなく、すべての人に鼓舞するために、これらの基準に違反することなく意見を共有できない場合は、これらの基準を一時的に無視し、意見を共有したいと思います。さらに、私たちはほとんどの場合、これらの基準を遵守しようとすることは常に価値があることが常に価値があることがわかります。要するに、研究コミュニティが成長品質のフロンティアでパレートの最適性に達したとは考えていません。

2。歴史的な先例

この問題は機械学習に固有のものではなく、現在に固有のものではありません。それらは、学界で周期的に再発する問題を反映しています。 1964年、物理学者のジョン・R・プラットは、強い推論に関する論文で同様の問題について議論しました[62]。彼は、特定の経験的基準に対する主張が、他の科学分野と比較して分子生物学と高エネルギー物理学の急速な発展につながったと考えています。

人工知能の分野でも同様の議論が発生しています。 1976年のセクション1で述べたように、[53]のドリュー・マクダーモットは、定義の示唆的な性質や技術的な声明から分離の失敗など、いくつかの根拠について人工知能コミュニティ(本質的に機械学習の前身)を批判しました。 1988年、ポール・コーエンとアデル・ハウは[13]で人工知能コミュニティを強調しました。このグループは、「提案されていたアルゴリズムのパフォーマンスをほとんど公に評価することはありませんでした」と、代わりにシステムを簡単に説明しました。

彼らは、定量的なプロセスの意味のある評価基準を推奨し、「なぜ機能するのか」などの質問をしました。最後に、2009年に、アームストロングと共著者は、[2]の研究を求める情報の経験的な厳密さについて議論しました。

彼らは、記事が自分の発見を同等に貧弱な基準と比較する傾向があり、その結果、意味のある結果が得られなかった一連のいわゆる改善をもたらすことを発見しました。

他の分野では、学術研究の生産量の未確認の減少が危機を引き起こしました。有名な2015年の研究[14]は、心理学の発見の大部分を同じ結果の実験では再現できないと結論付けました。歴史上、情熱と自由な奨学金が分野全体を惑わせたときに何度かありました。たとえば、X線の発見の後、関連する規律、N線の研究が突然現れ[61]、誤ったマスクとしてのみ明らかにされました。

3. 結論

読者は、これらの問題が自己修正であることを指摘するかもしれません。はい、この見解に同意します。ただし、学術基準の継続的な議論を通じてのみ、機械学習研究コミュニティはこの問題を「自己修正」することができます。これはまさにこの論文が望んでいる貢献です。

関連レポート:

http://approximinallycorrect.com/2018/07/10/troubling-trends-in-machine-learning-scholarship/

[この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  プログラマーの間でデータ構造やアルゴリズムに関する知識が一般的に不足していることについてどう思いますか?

>>:  世界を変えた10人のアルゴリズムマスター

ブログ    
ブログ    

推薦する

ジャック・マー氏、AIについて語る:今後10~15年で従来の製造業が被る苦痛は、今日の想像をはるかに超えるものになるだろう

「今後10年から15年の間に、従来の製造業が直面する苦痛は、今日私たちが想像するよりもはるかに大きく...

国防総省は、今後数日間の出来事を予測するために人工知能を活用している。

海外メディアCNETによると、米軍はビッグデータと人工知能を活用して近い将来の出来事を予測しようとし...

次世代ビジネスインテリジェンスのトレンドと機会

ビジネス成果を明確に定義するために、多くの企業は分析にビジネス インテリジェンス ソフトウェアを活用...

AI インデックス: AI 関連の求人、データ、トレンド

AI Index は、人工知能の現状に関する詳細な年次レポートです。自律システム、研究開発、AI の...

AI チャットボットと自動テストの重要性

近年、銀行、医療、小売、通信などの業界でチャットボットの使用が大幅に増加しています。これにより、私た...

テスラのオプティマスヒューマノイドロボットが再び進化:視覚に基づいて物体を自律的に分類し、ヨガもできる

9月24日のニュース、本日早朝、テスラ オプティマスの公式Twitterアカウントが新しいビデオをア...

UiPath: 自動化とは、退化を拒否し、価値の高い仕事の創出に専念することです

【51CTO.comオリジナル記事】近年、RPAの開発はかつてないほど注目を集めています。 Mark...

...

MetaとMicrosoft、Nvidia GPUの代替として新しいAMD AIチップを購入することを約束

12月7日、Meta、OpenAI、Microsoftは、現地時間水曜日のAMD投資家向けイベントで...

地球全体をシミュレート: Nvidia の Earth-2 スーパーコンピューターが間もなくオンラインになります

「未来を今日どのように実現するか。その答えはシミュレーションだ」と、NVIDIAの創業者兼CEOのジ...

NatureがAIGC禁止令を発令!ビジュアルコンテンツにAIを使用した投稿は受け付けられません

最も権威のある科学雑誌の一つであるネイチャー誌は最近、明確な声明を発表しました。 生成型人工知能 (...

汎用人工知能は可能か?

人工知能という用語が最初に使われたのは、より正確には「狭義の AI」と呼ぶべきものでした。これは強力...

...

小さなターゲットを検出するためのディープラーニングの一般的な方法

[[427475]]導入ディープラーニングによる物体検出、特に顔検出では、解像度が低い、画像がぼやけ...