翻訳者注:人工知能分野の発展は学者の貢献と切り離せないものです。しかし、研究が進むにつれて、「クリックベイト」、「スポットの占有」、「注水」などの現象を示す論文が増えています。トップカンファレンスで採択された論文数の急増は、より多くの技術革新をもたらしたようには見えません。最近では、カーネギーメロン大学の助教授であるザカリー・C.リプトン氏とスタンフォード大学のジェイコブ・スタインハート博士は、「機械学習研究における憂慮すべき傾向」と題する論文を提出し、近年の機械学習研究におけるいくつかの「奇妙な現象」を詳述した。この記事は、7 月 15 日の ICML 2018 カンファレンスの「機械学習: 議論」ワークショップで議論される予定です。 1. はじめに 一般的に、機械学習 (ML) の研究者は、データ駆動型のアルゴリズム知識の作成と普及に取り組んでいます。ある論文が指摘しているように、研究者は、何が学べるかを理論的に説明する、経験的に厳密な実験を深く理解する、または予測精度の高い実用的なシステムを構築する、といった目標を達成することに熱心です。どのような知識を追求する価値があるかを判断するのは主観的ですが、トピックが決定されたら、その論文が読者に役立ち、基礎的な知識を生み出し、それを可能な限り明確に提示したときに、その論文はコミュニティにとって最も価値のあるものになります。 読者にとってより適した紙はどのようなものでしょうか?次のような特徴を挙げることができます。これらの論文は、(i)理解を助ける直感を提供しつつ、それを強力で証明された結論と明確に区別する、(ii)代替仮説を検討し排除する実証的調査を提示する[62]、(iii)理論的分析と直感や経験の関係を明らかにする[64]、(iv)理解を助ける言語を使用し、誤解を招くまたは証明されていない記述、他の定義との矛盾、または関連しているが異なる概念との混同を避ける用語を選択する[56]必要があります。 これらの理想的な条件から頻繁に逸脱しているにもかかわらず、機械学習は最近も進歩を続けています。この記事では、機械学習研究の現在の傾向を表すと思われる 4 つのパターンに焦点を当てます。 1. 客観的な説明と推測を区別できない。 2. 良い結果の原因を特定できないこと。たとえば、実際にはハイパーパラメータを微調整することで良い結果が達成されたにもかかわらず、ニューラル ネットワーク アーキテクチャへの不必要な変更を強調するなどです。 3. 数学性: 技術的な概念と非技術的な概念を混同するなど、紛らわしい数学用語を明確にせずに使用すること。 4. 言語の誤用。たとえば、口語的な専門用語の使用や、確立された技術用語の過度の使用など。 これらのパターンの背後にある理由を確実に特定することはできませんが、コミュニティの大幅な拡大により査読者の数が不足し、学術研究と短期的な成功の尺度(文献の量、注目度、起業の機会など)の間のインセンティブが一致しないことが原因と考えられます。各モデルは対応する解決策(「やらない」という呼びかけ)を提供していますが、私たちはコミュニティがこのような傾向にどのように対応できるかについて、いくつかの探索的な提案について議論したいと思います。 機械学習の影響が拡大し、学生、ジャーナリスト、政策立案者など、より多くの人がそのような論文を読むようになるにつれて、これらの考慮事項はより広い読者層にも当てはまるようになります。より明確かつ正確にコミュニケーションをとることで、研究のペースを加速し、新しい研究者のオンボーディング時間を短縮し、公の議論において建設的な役割を果たすことができることを願っています。 欠陥のある学術研究は、一般の人々を誤解させ、将来の研究を妨げ、機械学習の知識基盤に損害を与える可能性があります。実際、人工知能の歴史、そしてより広い意味での科学研究においても、多くの問題は循環的です。 1976年、ドリュー・マクダーモット[53]はAIコミュニティが自己規制を放棄していると批判し、「もし我々が自分自身を批判しなければ、他の誰かが我々の代わりに問題を解決してしまうだろう」と予測した。同様の議論は1980年代、1990年代、2000年代にも繰り返された[13、38、2]。心理学などの分野では、実験基準が不十分であると、その分野の権威に対する信頼が損なわれます[14]。機械学習の現在の勢いは、理論的な研究[22、7、19]と経験的な研究[34、25、5]の両方において、今日まで広範かつ厳密な研究が行われてきたことによるものです。科学的知識を強化し、より明確に伝えることで、コミュニティが現在持っている信頼と投資を維持することができます。 2. 免責事項 この論文は議論を刺激することを目的としており、ICML 機械学習討論ワークショップの論文募集に応えています。私たちはここで提示されたアイデアを支持しますが、完全またはバランスのとれた見解を提供することを目的とするものではなく、科学分野としての機械学習の全体的な品質について議論することも目的としていません。再現性など多くの分野において、コミュニティの先進水準は 10 年前のレベルをはるかに上回っています。私たちは、これらの議論は私たち自身によって開始され、攻撃の標的は私たち自身であり、重要な内省は部外者ではなく私たち自身によって行われたことに気づきました。私たちが特定した問題は、特定の個人や組織に特有のものではありません。私たちはすでにこのパターンに陥っており、将来もそれを繰り返すことになるでしょう。これらのパターンの 1 つを明らかにしても、論文の質が下がったり、著者が非難されたりすることはありませんが、パターンを明らかにした後は、そのパターンを避けることですべての論文の質が向上すると私たちは考えています。私たちが挙げる具体的な例は、(i)私たち自身、および(ii)私たちが尊敬する著名な研究者や機関に関するものであり、この記事によって深刻な影響を受ける可能性のある若い学者や、私たちが対等な立場で対話する機会を持たない研究者を特に取り上げるものではありません。私たちは、自由に知識にアクセスし、意見を表明できるコミュニティに参加できることに非常に感謝しています。 3. 不利な傾向 以下の各サブセクションでは、(i) 最初にトレンドについて説明し、(ii) 次にいくつかの例 (このトレンドに対する抵抗の肯定的な例を含む) を示し、最後にトレンドの結果を説明します。個々の論文の弱点を指摘することはデリケートな話題となる場合があります。これを最小限に抑えるために、例を短く具体的にすることにしました。 3.1 説明と推測 新しい分野の研究では、明確な表現にまだまとまっていない直感に基づいた探索が伴うことがよくあります。推測は著者が直感を表現する手段となりますが、この直感は科学的精査のあらゆる圧力に耐えられない可能性があります。しかし、論文では説明という名目で推測が述べられることが多く、それが科学論文という見せかけと著者の専門知識のせいで権威あるものとして解釈されてしまうのです。 例えば、[33]は内部共変量シフトの概念を中心に直感的な理論を展開した。内部共変量シフトの議論は、技術的な事実を述べているように見える要約から始まります。しかし、重要な用語が明確ではないため、最終的に真の価値に到達することができません。たとえば、論文では、バッチ正規化によって、トレーニング中に隠れたアクティベーションの分布の変動を減らすことで改善が得られる可能性があると指摘しています。この変化を測定するためにどの乖離が使用されますか?この点は論文では明らかにされておらず、バッチ正規化のこの解釈は標準から逸脱している可能性があることを示唆する研究もある[65]。しかし、[33]で与えられた推測的な説明は事実として繰り返されており、例えば[60]では「深層ニューラルネットワークは内部共変量シフト問題のために最適化が非常に難しいことで知られている」と述べられています。 私たちは、推測を装った説明についても同様に不安を感じています。 [72]でJSは「高次元性と無関係な特徴の豊富さは、攻撃者に悪用する余地を与える」と書いているが、次元が攻撃性に与える影響を測定する実験は行っていない。 [71]では、JSはカバレッジという直感的な概念を紹介しましたが、定義はせず、説明として使用しました。たとえば、「カバレッジの欠如の1つの兆候は、不確実性の推定が不十分で、高精度の予測を生成できないことです。」振り返ってみると、私たちは論文の研究にとって重要な、あまり具体的ではない直感を伝えたいと考えており、議論の核心部分を推論として扱うことには消極的です。 上記の例とは対照的に、[69]は推測と事実を区別します。この論文では、ドロップアウトの正則化を紹介し、ドロップアウトと有性生殖の関係について詳しく推測していますが、「動機」のセクションではこの議論を明示的に分離しています。この方法により、読者の混乱を避けながら、著者が非公式な考えを表現できるようになります。 別の良い例として、[3]はニューラルネットワークを訓練するための実用的なガイドを提案しました。この論文では、著者らは不確実性を表現することに注意を払っている。論文では、ガイドラインを権威あるものとして扱うのではなく、「これらの推奨事項は長年の実験とある程度の数学的根拠から生まれたものですが、疑問視されるべきものです。出発点としては良いものですが、正式な検証はほとんど行われておらず、理論的分析やしっかりした比較実験作業を通じて答えられるはずの多くの疑問が残っています」と述べています。 3.2 実証的知見の出典を特定できない 機械学習のピアレビュープロセスでは、技術革新を重視します。おそらく査読者を喜ばせようとする努力から、多くの論文では複雑なモデル(ここで言及)や凝った数式表現(3.3 を参照)を強調しています。複雑なモデルが正当化される場合もありますが、経験的な進歩は、巧妙な問題の定式化、科学的実験、最適化アルゴリズム、データ前処理技術、広範なハイパーパラメータの調整、または既存の方法を興味深い新しいタスクに適用するなど、他の手段によって達成されることがよくあります。場合によっては、提案された多くの手法を組み合わせることで、驚くべき実験結果が得られることがあります。このような場合、論文で報告された結果を達成するためにどのような技術が必要であるかを読者に明確に説明するのは著者の責任です。 しかし、多くの場合、著者は制御変数の適切な変化を欠いた多くの研究を発表し、経験的発見のソースを不明瞭にしています。実際、たった 1 つの変更で結果が改善されることもあります。これにより、著者らは実際には十分な成果を上げていないにもかかわらず(変数の適切な制御を行っていないため)、より多くの成果を上げた(いくつかの改善を提案している)という誤った印象を与える可能性があります。さらに、このアプローチでは、提案された変更がすべて必要であると読者が誤解する可能性があります。 最近、Melis et al. [54]は、発表された改善の多くは実際にはハイパーパラメータの調整によるものであり、もともとニューラルネットワークの複雑な革新に起因するものであることを実証した。一方、1997 年以来ほとんど変更なく使用されている古典的な LSTM が 1 位にランクされています。ハイパーパラメータ調整に関する真実が、他の邪魔をされることなく、より早く知られていれば、AI コミュニティはより多くの利益を得ることができるかもしれません。深層強化学習[30]や生成的敵対ネットワーク[51]でも同様の評価問題が発生する。経験的厳密さの欠如とその結果についての詳しい議論については[68]を参照。 対照的に、多くの論文では適切に制御された変数分析が行われており[41、45、77、82]、調査結果のソースを特定するための遡及的な試みでさえも新たな発見につながる可能性がある[10、65]。さらに、変数を制御することは、方法を理解するために必要でも十分でもなく、計算上の制約を考えると非現実的ですらあります。アプローチは、堅牢性チェック(例えば[15]では、既存の言語モデルが屈折形態論を適切に処理していないことが判明)と定性的なエラー分析[40]を通じて理解することができます。 理解を目的とした実証的研究は、新しいアルゴリズムがなくても啓発的なものとなる可能性があります。例えば、ニューラルネットワークの挙動を調査することで、敵対的摂動に対する感受性を特定することができます[74]。慎重な研究により、より強力なベースラインが生成される一方で、困難なデータセットの限界が明らかになることも少なくありません。 [11]はニュース文章を理解するために設計されたタスクを研究し、質問の73%は単一の文を見ることで回答でき、2%のみが複数の文を見る必要があったことを発見しました(残りの25%の例は曖昧であったり、共参照エラーを含んでいました)。さらに、より単純なニューラル ネットワークと線形分類器は、このタスクで以前に評価された複雑なニューラル アーキテクチャよりも優れたパフォーマンスを示しました。同様の精神で、[80]はVisual Genomeシーングラフデータセットの強力なベースラインを分析し構築した。 3.3 数学の誤用 初期の博士論文を執筆していたとき、経験豊富なポスドクが私たち (ZL) にフィードバックをくれました。論文にはもっと方程式が必要だ、というものでした。ポスドクたちは私たちが提案したシステムを支持しませんでしたが、研究成果を評価する明確な方法を伝えてくれました。たとえ研究が説明しにくいものであっても、より多くの方程式があれば、査読者は論文の技術的な深さを納得するでしょう。 数学は科学的コミュニケーションのための重要なツールであり、正しく使用すれば思考の正確さと明瞭さを伝えることができます。ただし、すべてのアイデアや主張を正確な数学で記述できるわけではないため、特に直感的または経験的な主張を記述する場合は、自然言語も不可欠なツールとなります。 数学的な記述と自然言語表現が、それらの関係を明確にせずに混在すると、アイデアと理論の両方が損なわれます。理論の問題はあいまいな定義で隠され、アイデアに対する弱い議論は技術的な深さを装うことで裏付けられることになります。私たちは、正式な発言と非公式な発言のこの絡み合いを「数学性」と呼びます。経済学者ポール・ローマーは、このパターンを次のように説明しています。「数学理論と同様に、乱用数学は記号と言語を混ぜ合わせますが、乱用数学は2つをしっかりと結び付けず、自然言語表現と形式言語表現の間に十分な余地を残します。」[64] 数学の誤用はいくつかの側面で現れます。まず、一部の論文では技術的な深みを伝えるために数学を乱用し、議論を明確にしようとせずに知識を積み重ねるだけです。偽の定理は一般的な手法であり、定理の結論が論文の主な主張を裏付けていない場合でも、実験結果に権威を与えるために論文に挿入されることが多い。私たち(JS)はこの間違いを犯しました[70]。「段階的な強いDoeblin連鎖」についての議論は提案された学習アルゴリズムとはあまり関係がありませんでしたが、読者に理論的な深さを感じさせることができたかもしれません。 この問題は、オリジナルのAdamオプティマイザ論文[35]に遍在しています。強力な経験的パフォーマンスを備えたオプティマイザーを導入する過程で、非凸最適化に焦点を当てた論文では必要ありませんが、凸最適化の場合の収束証明も提供します。この証明は後に誤りであることが指摘され[63]、新たな証明が与えられた。 2 番目の問題は、明確な正式な声明でも、明確な非公式な声明でもないことです。例えば、[18]では、著者らは、ニューラルネットワークのバックボーンを最適化する際の難しさは最小点ではなく鞍点にあることを示しました。この研究は、ガウス確率場に関する統計物理学の論文[9]を引用しており、その論文では「ガウス確率場におけるすべての局所最小値の誤差は、全体最小値の誤差に非常に近い」と述べられている。同様の記述は[12]にも記載されている。これは正式な声明のようですが、具体的な定理がなければ、声明の結果を検証したり、その正確な内容を判断したりすることは困難です。この記述は、問題のパラメータが典型的な構成にある場合、極値と最大値の差が経験的に非常に小さいのか、それとも理論的にこの差が高次元空間で徐々に消えていくのかはわからないということを意味していると理解できます。正式な声明はこの点を明確にするのに役立ちます。[18]では、最小値は鞍点よりも損失が低いと説明されており、より明確な証明と経験的テストが行われています。 最後に、一部の論文では理論を過度に一般的な方法で引用したり、あまり関連性のない定理を引用したりしています。たとえば、理論的には正当化されないことが多いヒューリスティックを使用する理由として、「無料の昼食はないという定理」がよく挙げられます。 数学の誤用を改善する最善の方法はそれを避けることですが、数学と自然言語の関係をさらに明確にする論文がいくつかあります。最近の論文[8]では、多くの数学的基礎をしっかりとカバーし、多くの応用経験的問題との明確な関連性を持つ反事実的推論について説明しています。このチュートリアルは、読者にとって分かりやすく書かれており、機械学習における反事実的推論を研究する新興コミュニティの育成に役立ちます。 3.4 言葉の乱用 機械学習において言語が誤用される 3 つの方法を特定しました。それは、暗示的な定義、専門用語の過剰使用、スーツケースワードです。 3.4.1 暗黙の定義 最初のアプローチでは、新しい技術用語は、示唆に富む口語的な意味論で造られる可能性があり、その場合、根底にある意味を議論する必要がなくなります。これは、タスクの擬人的性質(音楽合成[59]と読解[31])とテクノロジーの擬人的性質(好奇心[66]と恐怖[48])に反映されることが多い。多くの論文では、提案されたモデルの構成要素を「思考ベクトル」[36]や「意識の事前条件」[4]など人間の認知を示唆するような名前で呼んでいます。私たちの意図は、そのような言語に関するすべての学術文献を排除することではありません。命名が適切であれば、インスピレーションの源として役立つ可能性があります。しかし、示唆的な用語に技術的な意味が割り当てられると、その後のすべての論文ではその用語を受け入れるしか選択肢がなくなります。 同様に、経験的結果を説明するために「人間レベルのパフォーマンス」という漠然とした主張を使用することは、現在の能力について誤ったイメージを描くことになります。 [21]の「皮膚科医レベルの皮膚がん分類モデル」を例にとると、皮膚科医との比較では、分類器と皮膚科医が根本的に異なるタスクを実行しているという事実が不明瞭になっている。実際の皮膚科医はさまざまな症状に遭遇し、予測できない変化にもかかわらず職務を遂行しなければなりません。しかし、分類器は、独立かつ同一に分布するテスト データに対してのみ低いエラーを達成します。対照的に、[29]は、分類器がImageNet画像分類タスクで人間レベルのパフォーマンスを発揮することを示すものであり、これは物体検出などのより広い領域には適用されないため、より信頼性が高い。この場合でも、ニュアンスに富んだ論文は、ニュアンスに乏しい論文に比べて、公の議論を軌道に戻すのに十分ではないかもしれない[21、57、75]。よく言われる説では、現代の画像分類器は「人間レベルのパフォーマンスを超えており、より大きなデータセットがより良い意思決定につながることを実証している」と説明されている[23]。これらの分類器は、「赤い服を着たアジア人」をピンポンボールと誤分類するなど、偽の相関関係に依存しているという証拠があるにもかかわらず[73]、超人的な精度を持っていると考えられています。 影響を受ける分野はディープラーニング論文だけではありません。言語の誤用は ML の多くのサブフィールドに影響を及ぼしています。機械学習における公平性に関する最近の文献は[49]で議論されており、機械学習は統計的に同等な単純な方程式に名前を付けるために「異なる影響」を使用するなど、複雑な法科学から多くの用語を借用していることがわかりました。このため、文献では予測モデルの単純な統計的特徴を表すために「公平性」、「機会」、「差別」という言葉が使われるようになり、その違いを無視する研究者を混乱させたり、政策立案者が機械学習に倫理を組み込むのがいかに簡単かを誤解したりする可能性があります。 3.4.2 専門用語の過剰 言語を誤用する 2 番目の方法は、正確な技術的意味を持つ用語を不正確な意味または反対の意味で使用することです。たとえば、デコンボリューションは畳み込みを逆にするプロセスを表しますが、現在、ディープラーニングの文献では、この用語はオートエンコーダーや生成的敵対ネットワークにおける転置畳み込み (アップ畳み込みとも呼ばれる) を指すためによく使用されます。深層学習の分野では、この用語は[79]で初めて登場し、そこでは確かにデコンボリューションを指していましたが、後にアップコンボリューションを使用するあらゆるニューラルアーキテクチャを指すように一般化されました[78, 50]。この種の用語の過剰使用は継続的な混乱につながります。新しい機械学習論文におけるデコンボリューションは、(i)その本来の意味を参照したり、(ii)アップコンボリューションを説明したり、(iii)交絡を解決しようとしたりすることがある([28]を参照)。 もう 1 つの例は生成モデルです。これはもともと、入力分布 p(x) または結合分布 p(x, y) のモデルを指します。識別モデルは、ラベルp(y|x)の条件付き分布を指します。しかし、最近の論文では、「生成モデル」は、現実的な構造化データを生成するあらゆるモデルを指していると誤っています。表面的には、これは p(x) の定義と一致しているように見えますが、いくつかの欠陥がわかりにくくなっています。たとえば、GAN または VAE は条件付き推論 (たとえば、x1 と x2 が 2 つの異なる入力機能である場合に p(x2 | x1) からサンプリングする) を実行できません。その後、用語はさらに混乱し、現在では一部の識別モデルは構造化された出力を生成する生成モデルを指すようになりました[76]。これは[47]で私たちが犯した間違いです。この混乱を解決し、歴史的背景を提供するために、[58]は規範的生成モデルと暗黙的生成モデルを区別した。 次に、共変量シフトをモデル入力の分布の変化として説明するバッチ正規化[33]を見てみましょう。実際、共変量シフトとは、入力分布p(x)が変化する可能性があるにもかかわらず、ラベリング関数p(y|x)が変化しない特定のタイプのシフトを指します[27]。また、[33]の影響により、Google Scholarでは「共変量シフト」を検索する際の第一参考文献としてバッチ正規化を挙げています(バッチ正規化:内部共変量シフトの削減によるディープネットワークトレーニングの高速化)。 言語を誤用すると、以前は解決できなかったタスクを再定義することで、進歩していないという事実を隠してしまう可能性があります。これは、擬人化された命名による示唆的な定義と関連付けられることが多いです。言語理解と読解はかつてAIの2つの大きな課題でしたが、現在では特定のデータセットに対する正確な予測を指します[31]。 最後に、機械学習の論文における「スーツケースワード」の過剰使用について説明します。スーツケースワードとは、ミンスキーが2007年に著した『感情マシン』で作った造語で、複数の意味を「パッケージ化」した言葉です。ミンスキーは、意識、思考、注意、感情、感覚などの心理的プロセスを説明し、これらのプロセスには「共通の原因や源」がない可能性があると主張しました。この現象は多くの機械学習用語で発生します。例えば[46]は、解釈可能性は普遍的に合意された意味を持っておらず、しばしばばらばらのアプローチに対応すると指摘した。その結果、論文の交換においても、人々は異なる概念を理解する可能性があります。 別の例として、一般化には「一般化」(トレーニングからテストへの一般化)という特定の技術的な意味と、より口語的な意味(ある集団から別の集団への転移、または外部妥当性(実験から現実世界への転移)の概念に近い意味)があります。これらの概念を組み合わせると、現在のシステムの能力を過大評価することになります。 示唆的な定義や過剰な用語によって、新しいスーツケース単語が作成されることもあります。公平性に関する文献では、法律、哲学、統計の言語が過剰に使用されることが多く、バイアスなどの用語は、後で分離しなければならないスーツケースのような言葉になります。 スーツケースワードは、専門用語としてもインスピレーションを与える言葉としても役立ちます。おそらくスーツケースワードは、異なる意味を統合するという重要な概念を反映しているのでしょう。たとえば、「人工知能」という用語は、学術部門を編成するための刺激的な名詞にまとめられるかもしれません。一方、技術的な議論でスーツケースワードを使用すると混乱を招く可能性があります。例えば、[6]は知能と最適化能力(ボックス4)を含む方程式を書き、これらのスーツケース単語は1次元スカラーを使用して定量化できると暗黙的に仮定しました。 4. トレンドの背後にある理由を考える 上記のパターンは傾向を示していますか?答えが「はい」の場合、その理由は何ですか?私たちは、こうしたパターンが強まると推測しており、その背後にある理由としては、進歩に対する自己満足、コミュニティの急速な拡大、適切なレビュー チームの不足、歪んだインセンティブ、結果を評価するための短期的な基準などが挙げられます。 4.1 進歩に対する慢心 機械学習の急速な進歩により、結果が十分に強力である限り、議論が薄弱であっても問題ないという態度につながることがあります。強力な結果を持つ著者は、その結果につながったかもしれない恣意的な未証明の情報を挿入したり(3.1 を参照)、これらの要因を明らかにする可能性のある実験を省略したり(3.2 を参照)、誇張した用語を使用したり(3.4 を参照)、数学を誤用したりする権利があると感じる場合があります(3.3 を参照)。 同時に、評価プロセスが 1 ラウンドのみであるため、査読者は強力な結果を伴う定量的研究論文を受け入れざるを得ないと感じる可能性があります。実際、論文が却下されたとしても、その弱点は次回の審査では修正されないか、まったく気づかれないこともあり、査読者は最終的に欠陥のある論文を受け入れることが最善の選択であると判断するかもしれません。 4.2 成長の痛み 2012 年頃、ディープラーニング手法の成功により、機械学習コミュニティは劇的に拡大しました。私たちはコミュニティの拡大を前向きな発展と見ていますが、この拡大には欠点もあります。 若手研究者を守るため、当校独自の論文と著名な学者の論文を優先します。しかし、新しい研究者はこれらのパターンの悪影響を受けやすい可能性があります。たとえば、確立された用語に精通していない著者は、論文の言語を誤用したり乱用したりする可能性が高くなります (3.4 を参照)。一方、上級研究者もこうしたパターンに陥る可能性がある。 コミュニティの急速な拡大により、2 つの方法でレビューが希薄化されます。1 つ目は、投稿された論文とレビュー担当者の比率が増加し、2 つ目は、上級レビュー担当者の比率が減少することです。経験の浅いレビュー担当者は、アーキテクチャの斬新さに高い要求を課し、偽の定理に騙されやすく、言語の誤用などの深刻で微妙な問題を見落とし、その結果、上記の傾向の発展を加速させる可能性があります。同時に、経験豊富だが負担が大きすぎる査読者は「チェックリスト」思考に陥り、定型的な論文を好み、より創造的であったり、より幅広いアイデアを持っているが既存のテンプレートに当てはまらない論文を無視することがあります。さらに、多忙な査読者には、論文内のすべての問題を修正したり、それに気付いたりする時間が十分にない可能性があります。 4.3 歪んだインセンティブメカニズム 著者に不当なインセンティブを与えるのは査読者だけではない。機械学習の研究がメディアの注目を集め、機械学習のスタートアップがますます一般的になるにつれ、この分野は、メディア(「何について書くのか?」)や投資家(「どこに資金を投資するのか?」)によってある程度インセンティブを受けるようになりました。メディアはこうした傾向のいくつかを煽ってきた。機械学習アルゴリズムの擬人化表現はニュース報道のネタとなる。例えば[55]では自動エンコーディングを「シミュレートされた脳」と呼んでいます。機械が人間レベルのパフォーマンスを達成したことを示唆するニュースは、センセーショナルな見出しになります。例えば、[52]では、「人間レベルの理解を模倣する」ディープラーニング画像キャプションシステムについて説明しています。投資家も AI 研究に興味を持っており、たった 1 つの論文に基づいてスタートアップ企業に投資することもあります。私たち(ZL)の投資家とのやり取りの経験からすると、投資家は研究結果がメディアで報道されたスタートアップを好む場合があり、この資本インセンティブは最終的にはメディアに帰属します。最近の投資家によるインテリジェントな会話型ロボットの新興企業への関心は、新聞やその他のメディアにおける対話システムや強化学習者の擬人化された描写を伴っているが、投資家の関心と歪んだインセンティブメカニズムが因果関係を構成するかどうかを判断することは困難であることに注目する。 5. 推奨事項 こうした傾向に対抗したい場合、どうすればいいでしょうか?個々の著者にそのようなモデルを放棄するように単にアドバイスするだけでなく、コミュニティとして、実験の実践、説明、理論を改善するために何ができるでしょうか?コミュニティ内の知識をより簡単に洗練し、研究者や一般の人々の間の誤解を払拭するにはどうすればよいでしょうか?ここでは、私たちの個人的な経験と印象に基づいた予備的な提案をいくつか紹介します。 5.1 著者への提案 著者は「どれだけ良かったか?」ではなく「何がうまくいったか?」と「なぜ?」と自問するよう奨励しています。特別な場合を除いて[39]、生の見出しの数字はデータの原動力を捉えていないため、科学の進歩にとって価値が限られています。観察は理論を意味するものではありません。最も堅牢な実証研究論文には、エラー分析、制御変数研究、堅牢性テスト (ハイパーパラメータや理想的なデータセットの選択など) という 3 つの実践が見られます。これらのプラクティスは誰でも利用可能であり、広く使用されることを推奨します。いくつかの例論文については、§3.2 を参照してください。 [43]では、ベストプラクティスのより詳細な調査も提供しています。 健全な実証的研究は、特定のアルゴリズムの実証的効果を追跡するだけにとどまらず、新しいアルゴリズムを提案しなくても新たな洞察を生み出すことができます。この例は、確率的勾配降下法で訓練されたニューラルネットワークが、ランダムに割り当てられたラベルで動作するように適応できることを示しています[81]。この論文では、ニューラル ネットワークが未知のデータに一般化できる理由を説明するモデルの複雑さに関する学習理論の能力に疑問を投げかけています。別の例として、[26]は深層ネットワークの損失面を調査し、初期化パラメータと学習パラメータ間のパラメータ空間における直線パスは、損失が単調に減少することが多いことを明らかにしました。 この論文を書くとき、次のような質問が出てくると予想されます。「この説明に頼って予測を立てるべきか、それともシステムをそのまま機能させるべきか?」これは、含まれている定理が監査人を満足させるか、明確なメッセージを伝えるかどうかを確認するのに適しています。また、概念や指示が私たち自身の内なる考えと一致しているかどうかを確認するのにも役立ちます。数学的な執筆では、Knuth、Larrabee、およびRoberts [37]による優れたチュートリアルを読者に紹介します。 最後に、どの問題が開いているか、どの問題を解決できるかを把握します。これは、読者に明確さを提供するだけでなく、その後の作業を促進し、研究者が(誤って)対処されると想定されている問題を見落とすことを妨げます。 5.2出版社とレビュアー向けの推奨事項 レビュー担当者は、「著者の仕事が十分ではない場合、この論文を受け入れたでしょうか?」このような記事は、3つのアイデアを組み合わせて(制御変数研究なし)、同じ改善を生み出すものよりも優れている必要があります。 文献は現在、欠陥のある会議出版物を受け取ることを犠牲にして急速に進化しています。是正措置の1つは、権威ある遡及的調査を強調し、誇張された主張と無関係な資料を排除し、擬人化名を変更してシンボルと用語を標準化するなどです。機械学習の基礎と傾向はこの種の研究を追跡していますが、この分野にはまだ十分に強力な論文が不足していると考えています。 さらに、批判的な文章は機械学習会議で声を出すべきだと考えています。典型的なMLカンファレンスペーパーでは、既存の問題を選択し(または新しい問題を提案します)、アルゴリズムや分析を提示し、実験結果を報告します。この方法で多くの問題を解決することができますが、調査方法の問題や正当化には、アルゴリズムも実験も十分ではありません。私たちは、より批判的な談話を受け入れることに一人ではありません。NLPで、今年のコリング会議では、「従来の思考に挑戦する」論文を求めました[1]。 ピアレビューについて議論することはたくさんあります。私たちが説明する問題は、オープンレビューによって緩和または悪化するでしょうか?レビュアーシステムは、私たちが宣伝する値とどの程度一貫していますか?これらのトピックは、他の場所で詳細に議論されています[42、44、24]。 6. 議論 Common Senseは、テクノロジーが熱くなっているときに介入すべきではないことを指示しています。成功に疑問を呈することはできません!これに対抗する理由は次のとおりです。まず、現在の文化の多くの側面は、原因ではなく、機械学習の成功の結果です。実際、深い学習の現在の成功につながった論文の多くは、深いネットワークのトレーニングの基本原則を説明する慎重な経験的研究でした。これには、ランダム化されたシーケンシャルハイパーパラメーター検索の利点、異なる活性化関数の動作、および監視されていない事前トレーニングの理解が含まれます。 第二に、欠陥のある学問的な雰囲気は、研究コミュニティとより広い一般に悪影響を及ぼしました。第3章では、サポートされていないアイデアが何千回も引用されていることがわかりました。改善の系統は、単純なベースライン、高レベルのセマンティック推論をテストするために設計されたデータセットが実際に低レベルの文法の流encyさをテストするように設計されています。 最後の質問は、公的な判断にも影響します。欧州議会はかつて報告書を可決して、「自己認識を展開するロボット」の問題に対処する方法について議論しました。機械学習の研究者は、自分の仕事から生じるすべての誤解について責任を負いませんが、権威あるピアレビューされた論文の擬人化言語は、少なくともある程度の責任を負っているようです。 科学的および理論的な厳密さと同様に、説明は科学的な進歩とより広範な大衆との効果的な対話を確立するために不可欠であると考えています。さらに、機械学習技術はヘルスケア、法律、自律運転などの重要な分野に適用されるため、機械学習システムの限界を知ることでAIテクノロジーをより安全に展開できるようになります。最後に、上記の見解に対するいくつかの異議を議論し、いくつかの歴史的文脈を議論します。 6.1反関連 上記の推奨事項に関して考慮すべき多くの要因があります。この記事のドラフトの読者の中には、確率的勾配降下が勾配降下よりも速く収束する傾向があることを指摘しています。つまり、おそらくより速いペースの騒々しいプロセスにより、「クリーン」な論文を書いて研究をスピードアップするという当初の意図を放棄することができました。たとえば、Imagenet Dataset [39]の画像分類に関する画期的な論文は、制御された変数を研究せずにいくつかの手法を提案しましたが、その一部はその後不要であると判断されました。ただし、研究が提示されると、その結果は非常に重要であり、実験は非常に計算的に高価であるため、制御変数が完了するのを待つことは、コミュニティ全体にとってコストに見合うことはないかもしれません。 これは、高い基準がしばしば異常で潜在的に投機的である洞察の公開を思いとどまらせるかもしれないと心配することにつながります。経済学などの他の分野では、高い基準は、学者が論文を完成させるのに何年もかかる可能性があることを意味し、長い改訂サイクルは必然的に新しい研究に使用できるリソースを排出します。 最後に、おそらく専門分野にはその価値があります。新しい概念を作成したり、新しいシステムを構築したりする研究者は、必ずしも知識を慎重に整理して洗練するものではありません。 これらの考慮事項の有効性を認識しており、これらの基準があまりにも厳格すぎることも認識しています。ただし、多くの場合、実装が簡単で、数日間の実験と慎重な文章しか必要としません。さらに、これらを克服できないルールではなく、強力なインスピレーションとして提示します。これらの基準に違反することなく、新しいアイデアを共有できない場合は、このアイデアを共有し、基準を脇に置きたいと思います。さらに、これらの基準を遵守しようとすることは常に価値があると感じています。要するに、私たちは、研究コミュニティがフロンティアの進歩においてパレート最適状態を達成したとは考えていません。 6.2歴史的経験 実際、ここで説明する問題は、機械学習にもこの現在の時代にも独特ではありません。それらは、学術コミュニティ全体の繰り返しの問題を反映しています。早くも1964年、物理学者のジョン・Rプラットは、強い推論[62]に関する論文の関連する問題について議論します。この問題では、特定の以前の基準の順守を指摘しています。これは、分子生物学と高エネルギー物理学、さらには他の分野のその後の急速な発展にもエネルギーを提供します。 AI分野では、第1章で述べたように、Drew McDermott [53]は、1976年にAIコミュニティを批判し、黙示の定義や技術的主張から投機を分離しないことを含む一連の問題について批判しました。 1988年、Paul CohenとAdele Howe [13]は、AIコミュニティに「提案されたアルゴリズムのパフォーマンス評価をめったに公開しない」と非難し、単にシステムを説明しました。彼らは、定量的な技術開発のための合理的な指標を確立し、「なぜそれが機能するのか」、「どのような状況下では、設計上の決定を合理化するのか」を分析することを提案します。 最後に、2009年、Armstrong et alは情報検索研究の経験的な厳密さについて議論し、多くの論文が同じ弱いベースラインと比較する傾向があり、これらの改善は意味のある経験を蓄積していないことを指摘しました。 他の分野では、学問レベルの無制限の衰退は危機につながりました。 2015年の画期的な研究では、心理文献の調査結果の大部分が再現されない可能性があることが示されています[14]。いくつかの歴史的な場合、規制の傾向と不足に従って、研究コミュニティ全体が行き止まりに入りました。たとえば、X線が発見された後、誰かがN線を提案しました(真実は後で明らかにされました)。 6.3結論 最後に、読者はこれらの問題を自分で修正できると考えるかもしれません。これに同意しますが、機械学習コミュニティは、この自己修正を達成するために合理的な学術基準を構築する方法を繰り返し議論する必要があります。この記事がそのような議論に建設的な貢献を提供できることを願っています。 |
ロボット工学と人工知能の発展により、多くの仕事が機械に置き換えられるでしょう。機械は、一部のタスク、...
長い間待ち望まれていましたが、本日、 CVPR 2024の合格結果がようやく発表されました。公式通知...
導入企業にとって、機械学習チームを 0 から 1 まで構築する方法は、多くの企業にとって非常に頭の痛...
人工知能とデータサイエンス、機械学習のトレンドとデータ分析AIはますますあらゆるビジネス戦略の一部に...
近年、インターネットの急速な発展、電子商取引の加速的な台頭、さまざまな新しいビジネスモデルの急速な実...
金融業界は国民経済の生命線です。モバイルインターネットやオンライン決済の普及により、データは企業にと...
Facebook は効果的な人工知能について私たちに多くのことを教えてくれます。最近のガートナー社の...
[[428076]]この記事はWeChatの公開アカウント「Backend Research Ins...
[[386200]] [51CTO.com クイック翻訳] 事実によれば、ロボティックプロセスオー...
目的に応じて異なる損失関数を使用できます。この記事では、いくつかの例を挙げながら、非常によく使用され...
1. ガートナー: 2018 年から 2020 年までの AI 成熟度曲線の概要最近、世界的に有名な...
近年、ディープラーニング技術の急速な発展に伴い、AIベースの超解像技術は画像修復や画像強調の分野で幅...
【環球網智能報記者張洋】過去2年間で、人工知能技術が次のホットスポットとなり、多くの有名なテクノロジ...
IT Homeは11月7日、マイクロソフトがInworld AIと協力し、開発者がAIベースのキャ...