Googleの上級研究員ネイチャーが記事を公開: 機械学習の3つの大きな「落とし穴」を避ける

アルゴリズム分析は科学研究の重要な方法となっている。生物学者、高エネルギー物理学者、病理学者など、多くの分野の研究者が機械学習アルゴリズムを広く利用して、新しい公式や方法を発見している。しかし、GoogleのAccelerated Scienceチームの上級研究員であるパトリック・ライリー氏は最近、科学研究者は一般的に機械学習に過大な期待を寄せており、研究者が間違った研究方向にリソースを浪費する可能性があると主張する記事をNatureに発表した。この記事では、研究者が機械学習を使用する際に遭遇する可能性のある落とし穴と対処戦略をいくつか挙げています。

機械学習は、科学のあらゆる分野で研究の進歩を推進しています。その強力なパターン発見および予測ツールは、合成分子の発見から医療診断の改善、基本粒子の解明まで、あらゆる分野の科学者に役立っています。

しかし、機械学習ツールは、誤検知、実行不可能な方法、誤った結果など、無益な探索につながる可能性もあります。また、多くのアルゴリズムは非常に複雑なため、すべてのパラメータを調べたり、入力をどのように処理するかを正確に推測したりすることは不可能です。これらのアルゴリズムがより広く使用されるようになると、誤解、誤った結論の導出、科学的研究リソースの浪費のリスクが劇的に増大します。

これらは新しい問題ではありません。機械学習の分野では、何十年もの間「タンク問題」に悩まされてきました。最初の研究は 1960 年代に発表されたようですが (参考文献 1 はこのトピックに関する最も古い論文であると考えられています。これはソフトウェアエンジニアの Jeff Kaufman によるものです)、時とともに失われてしまいました。このような話は常に起こります。

当時、研究者たちは軍から提供された写真に写っている戦車を識別するアルゴリズムを作成した。結果として得られたモデルは、テスト画像内のタンクを正常に検出しましたが、その後の実際の写真ではタンクを正常に識別できませんでした。なぜか？この話は何度も語り継がれてきたため詳細は忘れ去られているが、訓練で使われた画像には朝の光や雲の下に現れる戦車など他のパターンも含まれていた。したがって、アルゴリズムを駆動するのはタンク自体の存在ではなく、このような他の要因です。

同様の神話が今日の反省につながっています。多くの機械学習論文では、十分な実験セットが完了していません。レビューに使用される基準も一貫していません。そして現在、競争が激化しているため、研究者の中には、欲しい答えが得られると近道をして確認の手順を省略する人もいます。

あらゆる分析で生じる課題をすべて予測することはできませんが、少なくとも、機械学習を自分の分野に導入する研究者は、よくある落とし穴と、それを検出して回避するための実用的な方法に精通している必要があります。

この記事では、Google Accelerated Science チームが機械学習分析を使用する際に直面し、解決した 3 つの問題について説明し、このアプローチを説明します。

3つの質問

1. データの不適切なセグメント化

モデルを構築する際、機械学習の専門家は通常、データをトレーニングセットとテストセットに分割します。トレーニングセットはモデルの学習に使用され、テストセットは未知のデータに対するモデルのパフォーマンスを評価するために使用されます。研究者はデータをランダムに分割することがよくありますが、実際のデータはランダムになることはほとんどありません。これらには、データの収集方法の傾向や収集される情報の変化など、時間の経過に伴う傾向が含まれる場合があります。

たとえば、このような履歴パターンは分子データセットに埋め込まれており、機械学習アルゴリズムによる仮想スクリーニング後に薬剤候補を発見するために使用できます。難しいのは、仮説上の分子が体内にどれだけ吸収されるか、あるいは炎症をどれだけ軽減するかを予測することです。スクリーニングは、望ましい効果を持つ分子または持たない分子に関するデータから始まりますが、そのデータが収集されたコンテキストは、機械学習モデルの使用方法とは異なる場合があります。

たとえば、モデルは公開されている分子データセットに基づいて構築されるが、別の独自のデータセットで使用される場合があります。そして化学者が有望な可能性のあるリードを調べたり、却下したりすると、彼らの焦点は特定の分子のグループから他のグループに移ることがよくあります。そのため、研究者は実際のモデルのパフォーマンスを過大評価することがよくあります。これにより、期待が膨らみ、不適切に選択された分子に時間とお金が無駄になってしまいます。多くの模型製作者（私も含めて）がこの罠に陥っています。

つまり、回答したい質問が、データを分割する方法に影響を与えるはずです。モデルがトレーニングセット内の分子にいくつかの原子を追加した場合の効果を予測するには、テストセット内の各分子に、トレーニングセット内に、いくつかの原子だけ異なる対応する分子が存在する必要があります。化学的に異なる分子について適切な予測をしたい場合は、テストセット内のすべての分子がトレーニングセット内のすべての分子と似ている必要があります。データを分割する「正しい」方法は明らかではないかもしれませんが、慎重に検討し、複数のアプローチを試すことで、より多くの洞察が得られます。

2. 隠れた変数

理想的な実験では、研究者は関心のある変数のみを変更し、他のすべてを固定したままにします。このレベルの変数制御は、現実には達成できないことがよくあります。機器の精度は時間の経過とともに変化し、試薬のバッチは変化する可能性があり、ある実験条件が他の条件よりも先に実行される可能性があり、実験結果は天候によっても影響を受ける可能性があります。これらの制御できない変数は、機械学習モデルに悪影響を及ぼす可能性があります。

たとえば、Google の私のチームは、カリフォルニアの核融合スタートアップ企業である TAE Technologies と協力して、高エネルギープラズマを生成するための実験を最適化しています。プラズママシンに最適な機器設定を理解するためにモデルを構築しました。機械には、電極にいつ通電するかから磁石にどの電圧を設定するかまで、何百もの制御パラメータがあります。温度や光スペクトルを含むさまざまな測定値を記録しました。

[[272409]]

カリフォルニアのTAEテクノロジーズとグーグルの研究者は、機械学習を利用して高エネルギープラズマを生成する装置を最適化している。

数か月にわたって、プラズママシンを何千回も稼働させてデータを取得しました。機器の調整や改造、部品の消耗、複数のアイデアの実践により設定は変化します。最終的に、特定の状況下でプラズマが非常に高エネルギーになるかどうかを非常に正確に予測する、安心できるモデルが完成しました。しかし、すぐに私たちの予測とアイデアが矛盾していることに気づきました。

すべてのマシン設定を選択せずに、実験時間のみを入力として使用してモデルを再トレーニングすると、同様の予測力を達成しました。なぜでしょうか? 私たちは、第一世代のモデルは物理現象ではなく時間的傾向に焦点を当てていると考えています。実験が進むにつれて、機械はある期間ではうまく機能し、他の期間ではうまく機能しなくなった。したがって、実験が完了するまでにかかる時間から、生成されたプラズマが高エネルギーであったかどうかについての情報が得られます。さらに、制御パラメータの設定によって実験の完了時間を大まかに予測することもできます。これらのパラメータの変化にも時間的な傾向があります。

隠れた変数は実験レイアウトからも生じます。たとえば、私たちはニューヨーク幹細胞財団研究所を含む多くの協力者と協力して顕微鏡画像の解釈に取り組んでいます。画像には、滴定プレート（通常は細胞と体液を含むグリッド）上の生物学的実験の配列が含まれています。目標は、化学療法後の細胞の外観の変化など、特定の特性を持つトラップを見つけることです。しかし、生物学的変動により、各滴定プレートの外観は大きく異なることがよくあります。また、個々のタイタープレートにはばらつきが見られる場合があります。たとえば、端のウェルからより多くの液体が蒸発したり、プレートが傾いたりすると、端の外観が中央と異なることがよくあります。

機械学習アルゴリズムは、これらの意図しない変更を簡単に検出できます。たとえば、モデルは単に滴定プレートの端にあるウェルを識別するだけかもしれません。これが起こったかどうかを確認する簡単な方法は、プレートの位置、それがどのプレートであるか、画像がどのバッチからのものであるかなど、他の事柄をモデルに予測させることです。モデルがこれを実行できる場合、その結果は疑問視されるべきです。

学んだ教訓: 複数の機械学習モデルを使用して、予期しない変数や隠れた変数を検出します。 1 つのモデルは、血漿のエネルギーが高いか低いか、細胞は健康か病気かなど、ユーザーが関心を持つ点に焦点を当てています。他のモデルは、これらの交絡因子を除外します。後者が非常にうまく機能する場合、データは標準化され、さらなる実験が実施されるか、結論が調整されます。

3. 間違ったトレーニング目標を設定する

機械学習アルゴリズムでは、研究者はさまざまなエラーの重大度を決定する「損失関数」を指定する必要があります。実践者は、実際に関心のあることを捉えていない可能性のある少数の機能セットを使用する傾向があります。

たとえば、偏微分方程式を解くためにディープラーニングを使用します。これらの式は、流体力学、電磁気学、材料科学などのさまざまな分野で一般的です。通常、問題を解決するには数値解法を使用する必要があり、限られた数の解法の中でより高い精度を提供するようにモデルをトレーニングします。

まず、1 次元での水波の伝播について説明します。アルゴリズムのタスクは、現在のステップから次のタイムステップを繰り返し予測することです。わずかに異なる 2 つの定式化に基づいてモデルをトレーニングします。損失関数によれば、2 つのモデルのパフォーマンスは同等です。しかし、一方のモデルの結果は期待に近かったものの、もう一方のモデルは意味のない結果を生成しました。

なぜこのようなことが起こるのでしょうか? その理由は、学習を制御する損失関数が次のステップのエラーのみを考慮し、実際に必要な複数ステップのソリューションの有効性を考慮していないためです。

糖尿病網膜症を検査する機械を構築する際も、目標の不一致に遭遇しました。この病変を眼底画像から早期に発見できれば、患者は効果的な治療を受けることができます。データを収集し、眼科医に画像に基づいて診断をしてもらうと同時に、機械学習ツールに医師が次に何を言うかを予測するよう依頼しました。このとき、2つの問題が発生します。

まず、眼科医の間では診断結果が一致しないことがよくあります。したがって、私たちのモデルは単一の予測しか持てず、多数決も採用できないことに気づきました。なぜなら、医学的正確性に関しては、少数意見が正しい場合もあるからです。

第二に、単一の病気の診断が実際の目標ではありません。医療現場が直面している本当の問題は、「この患者は医師の診察を受ける必要があるのか？」ということです。そのため、私たちは目標を単一の病気の診断から複数の病気の診断へと拡大しました。

[[272410]]

糖尿病網膜症のスクリーニング。

機械学習の実践者は、必要なデータとラベルが明確な「明白な」目標に制限されがちです。しかし、彼らが設計したアルゴリズムは実際の問題を解決できない可能性があります。全体的な目標を念頭に置いておかなければ、実用的ではない精密なシステムを開発することになります。

これらの問題をどのように解決すればよいでしょうか?

まず、機械学習の専門家自身とその同僚は、より高い基準を守る必要があります。新しいラボ機器を受け取る際には、ラボのパートナーにその機能、調整方法、エラーの検出方法、機器の機能上の制限を理解してもらいたいと考えています。機械学習についても同じことが言えます。ツールを使用する人は、その機能を十分に理解する必要があります。

第二に、さまざまな分野が、それぞれの分野で機械学習を実行および測定する方法について明確な標準を策定する必要があります。適切な管理、堅牢性チェック、エラー測定は分野によって異なるため、研究者、査読者、編集者が適切な行動を奨励できるように明確に表現する必要があります。

第三に、機械学習に関する科学者の教育では、こうしたより広範な問題をカバーする必要があります。既存のリソース（Google AI など）を参照することはできますが、まださらに多くのことを行う必要があります。私たちは通常、生徒にアルゴリズムとツールを教えますが、生徒はそれらのアルゴリズムをどのように適用し、適切に質問するかについてさらに学ぶ必要があります。

私たちは、コンピューティング能力、データ、アルゴリズムが機械学習の助けを借りて緊密に組み合わされ、何か新しいものを発見する機会が増える素晴らしい時代に生きています。学術コミュニティの一員として、私たちはこれらの機会を確実に捉え、活用する責任があります。

原文記事アドレス: https://www.nature.com/articles/d41586-019-02307-y

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: 強力な人工知能まであとどれくらいでしょうか?まず、これらの5つの数学の問題を解くのに10年から20年かかります

>>: AIがビールの品質をコントロールするので、コスト効率と信頼性が高まります。