ヒット曲予測の成功率は97%？このリストは「偽造品と戦う」ためにあります

トレンドや動向を予測することは、あらゆる業界が熱心に取り組んでいることです。これにより、実務者は業界の最新動向をいち早く把握し、一定期間業界のリーダーになることができます。

音楽業界でも同じことが言えます。音楽会社はみな、次の音楽トレンドを予測し、次のヒット曲を正確に選び、大金を稼ぐことを望んでいます。この予測を達成することは可能でしょうか?

Scientific AmericanやAxiosによれば、実際にそのようなモデルが登場しており、それを紹介する論文は音楽業界を変える可能性のある記事とさえ呼ばれている。 97% という極めて高い予測成功率は、音楽会社が時間と労力を要する何層もの審査を受ける必要がなくなることを意味します。代わりに、このモデルを使用して、次の音楽の「流行アイテム」を効率的に予測できます。この良いアイデアを試してみませんか?

写真

本当にそうなのでしょうか？

この論文が発表される前に、いくつかの研究で、音楽鑑賞は非常に主観的なもので、どんな結果も起こり得ることが示されました。最高の曲があまり良くない結果になることはめったになく、最悪の曲が良い結果になることはめったにありませんが、これらの状況がまったく発生しないという意味ではありません。

写真

「この記事では、音楽予測はまだデータサイエンスの活動ではないと考えています」と直接述べている記事さえあります。

写真

では、97% の予測成功率はどのようにして達成されるのでしょうか?予測の難しさを過大評価したのでしょうか、それともモデルの能力を過小評価したのでしょうか?

実際にはそうではないと指摘する人もいます。実際のところ、機械学習の手法を使ってポピュラー音楽を予測することはまだできない。

写真

記事アドレス: https://reproducible.cs.princeton.edu/predicting-hits.html

この記事は、ポピュラー音楽を高い精度で予測するこの論文の欠陥を指摘している。

著者らは、24 曲に対する 33 人のリスナーの反応のデータを使用しました。彼らの最初のデータセットは、各曲につき 1 つずつ、計 24 個のサンプルで構成されていました。各曲について、モデルは 3 つの特徴のみに基づいてヒットするかどうかを予測し、これらの特徴の値をすべてのリスナーにわたって平均化します。彼らはこのデータセットを使用し、「オーバーサンプリング」と呼ばれる手法で 10,000 個のサンプルを含む合成 (偽造) データセットを作成しました。機械学習モデルをテストする際の主な考慮事項の 1 つは、トレーニングデータを評価データから完全に分離する必要があることです。この論文の主な間違いは、このトレーニングとテストの分割が、データがオーバーサンプリングされた後に行われていることです。したがって、トレーニングデータとテストデータ間の類似性は、他の曲を含む新しいデータセットの類似性よりもはるかに高くなります。言い換えれば、この論文では、モデルが新しい曲でどのように機能するかについての証拠は示されていない。

著者らが公開した元のデータでこのエラーを修正した後、モデルをテストしたところ、モデルの精度は偶然とほとんど変わりませんでした。また、著者らの合成データセットを使用すると、精度は実際に 100% に達する可能性があることもわかりました。これは驚くべきことではありません。このような高度なオーバーサンプリングでは、トレーニングセットまたはテストセットのいずれかを使用して元のデータを再構築することが可能です。言い換えれば、本質的に同じデータでトレーニングおよびテストされます。

97% というデータは良さそうに見えますが、信頼性は非常に低いことがわかります。モデルの能力を表すことはできず、音楽を本当に予測できることを証明するものでもありません。

この論文で紹介されているモデルには、機械学習における最も一般的な欠陥の 1 つであるデータ漏洩の問題があります。これは、モデルがトレーニングデータと同じまたは類似のデータで評価されることを意味し、精度の推定値が高くなります。実際の適用では、効果は大幅に減少します。これは、持ち込み可の試験で 97 点を取った学生が、突然持ち込み不可の試験を受けなければならないのと同じです。その場合、97 点はこの学生の成績の尺度として使用することはできません。

実は、データ漏洩のようなエラーは、この記事でのみ発生するわけではありません。このエラーは多くの記事、さらには多くの分野で発生します。

たとえば、先月、2020年の著名な腫瘍学論文で情報漏洩が発見されました。この論文は最も権威のある科学雑誌の一つであるネイチャー誌に掲載され、誤りが発見される前には何百回も引用されていた。

写真

論文アドレス: https://www.biorxiv.org/content/10.1101/2023.07.28.550993v1.full.pdf

この研究では、微生物と33種類のがんの間に強い相関関係があることが報告され、ほぼ完璧な精度でがんを区別する機械学習予測ツールが作成された。報告されたデータと方法論には少なくとも 2 つの根本的な欠陥があることがわかりました。

ゲノムデータベースと関連する計算方法のエラーにより、すべてのサンプルで数百万件の細菌の誤検出が発生しました。主な原因は、細菌として識別された配列のほとんどが実際には人間のものであったことです。
生データの変換エラーによって、アーティファクトシグネチャが作成され、読み取り値が検出されなかった微生物に対しても、各腫瘍タイプに固有の信号がラベル付けされ、機械学習プログラムはそれを使用して、一見正確な分類器を作成しました。

これらの問題はすべて結果を無効にし、研究で提案されたマイクロバイオームに基づく癌識別分類器は完全に間違っているという結論につながります。これらの問題はその後、12 を超える他の公開された研究に影響を与えました。これらの研究では同じデータが使用されており、その結果は無効である可能性が高いです。

機械学習における一般的な問題

漏洩は、ML ベースの科学における多くのエラーの 1 つです。このような間違いがよく起こる理由の 1 つは、機械学習が科学分野全体で無計画に採用されており、論文で機械学習の結果を報告するための標準が追いついていないことです。他の分野における過去の研究では、報告基準が研究の質の向上に役立つことがわかっていますが、機械学習ベースの科学では、いくつかの分野を除いてそのような基準は存在しません。

漏洩に加えて、解釈の誤りもよくある間違いであり、これは研究結果が論文にどのように記述されているか、そして他の人が研究結果をどのように理解しているかに大きく関係しています。

体系的なレビューにより、臨床予測モデルを提案する論文は、多くの場合、研究結果を捏造していることが判明した。例えば、モデルが臨床使用に適していると主張しながら、テストした特定の条件以外でも機能するという証拠を提示していないなどである。これらのエラーは必ずしもモデルの精度を誇張するものではありません。むしろ、モデルをいつ、どこで効果的に使用できるかを誇張して主張しています。

写真

レビューアドレス: https://www.sciencedirect.com/science/article/pii/S0895435623000756

もう一つのよくある見落としは、モデル出力の不確実性のレベルを明確にしないことです。誤った判断はモデルに対する誤った信頼につながる可能性があります。多くの研究では、モデル化される現象が正確に定義されていないため、調査結果の意味が不明確になります。

写真

関連論文アドレス: https://arxiv.org/abs/2206.12179

リスト改革

こうした間違いは非常によくあるのですが、回避する方法はあるのでしょうか?

あるチームが、機械学習に基づく科学研究におけるエラーを最小限に抑え、エラーがひっそりと現れたときにそれをより明確にすることができる、誰もが参照できる REFORMS (機械学習に基づく科学の報告基準) リストを作成しました。現在、プレプリントとなっています。

写真

記事アドレス: https://reforms.cs.princeton.edu/

これは、機械学習の科学研究を行っている研究者、科学研究を審査する審査員、科学研究を投稿および出版するジャーナルに役立つ、8 つのモジュール、32 項目のチェックリストです。このリストは、コンピューターサイエンス、データサイエンス、社会科学、数学、生物医学研究の分野の研究者 19 名によって作成されました。これらの標準が複数の分野にわたって有用であることを保証するには、著者間の専門分野の多様性が不可欠です。

以下に8つのセクションと32のプロジェクトを示します。関連研究を行っている場合は参考にしてください。

写真

もちろん、コンピューターサイエンスに基づく研究のすべての欠点に対処するには、チェックリスト以上のものが必要です。しかし、エラーが頻繁に発生し、体系的な解決策が存在しないことから、チームはこのようなリストが絶対に必要だと感じました。

リストの作成に関わった人々は、コンピューターサイエンスに基づく研究がこのチェックリストを使用して自己チェックを行うのであれば、豚に口紅を塗る (醜いものを美しく見せようとする無駄な努力の比喩) ことはしなくなるだろうと指摘しました。

<<: MetaがCMUと提携して最も強力な「汎用ロボットエージェント」を開発するのに2年かかりました。

>>: LeCun 氏はリツイートしました: 中国がトップ AI カンファレンスのリストで首位を占め、米国が 2 位です!中国と米国が世界の数学計算分野を支配している