機械学習 = 「新しいボトルに入った古いワイン」の統計？いいえ！

最近、ディープラーニングと人工知能に関するジョークがソーシャルメディア上で広く流布しており、この2つは単に壁のひび割れに新しい枠組みが加わっただけであり、機械学習は単に統計を再パッケージ化したものであり、本質的には「古いワインを新しいボトルに入れたもの」であるということを示唆している。しかし、これは本当にそうでしょうか? この記事ではこの見解に異議を唱え、機械学習 ≠ データ統計であり、ディープラーニングは複雑な非構造化データの問題の処理に大きく貢献しており、人工知能は当然の称賛を受けるべきだと主張しています。

[[242147]]

ディープラーニングに関する熱狂が衰え始める中、最近このミームがソーシャルメディア上で広まり始め、インターネット上で笑いを巻き起こしている。機械学習は大したものではなく、単に統計手法を補完するものに過ぎないという見方が広まりつつありますが、これは誤りです。

熱狂的なディープラーニング伝道者になることは流行ではないことは理解しています。 2013 年にディープラーニングをすべての人に知ってもらおうとした機械学習の専門家でさえ、今ではその用語について言及するとがっかりし、「import keras」が万能薬であるとまだ考えている人々と混同されないように、現代のニューラルネットワークの威力を軽視する傾向が強まっています。そして彼らは後者に比べて自分たちにはかなりの利点があると考えている。

ヤン・ルカン氏が述べたように、ディープラーニングはもはや流行語ではありませんが、この過剰な修正は人工知能の進歩、将来、実用性に悪影響を及ぼしています。これは、数十年前と同じように、AI が何年も停滞すると予測される「AI の冬」に関する議論で特に顕著です。

しかし、この記事はAIの冬に疑問を投げかけるものではなく、ディープラーニングの進歩においてどの学術チームがより多くの功績を認められるべきかを言うつもりもありません。むしろ、AIは当然の賞賛を受けるべきであり、その開発レベルはスーパーコンピューターやより優れたデータセットを超えており、機械学習は最近、ディープニューラルネットワークと関連作業で大きな成功を収め、世界で最も先進的な技術レベルを代表しているということを言いたいだけです。

機械学習≠統計

「資金調達のときは人工知能について話し、仕事を探すときはディープラーニングについて話します。しかし、プロジェクトに取り組むときはロジスティック回帰について話します。」

—Twitterではみんなこう言っています

この投稿の論点は、機械学習は単なる統計の再パッケージ化ではなく、この分野にはより大型のコンピューターとより派手な名前があるということです。この概念は、回帰、重み、バイアス、モデルなど、機械学習で非常に一般的な統計的概念と用語に由来しています。さらに、多くのモデルは統計関数を近似します。分類モデルのソフトマックス出力はロジットで構成され、画像分類器のトレーニングプロセスはロジスティック回帰になります。

この考え方は技術的には正しいものの、機械学習全体を単なる統計学の一分野として捉えるのは時期尚早です。この比較は無意味です。統計学は、データの処理と解釈を扱う数学の分野です。機械学習は、コンピュータサイエンスで生まれた計算アルゴリズムに他なりません。多くの場合、これらのアルゴリズムはデータの理解には役に立たず、理解しにくい特定の種類の予測モデリングにのみ役立ちます。たとえば、強化学習では、アルゴリズムは既存のデータセットを使用しないこともあります。また、画像処理においては、画像を最初からピクセルによって特徴付けられるデータセットとして見るのは少々無理があります。

重要なのは、この栄誉が計算科学者に与えられるべきか、統計学者に与えられるべきかということではありません。他の分野と同様に、今日の成功は、統計学や数学を含むさまざまな学問分野の取り組みの結果です。しかし、機械学習手法の大きな影響と可能性を正しく理解するためには、まず、現代の人工知能の開発は、より強力なコンピューターとより優れたデータセットを使用した古い統計手法に過ぎないという誤解を払拭する必要があります。

機械学習には高度な統計知識は必要ない

まず最初に言っておきますが、私が機械学習を始めたとき、幸運にもディープラーニングについて具体的に説明する非常に優れたコースを選ぶことができました。これも私の学部のコンピュータサイエンスのコースの一部でした。私たちが完了しようとしているプロジェクトの 1 つは、TensorFlow 上で Wasserstein GAN を実装してトレーニングすることです。

当時、私は必須の統計学入門クラスを 1 つだけ受講していましたが、そのほとんどをすぐに忘れてしまいました。言うまでもなく、私の統計スキルはそれほど優れていません。しかし、最先端の生成機械学習モデルの論文を読んで、それをゼロから実装し、MS Celebs データセットでトレーニングすることでリアルな仮想画像を生成することができました。

コース全体を通して、私とクラスメートは、がん組織の画像セグメンテーション、ニューラル機械翻訳、文字ベースのテキスト生成、画像変換のモデルをトレーニングすることに成功しました。これらはすべて、近年発明されたばかりの最先端の機械学習技術を使用していました。

しかし、私やクラスメートに、データセットの分散を計算する方法や、周辺確率を定義する方法を尋ねても、おそらく答えは返ってこないだろう。

これは、AI が古い統計手法を単に再パッケージ化したものであるという見解と矛盾しているように思われます。

実際、ディープラーニングコースでは、機械学習の専門家は、学部のコンピューターサイエンス専攻の学生よりも強力な統計的基礎を持っている可能性があります。情報理論では一般に、データと確率を深く理解する必要があるため、データサイエンティストや機械学習エンジニアになりたい人は、統計の概念を直感的に理解しておくことをお勧めします。しかし、ここで問題なのは、機械学習が単なる統計学の一分野であるならば、統計学のバックグラウンドを持たない人が最先端の機械学習の概念を深く理解できるはずがないということです。

また、多くの機械学習アルゴリズムでは、ほとんどのニューラルネットワーク手法よりも高度な統計と確率の背景知識が必要であることも認識しておく必要がありますが、これらの手法は、従来の統計カテゴリと区別するかのように、統計機械学習または統計学習とも呼ばれることがよくあります。また、近年の機械学習における話題のイノベーションのほとんどはニューラルネットワークの分野から生まれたものなので、これはあまり問題ではありません。

もちろん、機械学習は世界の他の部分から孤立しているわけではありません。現実の世界では、機械学習を行おうとする人は誰でも、多くのカテゴリのデータの問題に取り組む可能性が高いため、統計についても深い理解が必要になります。これは、機械学習が統計的概念をまったく使用しない、または統計的概念に基づいて構築しないという意味ではありません。これは同じことではありません。

機械学習 = 表現 + 評価 + 最適化

客観的に言えば、私とクラスメートは、アルゴリズム、計算の複雑さ、最適化戦略、微積分、線形代数、さらには確率論に関して優れた基礎を持っています。これらは、高度な統計知識よりも、私たちが解決しようとしている問題に関連性が高いと言えます。

機械学習は、関数のクラスを近似するために繰り返し「学習」する計算アルゴリズムのクラスです。ワシントン大学のコンピューターサイエンス教授であるペドロ・ドミンゴス氏は、機械学習アルゴリズムを構成する 3 つの主要コンポーネントとして、表現、評価、最適化を挙げました。

表現には、ある空間から、より効率的で解釈しやすい別の空間への入力の転送が含まれます。この問題を畳み込みニューラルネットワークの観点から考えてみましょう。生のピクセルは猫と犬を区別するのに役立たないので、解釈および評価できるより効率的な表現（ソフトマックス出力のロジットなど）に変換します。

評価は実際には損失関数です。アルゴリズムはデータをより効率的な空間にどれだけ効果的に変換しますか? ソフトマックス出力はワンホットエンコードされたラベル (分類) とどれだけ類似していますか? 展開されたテキストシーケンス (テキスト RNN) の次の単語を正しく予測できますか? 隠れた分布は単位ガウス分布 (VAE) からどれだけ逸脱していますか? これらの質問は、表現関数のパフォーマンスがどれだけ優れているかを示します。さらに重要なのは、表現関数が何を学習する必要があるかを定義することです。

最適化はパズルの最後のピースです。評価部分を取得したら、式関数を最適化して評価基準を改善できます。ニューラルネットワークでは、これは、確率的勾配降下法の何らかのバリエーションを使用して、指定された損失関数に従ってネットワークの重みとバイアスを更新することを意味します。あなたは世界最高の画像分類器を持っています (少なくとも Geoffrey Hinton は 2012 年にそれを実現しました)。

画像分類器をトレーニングする場合、適切な損失関数を定義すること以外は、学習された表現関数に論理出力があるかどうかは関係ありません。ロジスティック回帰などの統計用語は、モデル空間について話すときには多少役立ちますが、最適化問題やデータ理解問題の観点からは再定義されません。

追伸: 人工知能という用語はかなり愚かです。人工知能の問題は、コンピューターがまだうまく解決できない問題の 1 つにすぎません。 19 世紀には、機械式コンピューターもインテリジェントであると考えられていました。この用語がディープラーニングと非常に密接に関連付けられるようになったため、私たちは、人工汎用知能 (AGI) は高度なパターンマッチングメカニズムよりも賢いものだと言い始めています。しかし、一般的な知能については一貫した定義や理解がありません。 AI が成し遂げたことといえば、いわゆる「シンギュラリティ」やターミネーターのような殺人ロボットに対する恐怖心をかき立てることだけだ。本物のテクノロジーの代わりに、このような空虚でセンセーショナルな言葉を使うのはやめてほしいと思います。

ディープラーニング技術

ディープニューラルネットワークの内部動作のほぼすべては、ディープラーニングの統計的性質を無視しています。完全に接続されたポイントは重みとバイアスで構成されますが、畳み込み層はどうでしょうか? 整流活性化層? バッチ正規化? 残差層? ドロップアウト? 記憶と注意のメカニズム?

これらの革新は、高性能なディープネットワークの開発に不可欠でしたが、従来の統計手法ときちんと対応しているわけではありません (おそらく、統計手法ではないためでしょう)。私の言うことを信じられないなら、統計学者にモデルが過剰適合していると伝え、そのモデルの 1 億個のパラメータを半分に減らすことが合理的かどうか尋ねてみてください。

私たちはモデルの解釈可能性についてさえ議論していません。

1 億を超える変数を使用した回帰 — 問題ありませんか?

ディープネットワークと従来の統計モデルでは規模に違いがあります。ディープニューラルネットワークは巨大です。たとえば、畳み込みネットワーク VGG-16 には約 1 億 3,800 万個のパラメータがあります。 1 億を超える変数に対して多重回帰を実行したい学生に対して、平均的な学術アドバイザーはどのように反応すると思いますか? このアイデアはばかげています。なぜなら、VGG-16 のトレーニングは多重回帰ではなく、機械学習の問題だからです。

新しいフロンティア

おそらく、過去数年間にわたって、機械学習でできることの素晴らしさを宣伝する論文、投稿、記事を数え切れないほど読んできたと思いますので、ここでは詳しく説明しません。しかし、ディープラーニングは以前の技術よりも重要であるだけでなく、まったく新しい一連の問題を解決するのにも役立つことを思い出してください。

2012 年以前は、非構造化データや半構造化データに関連する問題は、非常に困難なものでした。トレーニング可能な CNN と LSTM だけでも、この点では大きな進歩です。コンピュータービジョン、自然言語処理、音声文字変換などの分野では大きな進歩が遂げられており、顔認識、自動運転、AI対話などの技術でも大きな改善が遂げられています。

実際、ほとんどの機械学習アルゴリズムは、最終的にはモデルをデータに適合させることを伴い、この観点から見ると、それは統計的なプロセスです。スペースシャトルは単なる翼の付いた飛行機械だが、20 世紀における NASA の宇宙探査を嘲笑したり、単に飛行機のパッケージを変えただけだと考える人はいない。

宇宙探査と同様に、ディープラーニングの登場によって世界のすべての問題が解決されたわけではありません。多くの分野、特に「人工知能」の分野では、私たちがやるべきことがまだたくさんあります。つまり、複雑な非構造化データの問題を処理する能力に大きく貢献します。機械学習は、単なる壁の亀裂による新たな境界ではなく、今後も世界の技術進歩と革新の最先端であり続けるでしょう。

オリジナルリンク:

https://towardsdatascience.com/no-machine-learning-is-not-just-glorified-statistics-26d3952234e3

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart（id: Almosthuman2014）」からのオリジナル記事です]

この著者の他の記事を読むにはここをクリックしてください

<<: CatBoost: XGBoost よりも優れた GBDT アルゴリズム

>>: 畳み込みニューラルネットワークの「修理工」のための「マニュアル」

ブログ

Github のトップ 5 オープンソース機械学習プロジェクト!データ計算が最大80倍高速化！

機械学習 = 「新しいボトルに入った古いワイン」の統計？いいえ！

Github のトップ 5 オープンソース機械学習プロジェクト!データ計算が最大80倍高速化！

史上最大のチューリングテスト実験が完了！ 150万人が1000万回の会話に参加し、相手が人間かAIかを判断した。

ドキュメントの分類が複雑すぎますか? MITとIBMは協力してこの問題を解決した

GitHub CEO: AIはプログラマーに取って代わることはできない

匿名の論文が驚くべきアイデアを提案！大規模なモデルと長いテキストの能力を強化する

ボストン・ダイナミクスのロボット犬が再び進化：自分でルートを計画することを学習

宇宙全体が巨大なニューラルネットワークなのだろうか？科学者はこう説明する

多くの国で人工知能産業が発展を加速している（国際的視点）

推薦する

産業オペレーションの深化が人工知能コンピューティングセンター構築の鍵

AIはインフルエンサーマーケティングにどのような影響を与えているのでしょうか?

ホワイトハウスは開発者にCとC++を放棄するよう求める声明を発表した。メモリの安全性のためにRustが「選ばれた」

AIが観測性を高める方法

AIを使ってコーデックの退化を打破するクアルコムの最新のトップカンファレンス論文には大きなアイデアが盛り込まれている

マイクロソフト CEO ナデラ氏へのインタビュー: 人工知能の全体的な方向性と将来はどのようなものでしょうか?

機械学習アルゴリズムに関する 16 のヒント

200億の「Shusheng·Puyu 2.0」が正式にオープンソース化されました！データプッシュのパフォーマンスはChatGPTに匹敵し、20万の超長コンテキストを完璧に再現します。

XML 圧縮アルゴリズムについての簡単な説明

機械学習のパフォーマンスを最適化するために必要な 6 つの指標

マイクロソフトが Project Brainwave リアルタイム AI プラットフォームの詳細を公開