機械学習 = 「新しいボトルに入った古いワイン」の統計?いいえ!

機械学習 = 「新しいボトルに入った古いワイン」の統計?いいえ!

最近、ディープラーニングと人工知能に関するジョークがソーシャルメディア上で広く流布しており、この2つは単に壁のひび割れに新しい枠組みが加わっただけであり、機械学習は単に統計を再パッケージ化したものであり、本質的には「古いワインを新しいボトルに入れたもの」であるということを示唆している。しかし、これは本当にそうでしょうか? この記事ではこの見解に異議を唱え、機械学習 ≠ データ統計であり、ディープラーニングは複雑な非構造化データの問題の処理に大きく貢献しており、人工知能は当然の称賛を受けるべきだと主張しています。

[[242147]]

ディープラーニングに関する熱狂が衰え始める中、最近このミームがソーシャルメディア上で広まり始め、インターネット上で笑いを巻き起こしている。機械学習は大したものではなく、単に統計手法を補完するものに過ぎないという見方が広まりつつありますが、これは誤りです。

熱狂的なディープラーニング伝道者になることは流行ではないことは理解しています。 2013 年にディープラーニングをすべての人に知ってもらおうとした機械学習の専門家でさえ、今ではその用語について言及するとがっかりし、「import keras」が万能薬であるとまだ考えている人々と混同されないように、現代のニューラル ネットワークの威力を軽視する傾向が強まっています。そして彼らは後者に比べて自分たちにはかなりの利点があると考えている。

ヤン・ルカン氏が述べたように、ディープラーニングはもはや流行語ではありませんが、この過剰な修正は人工知能の進歩、将来、実用性に悪影響を及ぼしています。これは、数十年前と同じように、AI が何年も停滞すると予測される「AI の冬」に関する議論で特に顕著です。

しかし、この記事はAIの冬に疑問を投げかけるものではなく、ディープラーニングの進歩においてどの学術チームがより多くの功績を認められるべきかを言うつもりもありません。むしろ、AIは当然の賞賛を受けるべきであり、その開発レベルはスーパーコンピューターやより優れたデータセットを超えており、機械学習は最近、ディープニューラルネットワークと関連作業で大きな成功を収め、世界で最も先進的な技術レベルを代表しているということを言いたいだけです。

機械学習≠統計

「資金調達のときは人工知能について話し、仕事を探すときはディープラーニングについて話します。しかし、プロジェクトに取り組むときはロジスティック回帰について話します。」

—Twitterではみんなこう言っています

この投稿の論点は、機械学習は単なる統計の再パッケージ化ではなく、この分野にはより大型のコンピューターとより派手な名前があるということです。この概念は、回帰、重み、バイアス、モデルなど、機械学習で非常に一般的な統計的概念と用語に由来しています。さらに、多くのモデルは統計関数を近似します。分類モデルのソフトマックス出力はロジットで構成され、画像分類器のトレーニング プロセスはロジスティック回帰になります。

この考え方は技術的には正しいものの、機械学習全体を単なる統計学の一分野として捉えるのは時期尚早です。この比較は無意味です。統計学は、データの処理と解釈を扱う数学の分野です。機械学習は、コンピュータサイエンスで生まれた計算アルゴリズムに他なりません。多くの場合、これらのアルゴリズムはデータの理解には役に立たず、理解しにくい特定の種類の予測モデリングにのみ役立ちます。たとえば、強化学習では、アルゴリズムは既存のデータセットを使用しないこともあります。また、画像処理においては、画像を最初からピクセルによって特徴付けられるデータセットとして見るのは少々無理があります。

重要なのは、この栄誉が計算科学者に与えられるべきか、統計学者に与えられるべきかということではありません。他の分野と同様に、今日の成功は、統計学や数学を含むさまざまな学問分野の取り組みの結果です。しかし、機械学習手法の大きな影響と可能性を正しく理解するためには、まず、現代の人工知能の開発は、より強力なコンピューターとより優れたデータセットを使用した古い統計手法に過ぎないという誤解を払拭する必要があります。

機械学習には高度な統計知識は必要ない

まず最初に言っておきますが、私が機械学習を始めたとき、幸運にもディープラーニングについて具体的に説明する非常に優れたコースを選ぶことができました。これも私の学部のコンピュータサイエンスのコースの一部でした。私たちが完了しようとしているプロジェクトの 1 つは、TensorFlow 上で Wasserstein GAN を実装してトレーニングすることです。

当時、私は必須の統計学入門クラスを 1 つだけ受講していましたが、そのほとんどをすぐに忘れてしまいました。言うまでもなく、私の統計スキルはそれほど優れていません。しかし、最先端の生成機械学習モデルの論文を読んで、それをゼロから実装し、MS Celebs データセットでトレーニングすることでリアルな仮想画像を生成することができました。

コース全体を通して、私とクラスメートは、がん組織の画像セグメンテーション、ニューラル機械翻訳、文字ベースのテキスト生成、画像変換のモデルをトレーニングすることに成功しました。これらはすべて、近年発明されたばかりの最先端の機械学習技術を使用していました。

しかし、私やクラスメートに、データセットの分散を計算する方法や、周辺確率を定義する方法を尋ねても、おそらく答えは返ってこないだろう。

これは、AI が古い統計手法を単に再パッケージ化したものであるという見解と矛盾しているように思われます。

実際、ディープラーニング コースでは、機械学習の専門家は、学部のコンピューター サイエンス専攻の学生よりも強力な統計的基礎を持っている可能性があります。情報理論では一般に、データと確率を深く理解する必要があるため、データ サイエンティストや機械学習エンジニアになりたい人は、統計の概念を直感的に理解しておくことをお勧めします。しかし、ここで問題なのは、機械学習が単なる統計学の一分野であるならば、統計学のバックグラウンドを持たない人が最先端の機械学習の概念を深く理解できるはずがないということです。

また、多くの機械学習アルゴリズムでは、ほとんどのニューラル ネットワーク手法よりも高度な統計と確率の背景知識が必要であることも認識しておく必要がありますが、これらの手法は、従来の統計カテゴリと区別するかのように、統計機械学習または統計学習とも呼ばれることがよくあります。また、近年の機械学習における話題のイノベーションのほとんどはニューラルネットワークの分野から生まれたものなので、これはあまり問題ではありません。

もちろん、機械学習は世界の他の部分から孤立しているわけではありません。現実の世界では、機械学習を行おうとする人は誰でも、多くのカテゴリのデータの問題に取り組む可能性が高いため、統計についても深い理解が必要になります。これは、機械学習が統計的概念をまったく使用しない、または統計的概念に基づいて構築しないという意味ではありません。これは同じことではありません。

機械学習 = 表現 + 評価 + 最適化

客観的に言えば、私とクラスメートは、アルゴリズム、計算の複雑さ、最適化戦略、微積分、線形代数、さらには確率論に関して優れた基礎を持っています。これらは、高度な統計知識よりも、私たちが解決しようとしている問題に関連性が高いと言えます。

機械学習は、関数のクラスを近似するために繰り返し「学習」する計算アルゴリズムのクラスです。ワシントン大学のコンピューターサイエンス教授であるペドロ・ドミンゴス氏は、機械学習アルゴリズムを構成する 3 つの主要コンポーネントとして、表現、評価、最適化を挙げました。

表現には、ある空間から、より効率的で解釈しやすい別の空間への入力の転送が含まれます。この問題を畳み込みニューラル ネットワークの観点から考えてみましょう。生のピクセルは猫と犬を区別するのに役立たないので、解釈および評価できるより効率的な表現(ソフトマックス出力のロジットなど)に変換します。

評価は実際には損失関数です。アルゴリズムはデータをより効率的な空間にどれだけ効果的に変換しますか? ソフトマックス出力はワンホットエンコードされたラベル (分類) とどれだけ類似していますか? 展開されたテキストシーケンス (テキスト RNN) の次の単語を正しく予測できますか? 隠れた分布は単位ガウス分布 (VAE) からどれだけ逸脱していますか? これらの質問は、表現関数のパフォーマンスがどれだけ優れているかを示します。さらに重要なのは、表現関数が何を学習する必要があるかを定義することです。

最適化はパズルの最後のピースです。評価部分を取得したら、式関数を最適化して評価基準を改善できます。ニューラル ネットワークでは、これは、確率的勾配降下法の何らかのバリエーションを使用して、指定された損失関数に従ってネットワークの重みとバイアスを更新することを意味します。あなたは世界最高の画像分類器を持っています (少なくとも Geoffrey Hinton は 2012 年にそれを実現しました)。

画像分類器をトレーニングする場合、適切な損失関数を定義すること以外は、学習された表現関数に論理出力があるかどうかは関係ありません。ロジスティック回帰などの統計用語は、モデル空間について話すときには多少役立ちますが、最適化問題やデータ理解問題の観点からは再定義されません。

追伸: 人工知能という用語はかなり愚かです。人工知能の問題は、コンピューターがまだうまく解決できない問題の 1 つにすぎません。 19 世紀には、機械式コンピューターもインテリジェントであると考えられていました。この用語がディープラーニングと非常に密接に関連付けられるようになったため、私たちは、人工汎用知能 (AGI) は高度なパターンマッチング メカニズムよりも賢いものだと言い始めています。しかし、一般的な知能については一貫した定義や理解がありません。 AI が成し遂げたことといえば、いわゆる「シンギュラリティ」やターミネーターのような殺人ロボットに対する恐怖心をかき立てることだけだ。本物のテクノロジーの代わりに、このような空虚でセンセーショナルな言葉を使うのはやめてほしいと思います。

ディープラーニング技術

ディープ ニューラル ネットワークの内部動作のほぼすべては、ディープラーニングの統計的性質を無視しています。完全に接続されたポイントは重みとバイアスで構成されますが、畳み込み層はどうでしょうか? 整流活性化層? バッチ正規化? 残差層? ドロップアウト? 記憶と注意のメカニズム?

これらの革新は、高性能なディープ ネットワークの開発に不可欠でしたが、従来の統計手法ときちんと対応しているわけではありません (おそらく、統計手法ではないためでしょう)。私の言うことを信じられないなら、統計学者にモデルが過剰適合していると伝え、そのモデルの 1 億個のパラメータを半分に減らすことが合理的かどうか尋ねてみてください。

私たちはモデルの解釈可能性についてさえ議論していません。

1 億を超える変数を使用した回帰 — 問題ありませんか?

ディープネットワークと従来の統計モデルでは規模に違いがあります。ディープニューラルネットワークは巨大です。たとえば、畳み込みネットワーク VGG-16 には約 1 億 3,800 万個のパラメータがあります。 1 億を超える変数に対して多重回帰を実行したい学生に対して、平均的な学術アドバイザーはどのように反応すると思いますか? このアイデアはばかげています。なぜなら、VGG-16 のトレーニングは多重回帰ではなく、機械学習の問題だからです。

新しいフロンティア

おそらく、過去数年間にわたって、機械学習でできることの素晴らしさを宣伝する論文、投稿、記事を数え切れないほど読んできたと思いますので、ここでは詳しく説明しません。しかし、ディープラーニングは以前の技術よりも重要であるだけでなく、まったく新しい一連の問題を解決するのにも役立つことを思い出してください。

2012 年以前は、非構造化データや半構造化データに関連する問題は、非常に困難なものでした。トレーニング可能な CNN と LSTM だけでも、この点では大きな進歩です。コンピュータービジョン、自然言語処理、音声文字変換などの分野では大きな進歩が遂げられており、顔認識、自動運転、AI対話などの技術でも大きな改善が遂げられています。

実際、ほとんどの機械学習アルゴリズムは、最終的にはモデルをデータに適合させることを伴い、この観点から見ると、それは統計的なプロセスです。スペースシャトルは単なる翼の付いた飛行機械だが、20 世紀における NASA の宇宙探査を嘲笑したり、単に飛行機のパッケージを変えただけだと考える人はいない。

宇宙探査と同様に、ディープラーニングの登場によって世界のすべての問題が解決されたわけではありません。多くの分野、特に「人工知能」の分野では、私たちがやるべきことがまだたくさんあります。つまり、複雑な非構造化データの問題を処理する能力に大きく貢献します。機械学習は、単なる壁の亀裂による新たな境界ではなく、今後も世界の技術進歩と革新の最先端であり続けるでしょう。

オリジナルリンク:

https://towardsdatascience.com/no-machine-learning-is-not-just-glorified-statistics-26d3952234e3

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id: Almosthuman2014)」からのオリジナル記事です]

この著者の他の記事を読むにはここをクリックしてください

<<:  CatBoost: XGBoost よりも優れた GBDT アルゴリズム

>>:  畳み込みニューラルネットワークの「修理工」のための「マニュアル」

ブログ    
ブログ    
ブログ    

推薦する

ロボットは自分で物事を行うことを学び、緩んだネジを自分で締めることができる。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

錬金速度×7! MacでもPyTorchトレーニングでGPUアクセラレーションを利用できます

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIは古い建物のエネルギー効率を変えるでしょうか?

スマート ビルディングの観点から見ると、AI は多くの居住者向けテクノロジーに統合され、建物やキャン...

Tik Tok ダンスでは、実際の人物がカメラに映る必要はなく、1 枚の写真だけで高品質のビデオを生成できます。バイトダンスの新技術をCTOと一緒に体験する機会も

見て!今、あなたの前で踊っているのは 4 人の若い女性です。ショート動画プラットフォームで何人かのキ...

Microsoft XiaoIce がスピンオフしました!沈向陽氏が会長に就任、「小氷の父」がCEOに就任、中国での事業化を目指す

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

清華大学特別賞焦建涛のビッグモデル起業:GPT-4ツールの使用における画期的進歩、オープンソースのシードラウンドで7000万ドルの資金調達

清華大学の卒業生 2 人によって作成されたこのツールは、ツールの使用においてGPT-4 の主要な利点...

AI学習製品は本当に子供の成長に良いのでしょうか?

今日は友人が経営する人工知能体験センターを訪問する機会に恵まれました。この施設では主に子供たちが学習...

...

指先で操作できる人工知能(基礎編)

人工知能の概念知能は知識と知性の総和です。知識はすべての知的行動の基礎であり、知能は知識を獲得し、そ...

ディープラーニングアーキテクチャにおける予測コーディングモデルに関しては、PredNetに目を向ける必要があります。

[[434722]] 0. はじめに予測的コーディングは認知科学における仮説です。高レベルの神経活...

米商務省の新規制:承認なしに中国とセキュリティの脆弱性を共有することを禁止、マイクロソフトの異議は無効

最近、米国商務省産業安全保障局(BIS)は、サイバーセキュリティ分野に関する最新の輸出管理規制を正式...

ブリッジで人間の世界チャンピオン8人が全員AIに負ける

最近、人工知能(AI)が再び人間に勝利しました。今回、人工知能はチェッカーやチェス、囲碁をプレイせず...

オバマが強制的に「白人化」された後、AIは芸術作品における人種的偏見というタブーを犯した

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...