機械学習の理解と考察

機械学習の理解と考察

[[199326]]

近年、人工知能の力強い台頭、特に昨年のAlphaGoと韓国のチェスプレイヤー、イ・セドル九段との人間対機械の戦いは、私たちに人工知能技術の巨大な可能性を深く認識させました。データはキャリアであり、インテリジェンスは目標であり、機械学習はデータからインテリジェンスへの技術と方法です。したがって、機械学習はデータサイエンスの中核であり、現代の人工知能の本質です。

簡単に言えば、機械学習とはデータから貴重な情報を抽出することです。データ自体は無意識であり、有用な情報を自動的に提示することはできません。何が価値があるかをどのように見つけることができるでしょうか。最初のステップは、データに抽象的な表現を与えることです。次に、その表現に基づいてモデルを構築し、モデルのパラメータを推定します。これは計算です。大規模データによってもたらされる問題に対処するには、ハードウェアやアルゴリズムのレベルを含む、いくつかの効率的な実装方法を設計する必要もあります。統計はモデリングの主なツールとアプローチであり、モデルの解決は主に最適化問題または事後サンプリング問題として定義されます。具体的には、頻度主義的方法は実際には最適化問題です。ベイズモデルの計算には、モンテカルロランダムサンプリング法がよく使用されます。したがって、機械学習はコンピュータサイエンスと統計学の学際的な分野です。

コンピューター ビジョン理論の創始者である Marr によるコンピューター ビジョンの 3 段階の定義を参考にして、機械学習も初級、中級、上級の 3 段階に分けます。最初の段階はデータの取得と特徴の抽出です。中間段階はデータの処理と分析であり、これには3つの側面があります。1つ目は、応用問題指向です。簡単に言えば、既存のモデルと方法を使用していくつかの実用的な問題を解決することであり、データマイニングとして理解できます。2つ目は、応用問題のニーズに応じて、モデル、方法、アルゴリズムを提案および開発し、それらをサポートする数学的原理または理論的基礎を研究することです。これは、機械学習分野の中核的な内容です。3つ目は、推論を通じて特定のインテリジェンスを実現することです。高度な段階は知能と認知であり、知能の目標を達成することです。データ マイニングと機械学習は本質的に同じです。違いは、データ マイニングはデータ側に近いのに対し、機械学習はインテリジェンス側に近いことです。

統計とコンピューティング

カーネギーメロン大学統計学部の教授であるラリー・ワッサーマンは、「統計のすべて」という非常に威圧的な名前の本を執筆しました。この本の序文には、統計学と機械学習に関する非常に興味深い説明が含まれています。ワッサーマン氏は、統計はもともと統計部門にあり、コンピュータはコンピュータ部門にあったと考えています。両者は交流がなく、お互いの価値を認識していませんでした。コンピュータ科学者は、それらの統計理論は役に立たず、問題を解決しないと信じていますが、統計学者は、コンピュータ科学者は単に「車輪の再発明」をしていて、新しいアイデアはないと考えています。しかし、統計学者がコンピュータ科学者の貢献を認識し、コンピュータ科学者が統計の理論と方法論の普遍的な重要性を認識するようになったため、状況は変わったと彼は考えています。そこで、ワッサーマンは、統計学者向けに書かれたコンピュータ分野の本であり、コンピュータ学者向けに書かれた統計分野の本であると言えるこの本を執筆しました。

今では誰もが、機械学習の手法をその基本原理を理解せずに使用するのは非常に恐ろしいことだというコンセンサスに達しています。このため、学術界ではディープラーニングに対して依然として疑問が残っています。ディープラーニングは実際のアプリケーションで強力な能力を発揮していますが、その背後にある数学的原理はまだあまり明確ではありません。

コンピュータと統計の関係について詳しく説明します。コンピュータ科学者は通常、問題を解決するための優れた計算能力と直感力を持ち、統計学者は理論分析と問題のモデリングに優れています。そのため、両者は良好な補完性があり、協力する余地があります。たとえば、数学者のヴァプニックらは 1960 年代に早くもサポート ベクター マシンの理論を提唱しましたが、コンピューター コミュニティが非常に効果的なソリューション アルゴリズムを発明したのは 1990 年代後半になってからでした。その後、多数の実装コードがオープン ソースでリリースされ、サポート ベクター マシンは現在、分類アルゴリズムのベンチマーク モデルとなっています。たとえば、カーネル主成分分析 (KPCA) は、コンピューター科学者によって提案された非線形次元削減手法です。実際、これは古典的な多次元尺度法 (MDS) と同等です。後者は統計コミュニティでは長い間存在していましたが、コンピュータコミュニティによって再発見されていなかったら、いくつかの優れたものが埋もれていたかもしれません。

コンピュータと統計コミュニティの共同の努力により、機械学習は 1990 年代半ばから 2000 年代半ばにかけて発展の黄金期を迎えました。この時期には、統計学習理論に基づくサポート ベクター マシン、ランダム フォレストやブースティングなどの統合分類方法、確率的グラフィカル モデル、再生カーネル理論に基づく非線形データ分析と処理方法、ノンパラメトリック ベイズ法、正則化理論に基づくスパース学習モデルとアプリケーションなど、学術コミュニティで多くの重要な成果が生まれました。これらの成果により、統計的機械学習の理論的基礎と枠組みが確立されました。

機械学習は現在、統計学の主流の方向となっています。多くの有名大学の統計学部は、機械学習の分野から教授を採用しています。たとえば、スタンフォード大学統計学部の新しい助教授 2 名は、機械学習の分野出身です。統計分野ではコンピューティングの重要性がますます高まっています。従来の多変量統計解析では行列分解を計算ツールとして使用し、現代の高次元統計では数値最適化を計算ツールとして使用します。

最近出版されていない「データサイエンスの基礎」という本があります。著者の一人であるジョン・ホップクロフトはチューリング賞を受賞しています。この本の序文では、コンピュータサイエンスの発展は初期、中期、現在の 3 つの段階に分けられると述べられています。初期の頃は、コンピューターを動かすことに重点が置かれ、プログラミング言語、コンパイル技術、オペレーティング システムの開発と、それらを支える数学理論の研究に重点が置かれていました。中期目標は、アルゴリズムとデータ構造の研究に重点を置き、コンピューターを有用かつ効率的にすることです。第 3 段階は、コンピューターの応用範囲を広げることであり、開発の焦点は離散数学から確率と統計へと移ります。私はホップクロフト教授と何度か話をしましたが、彼は機械学習が今日のコンピュータサイエンスの発展の中核であると信じています。そして、彼は機械学習とディープラーニングの研究と教育に尽力しています。

コンピューター業界では、機械学習があらゆる場所で使用されていることから、今では冗談めかして機械学習を「万能分野」と呼んでいます。機械学習には、独自の規律システムに加えて、2 つの重要な放射機能もあります。まず、応用分野の問題を解決するための方法とアプローチを提供します。応用分野としての機械学習の目的は、難しい数学を疑似コードに変換し、エンジニアがプログラムを作成できるようにすることです。次に、統計学、理論計算機科学、オペレーションズ・リサーチ、最適化などの伝統的な分野における新たな研究課題を見つけます。そのため、世界的に有名な大学のコンピュータサイエンス学部のほとんどは、機械学習や人工知能を中核分野として挙げ、機械学習分野の学部の規模を拡大し、競争力の高い機械学習研究分野を少なくとも2つまたは3つ維持しています。コンピュータサイエンス専攻の中には、大学院生の 1/3 または 1/2 が機械学習または人工知能のコースを受講することを選択するところもあります。

しかし、機械学習は、産業界の実用的な問題を解決するために役立つ必要がある応用分野です。幸いなことに、機械学習は実際に業界の問題解決に役立ちます。特にディープラーニング、AlphaGo、自動運転車、人工知能アシスタントなど、業界に大きな影響を与える現在のホットなトピックです。今日の IT 開発は、従来の Microsoft モデルから Google モデルに移行しています。従来の Microsoft モデルは製造業として理解できますが、Google モデルはサービス産業として理解できます。 Google の検索は社会にとって完全に無料のサービスです。同社の検索技術はますます進歩しており、同社が生み出す富も増加しています。

富はデータの中にあり、富を掘り出すための中核技術は機械学習であるため、Google は自らを機械学習企業とみなしています。ディープラーニングは、今日の機械学習の最もダイナミックな方向性として、コンピュータービジョン、自然言語理解、音声認識、知能ゲームにおいて破壊的な成果を達成し、新興スタートアップ企業のグループを生み出しました。業界では機械学習分野の人材に対する需要が非常に高くなっています。優れたコーディングスキルを持つエンジニアだけでなく、数学的モデリングと問題解決のスキルを持つ科学者も必要です。

機械学習の発展から得たインスピレーション

機械学習の開発の歴史は、分野の発展には実用的な姿勢が必要であることを示しています。流行の概念や名前は、学問分野の普及を促進する上で間違いなく一定の役割を果たしますが、学問分野の本質は、依然として、研究課題、方法、技術、それを支える基盤、そして社会に生み出す価値です。

「機械学習」はかっこいい名前です。簡単に言えば、その目的は機械が人間のように学習できるようにすることです。しかし、10年間の発展の黄金期に、機械学習コミュニティは「知能」や「認知」を過度に宣伝することはありませんでした。その代わりに、統計やその他の方法を導入してこの分野の理論的基礎を確立することに重点を置き、データ分析と処理に方向転換しました。教師なし学習と教師あり学習を2つの主要な研究課題として、一連のモデル、方法、計算アルゴリズムを提案および開発し、業界が直面するいくつかの実際的な問題を効果的に解決しました。近年、ビッグデータとコンピューティング能力の驚異的な向上により、機械学習の基盤となるアーキテクチャが数多く開発されてきました。ニューラル ネットワークは、実際には 1980 年代後半または 1990 年代前半に広く研究されていましたが、その後忘れ去られてしまいました。近年、ディープラーニングに基づくニューラルネットワークの台頭により、業界に大きな変化とチャンスがもたらされています。ディープラーニングの成功は、脳科学や認知科学の進歩によるものではなく、ビッグデータと計算能力の大幅な向上によって推進されています。

機械学習の発展は、学際的な国境を越えた研究の重要性と必要性​​を示しています。しかし、このような交差点では、単にいくつかの名詞や概念を知っているだけでは不十分で、真の統合が必要です。故レオ・ブレイマン教授は、統計的機械学習の創始者でした。彼は、バギング、分類および回帰ツリー (CART)、ランダムフォレスト、非負ガロットスパースモデルなど、多くの統計学習手法の主な貢献者でした。ブライトマン教授は、学界から産業界に移り、10年以上にわたり統計学の実用化に携わり、その後再び学界に戻るという伝説的な経歴の持ち主です。ブライトマンはマイケル・ジョーダン教授の指導者だった。ジョーダンをMITからバークレーに連れてくることを主張したのも彼だった。ジョーダン教授は著名なコンピューター科学者であり、また統計学者でもあり、心理学の博士号を取得しています。統計的機械学習を確立する責任を担い、機械学習の分野で数多くの優れた学者を育成してきました。

スタンフォード大学の教授であるジェローム・フリードマンは、若い頃は物理学の研究に従事していましたが、最適化アルゴリズムの達人です。特に統計的手法を最適化の観点から研究することに長けています。例えば、多変量適応回帰スプライン(MARS)や勾配ブースティングマシン(GBM)などの古典的な機械学習アルゴリズムを提唱しました。トロント大学のヒントン教授は、世界的に有名な認知心理学者であり、コンピューター科学者です。彼は若くして大きな成功を収め、学界ではよく知られていましたが、それでも第一線で活躍し、独自のコードを書き続けました。彼のアイデアの多くはシンプルで実現可能かつ非常に効果的であり、彼は偉大な思想家として知られています。ディープラーニング技術が革命的な進歩をもたらしたのも、まさに彼の知恵と実践的な経験があったからです。

つまり、これらの学者は非常に実用的であり、空虚な概念や枠組みについては決して言及しません。具体的な問題、モデル、方法、アルゴリズムなどから始めてボトムアップのアプローチを採用し、段階的に体系化を実現します。

機械学習は、学界、産業界、起業家精神(または競争)などの共同の努力によって生み出されると言えます。学問はエンジンであり、産業は原動力であり、起業家精神は活力と未来です。学界と産業界はそれぞれ責任と役割分担を持つべきです。学術コミュニティの責任は、機械学習の分野を確立および発展させ、機械学習の分野で専門的な人材を育成することです。大規模なプロジェクトやエンジニアリング プロジェクトは市場によって推進され、業界によって実装および完了されるべきです。

私の国における機械学習の現状と将来

機械学習は我が国で広く注目され、一定の成果を上げていますが、ほとんどの研究はデータマイニングに焦点を当てており、純粋な機械学習研究に従事している学者は我が国にはほとんどいないと思います。コンピュータの学術界では、理論や手法などの基礎研究が十分に注目されておらず、強力な理論的背景を持つ分野が軽視されているケースさえあります。しかし、一部の「余剰分野」や「衰退分野」が大量の人材と資金を集めており、我が国は国際主流のコンピュータ分野で競争力と影響力を欠いている。

統計学は我が国ではまだ弱い科目であり、つい最近になってようやく国によって第一レベルの科目として指定されました。私の国では、統計学は両極端です。1つは、統計学が数学の一分野としてみなされ、主に確率論、ランダムプロセス、数理統計理論を研究するということです。第二に、経済学の一分野として分類され、経済分析への応用に重点が置かれています。しかし、機械学習は統計コミュニティではあまり注目されていません。統計学とコンピューターサイエンスは、ワッサーマン氏が言うところの「別々の世界」にまだ存在しています。

私の国のコンピュータサイエンスのトレーニングシステムは、基本的にはまだ開発の初期段階にあります。今日の学生は子供の頃からコンピュータに触れており、彼らのプログラミング能力は外国の学生に劣っていません。しかし、理論的知識が十分に考慮されておらず、統計の重要性が十分に認識されていないため、学生の数学的能力は海外の有名大学に比べて大きく遅れをとっています。私の国の大学のコンピュータサイエンス専攻のほとんどは、学部生向けに人工知能コース、大学院生向けに機械学習コースを提供していますが、深さ、幅、知識構造が学問分野の発展に遅れをとっており、時代のニーズを満たすことができません。そのため、人材育成の質と量が業界の緊急のニーズを満たすことができません。

現在、データサイエンスの専攻はわが国で大きな注目を集めています。その強力な統計力に頼って、北京大学、復旦大学、中国人民大学はデータサイエンス専攻やビッグデータ研究機関を設立し、学部生や大学院生の募集を始めています。しかし、現在、機械学習を専攻できる大学はありません。機械学習は他の応用分野や理論分野に波及効果をもたらし、両者をつなぐ役割も果たします。一方で、理論面の人材を確保し、他方では、医療データ、金融データ、画像・動画データなど、さまざまな分野の問題を組み合わせて、応用面の人材を提供することができます。したがって、コンピュータサイエンスや応用数学の学部専攻において機械学習のトレーニングを増やす必要があると思います。

機械学習はテクノロジー、科学、芸術を組み合わせたもので、従来の人工知能とは異なり、現代の人工知能の中核をなしています。統計、最適化、行列解析、理論計算機、プログラミング、分散コンピューティングなどが含まれます。したがって、既存のコンピュータサイエンスの学部コースに基づいて、確率、統計、行列解析のコースを適切に強化することが推奨されます。具体的なコース設定と関連教科書の提案は次のとおりです。

1. 確率と統計の基礎コースを強化するには、Morris H. DeGroot と Mark J. Schervish が共著した「Probability and Statistics」第 4 版を教科書として使用することをお勧めします。

2. 線形代数コースでは行列解析の内容を強化します。推奨される教科書は、ギルバート・ストラングの『線形代数入門』です。ギルバート・ストロングは MIT で線形代数を教えており、彼のオンライン ビデオ コースは古典的です。将来的には、Trefethen N. Lloyd と David Bau lll による「Numerical Linear Algebra」を教科書として、行列計算コースを開設することをお勧めします。

3. 機械学習コースを提供します。機械学習に関する古典的な本は数多くありますが、そのほとんどは学部生の教科書としては適していません。最近では、MIT が発行した John D. Kelleher と Brian Mac Namee による『Fundamentals of Machine Learning for Predictive Data Analytics』や、Andrew R. Webb と Keith D. Copsey による『Statistical Pattern Recognition』第 3 版の方が学部生向けの教科書として適しています。また、学生が機械学習の手法を特定の問題に適用できるように、コースに実践的なセッションを含めることも推奨されます。

さらに、学部のコンピューター専攻の学生向けに、上級コースまたは優等コースとして以下のコースを設けることをお勧めします。特に、国内の大学ではコンピュータサイエンス分野のトップタレント育成プログラムを設けているところもあります。このプログラムの育成計画に以下のコースを組み込むことが考えられると思います。実際、上海交通大学の ACM クラスでは、ランダム化アルゴリズムや統計的機械学習などのコースが提供されています。

1. 数値最適化コースについては、Jorge Nocedal と Stephen J. Wright による「Numerical Optimization」第 2 版を参照することをお勧めします。数値解析については、Timothy Saul による「Numerical Analysis」を教科書として使用することをお勧めします。

2. アルゴリズム コースを強化し、ランダム化アルゴリズムなどの高度なアルゴリズムを追加します。参考となる教科書は、Michael Mitzenmacher と Eli Upfal による「Probability and Computing: Randomized Algorithms and Probabilistic Analysis」です。

3. プログラム設計の面では、並列コンピューティングの内容を追加または強化します。特にディープラーニング技術の実行では、GPU アクセラレーションが通常必要になります。David B. Kirk と Wen-mei W. Hwu による教科書「Programming Massively Parallel Processors: A Hands-on Approach, Second Edition」を使用できます。また、Udacity の CUDA コンピューティングに関する Nvidia の公開クラスを参照することもできます。

コンピュータサイエンスを主な焦点とし、統計学や応用数学と組み合わせた機械学習の大学院プログラムを開設することを検討する価値があると思います。大学院専攻では、理論的機械学習、確率およびランダムグラフモデル、ベイズ法、大規模最適化アルゴリズム、ディープラーニングなどの基本的な機械学習分野に重点を置く必要があります。理論的機械学習、確率的グラフィカルモデル、統計的推論とベイズ分析、凸解析と最適化、強化学習、情報理論などのコースを提供することをお勧めします。

<<:  自動運転車の未来に関するレポート:乗用車の95%が消滅し、7兆ドルの旅行市場に4つの大きなチャンスがある

>>:  ニューラルネットワークと数学の関係は何ですか?読めば分かるよ

ブログ    

推薦する

教師あり学習か教師なし学習か?この問題は明確にされなければならない

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

AIイノベーションセンタートラックのリーディングカンパニー:智源匯が成都のスマート鉄道輸送の構築を支援

9月1日、成都地下鉄全線で「スマート旅客サービスプラットフォーム」がオンラインで開始されました。この...

大規模ディープラーニングツールの最新動向を詳しく見る

Panos Labropoulos 博士は、Bright Computing のシニア サポート エ...

...

...

...

「素晴らしい成果物!」ハードウェア AI パフォーマンス テスト用の Python ライブラリがリリースされました

現在、人工知能技術は急速に発展しており、非常に注目を集めています。しかし、数多くの方法があるにもかか...

ネットセレブ列車は強制的に停止させられた。ドローンの操縦はどれほど難しいのか?

最近、「重慶の人気列車がドローンに衝突され停止」する動画がインターネット上で広く出回っている。 [[...

...

...

第3回世界情報会議は5月16日に開催されます。主な特徴は次の5つです。

北京、天津、河北の協調的発展を積極的に推進し、世界の知能分野における科学技術交流と協力を強化し、新興...

GitHub Wanxing リソース: 強化学習アルゴリズムの実装、チュートリアル コード学習計画

[[273322]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

...

研究者はAIを使って、人間には判別が難しい火星のクレーターを発見する

惑星科学者たちは、このような高度な天文学研究に人工知能を利用することは画期的なことだと述べている。 ...