ビッグデータマイニング機械学習人工知能ベン図戦争

ビッグデータマイニング機械学習人工知能ベン図戦争

半期会議がもうすぐ開かれますが、上司はみんなでしっかり計画を立てるように言いました。私たちの将来の方向性は、もはや機械学習ではなく、人工知能になります。彼女が正確に何を言ったかは忘れましたが、聞いていてとても不快だったことを覚えています。それでその場で「機械学習とは一体何ですか?人工知能とは何ですか?」と尋ねました。BDの女の子は非常に積極的で、「わかっています、わかっています」と答え、黒板に3つの四角形を描きました。次のようなものです:

これも本来の絵ではありませんが、こんな感じで、比較的単純な関係です。 (記憶とは頼りないものだ!)私はそれには同意できなかった。***が思いついたのはタイトルの絵で、それをホワイトボードにとてもシンプルに描いた。生徒一人一人が自分の意見を述べ、笑いが起こった。この事件は過ぎ去ったが、私にとって、このシナリオでは、特に概念にとらわれている人間であるため、「過去」は存在しない。

調べてみると、これらの用語の境界を理解していない人がたくさんいることがわかりました。その多くは、この分野の学者や研究者です。専門家でさえ意見が異なり、お互いを説得できないのです。とても面白いです。ベン図をたくさん集めた「データサイエンスベン図の戦い」[1]という記事もあります。それらを一つ一つ再現するつもりはありません。自分で調べてください。

私が個人的に興味を持っている写真についていくつかお話ししたいと思います。

タイトル画像としても知られるこの画像は、SASがKDD1998* [2]で提供した基礎データマイニングコースの画像から取られたと言われています。この図は、これらの分野を分析する多くのスライドや、一部の技術専門家が作成した PPT で引用されています。これは、SAS が世界最大のソフトウェア企業の 1 つであり、ビジネス インテリジェンスおよびデータ分析ソフトウェアのリーダーであるためです。したがって、彼らの意見は権威がないとは言えません。

この写真では、データマイニングが中心です。もちろん、KDDカンファレンスのスピーチなので、写真にはKDDサークルも写っています(笑)。パターン認識とニューロコンピューティングについては基本的に何も知らないので、それについては説明しません。この図で興味深いのは、統計、機械学習、人工知能 (AI) の関係です。 SAS の観点から見ると、人工知能には機械学習の内容が完全に含まれており、機械学習は実際には人工知能のサブ分野です。統計学とこの2つに共通点はほとんどありませんが、よく見ると全く関係がないわけではありません。データベースの表現方法のようなもので、遠いところにあります。つまり、機械学習や人工知能は統計学と少しだけ関係があるということですね、笑!

この絵から派生した別の絵があります。

この写真の作者であるブレンダン・ティアニーは、かつて Oracle で働いていた業界のベテランで、現在はコンサルタントです。この写真は、Quora の回答や業界の記事でよく引用されています。この写真は、タイトルからわかるように、本質的にいくつかの側面の境界問題に関するものではありませんが、多くの議論を巻き起こしました (笑)。ブレンダンは2012年にブログ記事[3]を発表し、2016年に更新して、真ん中のベン図はデータマイニングの分野では非常に一般的な図だと述べています(ただし、元の図は見つかりませんでした)。彼はそれを何気なく引用しただけで、彼はそれが上記のKDD1998の図から派生したものだと思っていました(しかし、私はそうではないと思います)。彼は、表現したいことを表現するために、外側に円を追加しました。

この図では、データマイニングとパターン認識の交差点がなくなり、真ん中がデータに置き換えられています。残念ながら、視覚化が追加されていますが、これは本当に... 2010年に、この図を引用して、データサイエンス、データマイニング、機械学習を区別したブログ[4]がありました。これも一読の価値があります。

以下のベン図は、データ サイエンスとは何かを定義しています。

この絵を描いたのはドリュー・コンウェイという人物で、ニューヨークのテクノロジー界では一種のオピニオンリーダーのような存在です。 Wikipediaの彼の紹介[5]によると、彼は上の絵を描いたことで有名になり、Wikipediaにも掲載されたそうです。もう一つの理由は、彼がビッグデータをテロ研究に応用したことです。もちろん、この絵を描くことはテロ研究よりも前のことでした。おわかりでしょうか?

バトルの記事によると、地図は2010年に描かれたが、ブログで公開されたのは2013年になってからだった[6]。ブログのアーカイブ時間と主張されている公開時間は、この2つの時点を示している。この写真が戦いのきっかけになったと言われており、戦いの記事の最初の写真でもあります。

この写真には注目すべき点が 2 つあります。1 つ目は Substantive Expertise (実質的な専門知識)、2 つ目は Danger Zone! (危険地帯!) です。ハハ、前者を見ると「くそ、なんだこの英語は分からない」と思うでしょうし、後者を見ると「なんて神秘的なんだ!」と思うでしょう。英語がわからないからといって恥ずかしがる必要はありません。バトルの記事の著者も、この 2 つの単語の選択が間違っていると考えていますが、これはひどいことです (…私が言えるのは、コンウェイが私がドメイン知識と呼ぶもの (たとえば物理学) 以外のことを意味していたとしたら、彼は Substantive Expertise という名前を非常に不適切に選択したということです)。もちろん、もう 1 つの非常に重要な可能性があります。それは、私たちの誰も、ニューヨーク大学で政治学の博士号も取得しているコンウェイほど教育を受けていないということです。

そこで、教育を受けていない技術者たちは、コンウェイの写真を少し可愛くするために修正した[7]。

この写真の方が少し面白いと思います。もちろん、私のレベル 4 の英語力では、3 つの円は確かに理解しやすいと断言する価値があります。しかし、一体データサイエンスはセンターから外されてしまったのでしょうか? そして、一体何がセンターに置かれたのでしょうか? 分かりました。 「数学と統計の知識」が「定量的手法」に置き換えられた?「ハッキングスキル」が「コンピューターサイエンス」に置き換えられた?この2つの置き換え方法から判断すると、基本的に3つ目もそれほど良くないと判断できるので、この男はこの写真のせいでWikipediaに掲載されなかった。危険地帯に疑問符はダメだということで、疑問符に置き換えられたそうです。

包括的な例の図を見てみましょう[8]。

ただ単にEvil(悪魔?)という円を追加しただけです。もちろん英語の単語が多くて、ほとんど理解できませんでした。ジェームズボンドもカメオ出演したのでしょうか?

私はまだデータサイエンスの分野での戦いに夢中になっていて、無力です。この写真もその記事からのものです。

この写真は最も関連性が高いものです。ビッグデータ、データマイニング、機械学習、人工知能について言及しています。これはタイトル写真であるべきです!(私も無力です)[9]。この図は、問題を見るためのまったく新しい視点を提供していると感じています。コンウェイの有名な図にある、より主観的で曖昧なものを取り除き、客観的なもの、データ関連、テクノロジー関連のものだけを残しています。これらの用語は、確かに同じレベルで比較することができます。この記事は、大きな謎の一部を解いたと主張している。

この記事では、いくつかの用語の意味と簡単な歴史が説明されており、私がとても気に入っている別の写真も掲載されています。

正直に言うと、これはこれまでで一番好きな絵です。これは、概念の含意と拡張についての著者の説明を提供するだけでなく、異なる概念間の機能的な関係も説明しています。すごいですね!

私がとても気に入っている別の論文としては、機械学習と統計学の類似点と相違点を分析したこの記事[10]があります。この記事では、統計学と機械学習はどちらも(ここで議論している点では)「データから何を学ぶことができるか」という同じ目標を持っているが、その違いはその方法にあると主張しています。この記事でもタイトル画像を引用しています。記事で引用されている見解の 1 つは、機械学習の手法では事前の仮定は必要なく、さまざまな変数間の固有の関係も考慮されないというものです。それらはアルゴリズムにそのまま投入できます。アルゴリズムはブラック ボックスのようなものです。データが多いほど、予測精度は向上します。機械学習手法は通常、いくつかの高次元データセットに適用されます。

一方、統計学では、データの収集方法とサンプルのさまざまな属性の分布に特に重点が置かれます。何をしているのか、また予測機能を提供するにはどのような変数が利用できるのかを正確に把握する必要があります。統計的手法は通常、低次元のデータセットに適用されます。

もちろん、現在の仕事と組み合わせると、機械学習の手法を使用しているにもかかわらず、統計に必要な領域に非常に注意を払っていることがわかります。データの取得方法、属性の分布特性などにも注意を払っています。そのため、記事の結論にあるように、両者の違いはますます小さくなってきており、将来的には区別することがますます困難になる可能性がある。 (業界ではこうなるだろうと思いこの文を付け加えました)

私が気に入っている別の写真もあります。

この図は機械学習の全プロセスを紹介しています[11]。それもとても重要だと思います。

要約する

基本的に、データ サイエンスが実際にカバーする範囲の境界は曖昧です。これは新しい分野としては驚くべきことではありません。私たちが確信していることの一つは、これが非常に包括的な学際的な科目であるということです。ビッグデータも幅広い概念です。機械学習とディープラーニングは、比較的明確な意味合いと拡張性を持つ概念であり、一般的に包括的な関係にあると認識されています。人工知能はより大きなカテゴリですが、人工知能、ビッグデータ、データサイエンスは同じものではありません。

  • [1] データサイエンスベン図の戦い、http://www.prooffreader.com/2016/09/battle-of-data-science-venn-diagrams.html
  • [2] 過去を振り返り、未来を見つめる:SAS、データマイニング、機械学習、https://blogs.sas.com/content/subconsciousmusings/2014/08/22/looking-backwards-looking-forwards-sas-data-mining-and-machine-learning/
  • [3]データサイエンスは学際的である、http://www.oralytics.com/2012/06/data-science-is-multidisciplinary.html
  • [4]データサイエンス、機械学習、データマイニングの違い、https://www.datasciencecentral.com/profiles/blogs/difference-of-data-science-machine-learning-and-data-mining
  • [5] https://en.wikipedia.org/wiki/Drew_Conway
  • [6]データサイエンスベン図、http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
  • [7]ビジネスにおけるデータサイエンス/学術界における計算社会科学? http://giventhedata.blogspot.ca/2013/03/data-science-in-businesscomputational.html
  • [8] http://joelgrus.com/2013/06/09/post-prism-data-science-venn-diagram/
  • [9] データサイエンスパズルの解説、https://www.kdnuggets.com/2016/03/data-science-puzzle-explained.html
  • [10] http://www.edvancer.in/machine-learning-vs-statistics/
  • [11] https://imarticus.org/what-is-machine-learning-and-does-it-matter/
  • [*]KDDはSIGKDD(知識発見とデータマイニングに関する特別興味グループ(SIG))の略称です。

<<:  科学者は人工知能を使って新素材を発見する

>>:  機械学習開発者が知っておくべき 5 つのディープラーニング フレームワーク

ブログ    

推薦する

基礎 | 機械学習におけるロジスティック回帰、決定木、ニューラル ネットワーク アルゴリズムの理解

1. ロジスティック回帰ロジスティック回帰。まず線形回帰から始めます。線形回帰の出力は実用的な意味を...

...

2025年までにロボットが8000万人の労働者に取って代わるのでしょうか?職を失った人はどうすればいいのでしょうか?

同紙によると、世界経済フォーラムがロボット革命に関する報告書を発表し、世界的な警戒を呼び起こした。同...

...

...

最高の AI 学習アプリ トップ 10

人工知能の革新により、ツールの使用方法は変化しています。 AI 学習アプリケーションは、適応型学習、...

...

CAPとPaxosコンセンサスアルゴリズムについての簡単な説明

CAPとはCAP理論についてはすでに多くの背景情報が語られているので、ここでは詳しくは触れません。ど...

ソラを解剖:技術的な詳細を推測するための37ページのリバースエンジニアリング、マイクロソフトも参加、中国チームが制作

ソラは発売後すぐにリバースエンジニアリングによって「解剖」されたのでしょうか? !リーハイ大学とマイ...

ジャック・マーとイーロン・マスクは「愛し合い、憎み合っている」:人間とテクノロジーの競争の勝者は誰か?

8月29日、国家発展改革委員会、科学技術部、工業情報化部、中国サイバースペース管理局、中国科学院、...

Keras よりも優れた機械学習「モデル パッケージ」: コード 0 個でモデルの作成を開始

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

GoogleとOpenAIがマシンビジョンアルゴリズムをより良く研究するための新しいツールを開発

AIの世界はどのようなものになるのでしょうか?研究者たちは何十年もの間、これに困惑してきましたが、近...

自動化戦略の6つの重要な要素

[[440295]] IT 自動化は多くの場合、自然に発生します。たとえば、システム管理者は、日常業...

アンドリュー・ングのパレートの法則: データの 80% + モデルの 20% = より優れた機械学習

機械学習の進歩がモデルによってもたらされるのか、それともデータによってもたらされるのかは、今世紀の論...

クレジットカード詐欺を検出するための機械学習モデルを構築するにはどうすればよいでしょうか?

[[187627]]機械学習は、Apple の Siri や Google のアシスタントなどのス...