機械学習とデータマイニングを一般の人に説明する方法

[[210849]]

データサイエンスが人工知能の発展において輝くにつれ、データマイニングと機械学習がますます多くの人々の視野に入ってきました。多くの人にとって、「機械学習」などのタイトルは素晴らしいように聞こえますが、その本当の意味は一般の人には知られていません。

特にデータサイエンスの分野で働く人々にとって、自分たちのやっていることを素人にどう説明するかというのは、ほぼ超難しい問題です。では、機械学習とは一体何なのでしょうか。また、それを一般の人にもわかる言葉で説明するにはどうすればよいでしょうか。これを次のレベルを通じて説明します。

1. 専門理論

百科事典の定義と専門用語は、人々を混乱させ、威圧感を与えます。

機械学習 (ML) は、確率論、統計、近似理論、凸解析、アルゴリズム複雑性理論などの分野を含む多分野にわたる学際的な科目です。コンピュータが人間の学習行動をシミュレートまたは実装して新しい知識やスキルを獲得し、既存の知識構造を再編成してパフォーマンスを継続的に向上させる方法を研究することに特化しています。

これは人工知能の中核であり、コンピューターをインテリジェントにする基本的な方法です。その応用は人工知能のすべての分野に広がっています。演繹ではなく、主に帰納法と合成法を使用します。

機械学習は、データマイニング、コンピュータービジョン、自然言語処理、生体認証、検索エンジン、医療診断、クレジットカード詐欺検出、証券市場分析、DNA配列解析、音声および手書き認識、戦略ゲーム、ロボット工学など、幅広い用途に使用されています。

機械学習は本質的には学習構造であり、環境、知識ベース、実行という 3 つの部分から構成されます。プロセス全体を通じて、環境はシステムに情報を提供し、システムはこの情報を使用して知識ベースを修正し、システムの実行部分がタスクを完了する効率を向上させます。実行部分は知識ベースに基づいてタスクを完了し、同時に取得した情報を学習部分にフィードバックすることで、知識ベースを継続的に改善します。

具体的な応用では、環境、知識、実行の各部分によって具体的な作業内容が決定され、学習部分で解決する必要のある問題は、上記の 3 つの部分によって完全に決定されます。簡単に言えば、機械学習とは、コンピューターが既存のデータを使用してモデルを導き出し、そのモデルを使用して未来を予測する方法であり、人間の脳の思考方法と非常に似ています。

2. 小さなことから大きなことを見る

機械学習の具体的な例を使って説明すると、人々は突然気づく。

まず、架空のシナリオを見てみましょう。部屋の中に無数の小さなボールが魔法のように浮かんでいるところを想像してください。私たちは、これらの球体が留まっている場所に特定の構造があるかどうかを理解したかったのです。たとえば、ボールは特定のエリアに集中する可能性が高いでしょうか?特定の点を意図的に避けていますか?それらは空間全体に均等に分散されていますか?

しかし、部屋は暗くて何も見えませんでした。そこで私たちはフラッシュ付きのカメラを手に入れ、部屋の中を漂う小さなボールの写真を撮ろうとしました。写真は次のようになります。

たとえボールの位置に何らかの関連があったとしても、この写真からは分かりません。ボールが均等に分散されているように見えます。そこで私たちは位置を変えて、新しい角度から2枚目の写真を撮ってみました。

写真のボールは、まだパターンがなくランダムに分布しているように見えます。もっと高い角度から試してみましょう。

うーん、まだパターンがわかりません。それでは、角度を下げてもう一度試してみましょう。

ああ、これは面白くなってきた。ボールは屋根と地面の近くの 2 つの領域に集中していて、中央にはボールがないように見える。したがって、このパターンを発見するには、写真を撮るときに「良い」角度を見つけなければなりません。角度が間違っていると、パターンを見つけることはできません。

上記の例では、実際に説明したいのは 3 次元のデータポイントです。各ボールの位置は 3 つの数字で表され、各数字は XYZ 軸上の位置を表します。実際のコンピュータ計算では、データポイントの位置はより多くのデジタルの組み合わせによって表されます。

たとえば、病院の患者の医療記録には、誕生日、身長、体重、血圧、最近の診察記録、コレステロール値など、500 セットの数字が含まれている場合があります。心臓病患者のデータポイントが集中しているかどうかなど、さまざまな患者のデータポイント間にパターンがあるかどうかを調べたいと思います。データポイントがクラスター化する傾向があり、新規入院患者のデータポイントにも同じ傾向が見られる場合、この患者は心臓発作を起こす可能性が高いと推測できます。もちろん、実際の操作は決してそれほど簡単ではありません。

人間がこれらのデータポイントを肉眼で見ることは不可能です。人はどうやって500次元を区別できるのでしょうか?上記の例と同様に、誰も「ブラックルーム」内のボールを見ることはできません。500 次元のデータポイントも見ることはできません。 2 次元画像を使用して 3 次元空間のデータポイントを表すことができるのと同じように、低次元の「写真」を使用して 500 次元のデータポイントを表すことができます。

正しい「角度」から「写真」を撮ることによってのみ、異なるデータポイント間のパターンを見つけることができます。そうでなければ、発見することは困難です。これはいわゆる「ビッグデータ」から「洞察を発見する」ことです。

3. 感情に訴え、理性に訴える

あなたのペットも理解できるはずです。

マンゴーを買って

ある日、マンゴーを買うとします。売り手はカートに商品をいっぱい詰め込んでいた。マンゴーは一つずつ摘み取ることができ、売り手は摘んだマンゴーの重さに応じて料金を請求します（インドでは典型的な状況です）。当然ですが、最も甘くて熟したマンゴーを選びたいものです（売り手は品質ではなく重量で料金を請求するため）。しかし、どうやって選ぶのでしょうか?

柔らかい黄色のマンゴーは濃い黄色のマンゴーよりも甘いとおばあちゃんが言っていたのを覚えていますか。したがって、判断基準は簡単です。柔らかい黄色のマンゴーだけを選ぶのです。マンゴーの色を一つ一つチェックして、柔らかい黄色いものをいくつか選び、代金を払って店を出る。最高じゃないですか？

しかし真実はそれほど単純ではありません。

人生は複雑だ

家に帰ってマンゴーを味わい始めます。いくつかのマンゴーは予想していたほど甘くないことに気が付きます。あなたは不安です。どうやらおばあちゃんは賢くないようです。マンゴーを選ぶのは、色を見るほど簡単ではありません。

注意深く検討し（そしてさまざまな種類のマンゴーを試食し）、大きくて柔らかい黄色のマンゴーは間違いなく甘いのに対し、小さくて柔らかい黄色のマンゴーは半分しか甘くないことがわかります（たとえば、柔らかい黄色のマンゴーを 100 個購入し、そのうち 50 個が大きくて 50 個が小さい場合、大きいマンゴー 50 個は甘いですが、小さいマンゴー 50 個のうち平均して甘いのは 25 個だけであることがわかります）。

あなたはこの発見にとても満足しており、次にマンゴーを買いに行くときにはこれらのルールを心に留めておくでしょう。しかし、次に市場に行くと、お気に入りのマンゴー屋台が町から移転してしまったことに気づきます。そこで、別のマンゴー販売業者からマンゴーを購入することにしましたが、この販売業者のマンゴーは前の販売業者のマンゴーとは原産地が異なります。ここで、以前学んだマンゴーの選び方（大きくて柔らかい黄色のマンゴーが最も甘い）がもう通用しないことに突然気づきます。もう一度最初から学ばなければなりません。売り手からさまざまな種類のマンゴーを味見したところ、小さくて濃い黄色のマンゴーが最も甘いことがわかりました。

それから間もなく、別の街から遠い親戚があなたに会いに来ました。あなたは彼女においしいマンゴー料理をご馳走するつもりです。しかし彼女は、マンゴーが甘いかどうかは問題ではなく、ただ最もジューシーなマンゴーが欲しいだけだと言いました。それで、あなたは独自の方法でさまざまなマンゴーを味わい、柔らかいマンゴーの方がジューシーであることを発見しました。

それからあなたは別の国に引っ越しました。そこでのマンゴーの味は、母国で手に入るものとは全く違います。緑のマンゴーは実は黄色のマンゴーよりも美味しいことが分かります。

次に、マンゴーが嫌いな妻と結婚します。彼女はリンゴを食べるのが好きです。毎日リンゴを買わなければなりません。その結果、マンゴー狩りで蓄積した経験はすべて突然無価値になってしまいます。リンゴの物理的特性と味の関係を学ぶには、同じ方法を使用する必要があります。あなたは彼女を愛していたからそうしたのです。

さあ、コンピュータプログラム

さて、最近、マンゴー（またはリンゴ）の収穫を支援するコンピュータプログラムを作成したと想像してください。次のようなルールを記述します。

（色が明るい黄色でサイズが大きく、お気に入りのベンダーから購入した場合）：マンゴーは甘い

if(soft): マンゴーはジューシーです

………………

マンゴーを選ぶには、これらのルールを使用します。あなたは、弟にこのルールリストに従ってマンゴーを買うように頼むでしょう。そして、弟があなたを満足させるマンゴーを買ってくれると確信するでしょう。

ただし、Mango の実験で新しい発見があった場合は、このルールのリストを手動で変更する必要があります。マンゴーの品質に影響を与えるすべての要素の複雑な詳細を理解する必要があります。

問題が複雑になるにつれて、すべてのマンゴーの種類の選択ルールを手動で開発することが非常に困難になります。あなたの研究はマンゴー科学の博士号（そのような学位が存在する場合）につながります。

しかし、これを行うのにそんなに時間がある人は誰でしょうか?

機械学習アルゴリズムを歓迎してください

機械学習アルゴリズムは通常のアルゴリズムから進化したものです。提供されたデータから自動的に学習することで、プログラムを「スマート」にします。

市場のマンゴーから一定数のサンプル（トレーニングデータ）をランダムに選択し、色、サイズ、形状、原産地、販売者など、各マンゴーの物理的特性を記録する表を作成します。 (これらは機能と呼ばれます)。

また、マンゴーが甘いか、ジューシーか、熟しているか（出力変数）も記録します。このデータを機械学習アルゴリズム (分類/回帰) に入力すると、マンゴーの物理的特性と品質の関係についてのモデルが学習されます。

次回市場に行くときは、マンゴーの特性（テストデータ）を測定し、それを機械学習アルゴリズムに入力してください。アルゴリズムは、以前に計算されたモデルに基づいて、マンゴーが甘いか、熟しているか、ジューシーであるかを予測します。

アルゴリズム内で使用されるルールは、紙に書き留めたもの（決定木など）や、より複雑なものに似ていますが、基本的にそれについて心配する必要はありません。

出来上がり！マンゴー選びの細かいことを考えずに、安心してマンゴーを購入できるようになりました。さらに、アルゴリズムは時間の経過とともに改善されていきます (強化学習)。トレーニングデータが増えるにつれて精度が高まり、誤った予測を行った後には自動的に修正されます。しかし、最も素晴らしいのは、同じアルゴリズムを使用して、リンゴ、オレンジ、バナナ、ブドウ、サクランボ、スイカの品質を予測するモデルなど、さまざまなモデルをトレーニングし、愛する人全員を幸せにできることです :)

これはあなた自身の機械学習です。クールだと思いませんか?

<<: JavaScript における一般的なソートアルゴリズムの詳細な説明

>>: シリコンバレーのエンジニアの間で大人気だったこの技術共有セッションで、ディディはどんなことを話したのでしょうか?