機械学習におけるこれらの中核的な問題は、数学を知らなくても解決できます。

機械学習におけるこれらの中核的な問題は、数学を知らなくても解決できます。

機械学習や人工知能の分野で最も重要なトピックをわかりやすく説明するにはどうすればよいでしょうか?

人工知能は未来のトレンドとなっています。車は自動運転が可能になり、コンピューターは囲碁で人間に勝ち、ロボットは人間の仕事を奪っています。近い将来、ロボットが人間の政府を転覆させ、私たちの子孫を奴隷にするでしょう...まあ、そんなことは起こらないかもしれません。しかし、これはまた、人工知能の限界は何なのかという疑問も生じさせます。

[[267701]]

答えは明らかです。それは人工知能の定義によって異なります。人工知能が囲碁しかできないコンピュータと定義されるなら、将来の囲碁プログラムは現在よりもさらに高度なものになるでしょう。しかし残念なことに、この定義を使用する人は誰もいません。メルセデス・ベンツがスマートドライビングを宣伝するとき、おそらく自社の車で囲碁ができることについて語っているわけではないだろう。しかし逆に、マーケティング担当者と同じように AI を定義することもできます。つまり、あなたの会社では自社の製品に AI が使用されており、当社の製品も同様です。私たちの製品がどのようにして人工知能を実現しているのかは誰にもわかりませんが、それが人工的な愚かさではないことは間違いありません。

では、知能とは一体何なのでしょうか? 人間の脳、心理学、さらにはアリの社会に関する多くの研究の結果、知能は主に 2 つの部分で構成されているという結論に至りました。1 つ目はパターンを認識する能力、2 つ目はこれらのパターンを使用して目標を達成する能力です。

これには多くの説明がありますが、1 つの例が非常に明確な結論を示しています。非常に賢い人、たとえば数学が非常に得意な人のことを考えてみましょう。このような人が数学の授業にあまり注意を払わないとしたら、それはなぜでしょうか? それは、そのような人が知識を非常に速く吸収するからです。生徒はそのパターンに気づき、残りの授業時間中は注意を払わないことに決めます。これらの人は、授業で学んだ知識(パターンとも言う)を課題に適用するのが得意なので、課題を早く終わらせることもできます。

この定義は他の種類の知能にも当てはまります。たとえば、芸術的才能のある人は、何が優れた芸術であるかを認識し、その直感を使って新しい優れた芸術を創造できるようです。それでも納得できないなら、Wikipedia が知能について同様の定義を提供していることを知っておいてください。インターネット上で最も信頼できる知識源である Wikipedia と議論したくないはずです。

出典: boredpanda.com

データからパターンを抽出し、それを他のデータに適用するモデルを作成するアルゴリズムを専門とする分野があります。それが機械学習です。機械学習における最も重要な概念の 1 つに「オーバーフィッティング」があります。オーバーフィッティングとは、モデルによって発見されたパターンが複雑すぎるために、将来のポイントを予測する際に問題が発生することを言い換えたものです。

出典: wikipedia.org

赤い点と青い点を分ける線を引くというタスクがあるとします。ただし、これらの点の色はランダムである可能性があり、つまり、データが少し乱雑です。黒い線は合理的な解決策のように思えます。すべての点を正しく分類しているわけではありませんが、境界上のいくつかの点が任意の方向に移動できることを考慮しているようです。緑の線はすべてのポイントをうまく分離していますが、違いは次のとおりです。線が緑の線に従って分割された場合に新しいポイントが赤に分類される領域と、線が黒の線に従って分割された場合に新しいポイントが青に分類される領域を黄色で強調表示しています。

これは確かに Microsoft Word を通じて行われるものではありません。 Photoshopなどのプロフェッショナルソフトウェアを使用できます。

そうですね、黄色の領域には赤い点よりも青い点が含まれる可能性が高いことには誰もが同意すると思います。これは過剰適合です。緑の線は既存のポイント (トレーニング ポイント) では比較的よく区別されますが、新しいポイント (テスト ポイント) では比較的区別が不十分です。

緑の線を生成したモデルは、トレーニング ポイントでパターンが多すぎることがわかったと言えます。モデルはパターンを見つけるのが非常に得意なので、パターンを適用するときに、見つけたパターンが新しいポイントには適用されない可能性があることに気づきません。したがって、中心的な問題は、どのパターンが有効で、どれがデータ自体からの干渉に過ぎないかを見つけることです。

多くの賢い人々が、長い方程式とたくさんのギリシャ文字を使ってモデルが緑色のような奇妙な線を見つけないようにするなど、非常に巧妙な方法でこの問題を解決しようとしました。この手順は正規化と呼ばれます。トレーニング中に正則化を追加する場合でも、モデル自体に正則化を組み込む場合でも、これらはすべて機械学習を改善する方法です。

しかし、実際には、最も重要なステップを省略していました。私たちは複雑な数学に頼る前に「なぜ」と尋ねることを忘れています。確かに、「なぜ空は青いのか」や「なぜ私たちは宇宙に存在するのか」といった疑問は常に存在しますが、それらはここで言及されている疑問ではありません(あなたが探している疑問ではありません)。私たちは、知性が一般的になぜ機能するのかということにもっと関心を持っています。どのモデルが機能するかを解明しようとしていますが、どのモデルが機能するかの理由はまだ特定されていません。次の点はなぜ青か赤でなければならないのでしょうか。なぜ紫ではないのでしょうか。

実際、誰が最初にこの質問をしたのかはわかりませんが、幸運なことに、誰かが最初から答えを出すことに決めました。一部のモデルが機能する理由は、テスト データがトレーニング データとは独立して抽出され、両方が同じ分布から取得される必要があるためです。これは、モデルをテストするときに、モデルをトレーニングした環境とは異なる環境にさらすべきではないということを数学的に表現したものです。すでに多くの点が見えており、そのどれもが紫色ではないため、次の点が紫色になる確率は低くなります。結局のところ、6面のサイコロを振ったときに、半分が表で半分が裏になるとは期待できませんが、同じコインを同じように投げれば、同様の結果が得られるはずだと期待できます。感動的な引用文を借りると、「いつもやっていることをいつもやっていれば、いつも得ているものが必ず得られる。」

まあ、それは Microsoft Word によって行われます。

これは、実際のパターンと過剰適合を区別することにどのような関係があるのでしょうか? 上の図を見ると、過剰適合の主な原因は、緑の線モデルが外れ値の一部を適合させようとしていることです。これらのポイントを異なる領域にグループ化する方法があるとします。一部の領域には外れ値が含まれており、見つかったパターンに適合しません (黄色の領域)。一方、他の領域には見つかったパターンに適合するポイントが含まれます (緑の領域)。

直感的に、「緑」の領域は範囲が広く、より多くのポイントを含み、将来のポイントをより正確に予測できるはずです。つまり、「緑」の領域にさらに多くの点が表示された場合、それらの点は赤であると予想されます。一方、「黄色」の領域により多くの点が表示される場合、いくつかは赤になりますが、大部分は青であると想定されます。

もちろん、より多くのポイントを獲得するために、いつでもより多くのデータを収集することができます。しかし、時には、他の人が持っているような資金、時間、リソースを持たない貧しい学部生になってしまうこともあります。とはいえ、より多くのデータを収集することが現実的でない場合もあります。したがって、そうする代わりに、トレーニング データの一部を無視し、見逃した部分を使用してポイントを「追加」することができます。

これも新しい概念ではありません。これは検証セットの使用です (モデルがトレーニング セットで見つけたパターンを検証します)。検証セットを使用して過剰適合の特定の領域を識別するのは、新しいアプローチです。しかし、人々がこれを行わないのには理由があります。

「緑」のエリアは見た目は素晴らしいですが、まず見つけるのが難しく、次にこれらのエリアの構築はデータに依存します。簡単に言えば、一部の領域は明らかに「緑」で、一部の領域は明らかに「黄色」ですが、一部の領域はトレーニング データに基づいて構築されているため、色を判断するのが困難です。この問題の解決は、米国と同じ基本原則に依存します。異なるデータでトレーニングされた 2 つのモデルが同じ「黄色」の領域を生成するとしたら、それは奇妙なことです。

したがって、最初のモデルが不確かだった領域については、異なるデータに基づくモデルで色付けプロセスを繰り返すと、2 番目のモデルに基づいてその領域の色を決定できます。このモデルが同じ領域を見つけた場合、偶然に見つけたのではないことがほぼ確実であるため、「緑」になるはずです。逆に、2 番目のモデルで領域が見つからない場合は、干渉の可能性があり、「黄色」に色付けする必要があります。

では、これらの領域をどのように特定するのでしょうか? クラスターを見つけることです。クラスタリングとは何でしょうか?

出典: wikiepdia.org

クラスターを見つけるということは、データ内のクラスターを見つけることです。図に示すように、クラスターを見つけるということは、データ内で 3 つのクラスターを見つけることです。同じクラスター内のポイントはモデルに類似しているように見えます。これらのポイントを変換してモデルにプロットする方法が複数ある場合 (たとえば、ニューラル ネットワークの各レイヤー)、すべてのプロットで同じクラスター内にあるポイントは、定義上、モデルにとって区別できません。これは明らかです。モデルがそれらを区別できれば、それらはある時点で異なるクラスターに配置されるはずです。とにかく、常に同じクラスター内にあるこれらのポイントがどこにあるかを定義すれば、独自の領域ができます。

機械学習は、ポイントを分離できるアルゴリズム(回帰も含む)を見つけることです。アルゴリズムは分類エラーを最小限に抑えるため、緑の線を見つけることを優先します。機械学習の課題は、新しいポイントではより効果的になる可能性があるため、黒い線を取得できるアルゴリズムを見つけることです。正規化は巧妙な数学であり、黒い線に近づくのに役立ちます。

<<:  面接の質問: Nginx の負荷分散アルゴリズムはどのように実装されていますか?なぜ動きと静止を区別する必要があるのでしょうか?

>>:  大学入試特集:AI出願ガイド

ブログ    
ブログ    

推薦する

...

...

人工知能のトップ 10 トレンド。チャンスをつかんで全力で取り組みましょう。さもないと、私たち全員が解雇されてしまいます。

トレンド1:中国の潜在力が爆発し、米国の優位性が揺らぐ[[226879]] 2017年、中国の人工知...

2024 年のビッグデータ業界予測 (パート 2)

ビッグデータデジタル変革への投資は、特にインフレが継続する中で、リスク管理の強化、コストの削減、顧客...

Reddit で高く評価:機械学習分野における「8つの大罪」!査読は変化し、偶像崇拝が蔓延している

最近、Reddit コミュニティで機械学習の分野を批判する記事が白熱した議論を巻き起こし、3.1k ...

機械学習をよりスマートにする 5 つの成功事例

人工知能と機械学習は企業の世界で注目を集めており、組織はますますこれらのテクノロジーを活用して顧客の...

765,000台の車両が関与!テスラの自動運転は米国で正式に調査中、NIOはすでに渦中に巻き込まれている

[[418112]]テスラは月曜日に駐車中の緊急車両との一連の衝突事故が発生した後、オートパイロット...

...

自動運転車の実現はAIと人間のゲームである

「人間がテクノロジーを生み出すペースは加速しており、テクノロジーの力は指数関数的に成長しています。指...

事前トレーニング後、パフォーマンスが悪化します。自己トレーニングは事前トレーニングに取って代わるものでしょうか?

2018年末には、FAIRの研究者らが「ImageNetの事前トレーニングの再考」と題する論文を発...

産業用ロボット市場は変化しており、今後は国産品の台頭が期待されます!

皆さんご存知のとおり、2013年以来、我が国は世界最大の産業用ロボットの需要と応用市場となっています...

自動運転のための多視点視覚認識の理解

出力次元の観点から、視覚センサーに基づく知覚方法は、2D知覚と3D知覚に分けられます。視覚システムは...

2020年のトレンドの方向性: 産業用インターネットの人工知能アプリケーションが基礎となる

年末が近づくにつれ、多くの研究機関が2020年のトレンド予測を発表しています。これらの予測の多くは、...