機械学習におけるこれらの中核的な問題は、数学を知らなくても解決できます。

機械学習におけるこれらの中核的な問題は、数学を知らなくても解決できます。

機械学習や人工知能の分野で最も重要なトピックをわかりやすく説明するにはどうすればよいでしょうか?

人工知能は未来のトレンドとなっています。車は自動運転が可能になり、コンピューターは囲碁で人間に勝ち、ロボットは人間の仕事を奪っています。近い将来、ロボットが人間の政府を転覆させ、私たちの子孫を奴隷にするでしょう...まあ、そんなことは起こらないかもしれません。しかし、これはまた、人工知能の限界は何なのかという疑問も生じさせます。

[[267701]]

答えは明らかです。それは人工知能の定義によって異なります。人工知能が囲碁しかできないコンピュータと定義されるなら、将来の囲碁プログラムは現在よりもさらに高度なものになるでしょう。しかし残念なことに、この定義を使用する人は誰もいません。メルセデス・ベンツがスマートドライビングを宣伝するとき、おそらく自社の車で囲碁ができることについて語っているわけではないだろう。しかし逆に、マーケティング担当者と同じように AI を定義することもできます。つまり、あなたの会社では自社の製品に AI が使用されており、当社の製品も同様です。私たちの製品がどのようにして人工知能を実現しているのかは誰にもわかりませんが、それが人工的な愚かさではないことは間違いありません。

では、知能とは一体何なのでしょうか? 人間の脳、心理学、さらにはアリの社会に関する多くの研究の結果、知能は主に 2 つの部分で構成されているという結論に至りました。1 つ目はパターンを認識する能力、2 つ目はこれらのパターンを使用して目標を達成する能力です。

これには多くの説明がありますが、1 つの例が非常に明確な結論を示しています。非常に賢い人、たとえば数学が非常に得意な人のことを考えてみましょう。このような人が数学の授業にあまり注意を払わないとしたら、それはなぜでしょうか? それは、そのような人が知識を非常に速く吸収するからです。生徒はそのパターンに気づき、残りの授業時間中は注意を払わないことに決めます。これらの人は、授業で学んだ知識(パターンとも言う)を課題に適用するのが得意なので、課題を早く終わらせることもできます。

この定義は他の種類の知能にも当てはまります。たとえば、芸術的才能のある人は、何が優れた芸術であるかを認識し、その直感を使って新しい優れた芸術を創造できるようです。それでも納得できないなら、Wikipedia が知能について同様の定義を提供していることを知っておいてください。インターネット上で最も信頼できる知識源である Wikipedia と議論したくないはずです。

出典: boredpanda.com

データからパターンを抽出し、それを他のデータに適用するモデルを作成するアルゴリズムを専門とする分野があります。それが機械学習です。機械学習における最も重要な概念の 1 つに「オーバーフィッティング」があります。オーバーフィッティングとは、モデルによって発見されたパターンが複雑すぎるために、将来のポイントを予測する際に問題が発生することを言い換えたものです。

出典: wikipedia.org

赤い点と青い点を分ける線を引くというタスクがあるとします。ただし、これらの点の色はランダムである可能性があり、つまり、データが少し乱雑です。黒い線は合理的な解決策のように思えます。すべての点を正しく分類しているわけではありませんが、境界上のいくつかの点が任意の方向に移動できることを考慮しているようです。緑の線はすべてのポイントをうまく分離していますが、違いは次のとおりです。線が緑の線に従って分割された場合に新しいポイントが赤に分類される領域と、線が黒の線に従って分割された場合に新しいポイントが青に分類される領域を黄色で強調表示しています。

これは確かに Microsoft Word を通じて行われるものではありません。 Photoshopなどのプロフェッショナルソフトウェアを使用できます。

そうですね、黄色の領域には赤い点よりも青い点が含まれる可能性が高いことには誰もが同意すると思います。これは過剰適合です。緑の線は既存のポイント (トレーニング ポイント) では比較的よく区別されますが、新しいポイント (テスト ポイント) では比較的区別が不十分です。

緑の線を生成したモデルは、トレーニング ポイントでパターンが多すぎることがわかったと言えます。モデルはパターンを見つけるのが非常に得意なので、パターンを適用するときに、見つけたパターンが新しいポイントには適用されない可能性があることに気づきません。したがって、中心的な問題は、どのパターンが有効で、どれがデータ自体からの干渉に過ぎないかを見つけることです。

多くの賢い人々が、長い方程式とたくさんのギリシャ文字を使ってモデルが緑色のような奇妙な線を見つけないようにするなど、非常に巧妙な方法でこの問題を解決しようとしました。この手順は正規化と呼ばれます。トレーニング中に正則化を追加する場合でも、モデル自体に正則化を組み込む場合でも、これらはすべて機械学習を改善する方法です。

しかし、実際には、最も重要なステップを省略していました。私たちは複雑な数学に頼る前に「なぜ」と尋ねることを忘れています。確かに、「なぜ空は青いのか」や「なぜ私たちは宇宙に存在するのか」といった疑問は常に存在しますが、それらはここで言及されている疑問ではありません(あなたが探している疑問ではありません)。私たちは、知性が一般的になぜ機能するのかということにもっと関心を持っています。どのモデルが機能するかを解明しようとしていますが、どのモデルが機能するかの理由はまだ特定されていません。次の点はなぜ青か赤でなければならないのでしょうか。なぜ紫ではないのでしょうか。

実際、誰が最初にこの質問をしたのかはわかりませんが、幸運なことに、誰かが最初から答えを出すことに決めました。一部のモデルが機能する理由は、テスト データがトレーニング データとは独立して抽出され、両方が同じ分布から取得される必要があるためです。これは、モデルをテストするときに、モデルをトレーニングした環境とは異なる環境にさらすべきではないということを数学的に表現したものです。すでに多くの点が見えており、そのどれもが紫色ではないため、次の点が紫色になる確率は低くなります。結局のところ、6面のサイコロを振ったときに、半分が表で半分が裏になるとは期待できませんが、同じコインを同じように投げれば、同様の結果が得られるはずだと期待できます。感動的な引用文を借りると、「いつもやっていることをいつもやっていれば、いつも得ているものが必ず得られる。」

まあ、それは Microsoft Word によって行われます。

これは、実際のパターンと過剰適合を区別することにどのような関係があるのでしょうか? 上の図を見ると、過剰適合の主な原因は、緑の線モデルが外れ値の一部を適合させようとしていることです。これらのポイントを異なる領域にグループ化する方法があるとします。一部の領域には外れ値が含まれており、見つかったパターンに適合しません (黄色の領域)。一方、他の領域には見つかったパターンに適合するポイントが含まれます (緑の領域)。

直感的に、「緑」の領域は範囲が広く、より多くのポイントを含み、将来のポイントをより正確に予測できるはずです。つまり、「緑」の領域にさらに多くの点が表示された場合、それらの点は赤であると予想されます。一方、「黄色」の領域により多くの点が表示される場合、いくつかは赤になりますが、大部分は青であると想定されます。

もちろん、より多くのポイントを獲得するために、いつでもより多くのデータを収集することができます。しかし、時には、他の人が持っているような資金、時間、リソースを持たない貧しい学部生になってしまうこともあります。とはいえ、より多くのデータを収集することが現実的でない場合もあります。したがって、そうする代わりに、トレーニング データの一部を無視し、見逃した部分を使用してポイントを「追加」することができます。

これも新しい概念ではありません。これは検証セットの使用です (モデルがトレーニング セットで見つけたパターンを検証します)。検証セットを使用して過剰適合の特定の領域を識別するのは、新しいアプローチです。しかし、人々がこれを行わないのには理由があります。

「緑」のエリアは見た目は素晴らしいですが、まず見つけるのが難しく、次にこれらのエリアの構築はデータに依存します。簡単に言えば、一部の領域は明らかに「緑」で、一部の領域は明らかに「黄色」ですが、一部の領域はトレーニング データに基づいて構築されているため、色を判断するのが困難です。この問題の解決は、米国と同じ基本原則に依存します。異なるデータでトレーニングされた 2 つのモデルが同じ「黄色」の領域を生成するとしたら、それは奇妙なことです。

したがって、最初のモデルが不確かだった領域については、異なるデータに基づくモデルで色付けプロセスを繰り返すと、2 番目のモデルに基づいてその領域の色を決定できます。このモデルが同じ領域を見つけた場合、偶然に見つけたのではないことがほぼ確実であるため、「緑」になるはずです。逆に、2 番目のモデルで領域が見つからない場合は、干渉の可能性があり、「黄色」に色付けする必要があります。

では、これらの領域をどのように特定するのでしょうか? クラスターを見つけることです。クラスタリングとは何でしょうか?

出典: wikiepdia.org

クラスターを見つけるということは、データ内のクラスターを見つけることです。図に示すように、クラスターを見つけるということは、データ内で 3 つのクラスターを見つけることです。同じクラスター内のポイントはモデルに類似しているように見えます。これらのポイントを変換してモデルにプロットする方法が複数ある場合 (たとえば、ニューラル ネットワークの各レイヤー)、すべてのプロットで同じクラスター内にあるポイントは、定義上、モデルにとって区別できません。これは明らかです。モデルがそれらを区別できれば、それらはある時点で異なるクラスターに配置されるはずです。とにかく、常に同じクラスター内にあるこれらのポイントがどこにあるかを定義すれば、独自の領域ができます。

機械学習は、ポイントを分離できるアルゴリズム(回帰も含む)を見つけることです。アルゴリズムは分類エラーを最小限に抑えるため、緑の線を見つけることを優先します。機械学習の課題は、新しいポイントではより効果的になる可能性があるため、黒い線を取得できるアルゴリズムを見つけることです。正規化は巧妙な数学であり、黒い線に近づくのに役立ちます。

<<:  面接の質問: Nginx の負荷分散アルゴリズムはどのように実装されていますか?なぜ動きと静止を区別する必要があるのでしょうか?

>>:  大学入試特集:AI出願ガイド

ブログ    

推薦する

4Paradigm、ビジネス担当者がAIアプリケーションを開発できるようにする新しいAIプラットフォームツールをリリース

9月18日、2018年世界人工知能会議中。 Fourth Paradigm は、自動機械学習プラット...

大量データのための2次パーソナルコネクションマイニングアルゴリズム(Hadoop実装)

私は最近、Sina Weibo の「あなたに興味があるかもしれない人々」の間接的なフォローアップ推奨...

ハイテク:米国は1キロメートル以内のターゲット認識を実現する長距離顔認識システムを開発

海外メディアの報道によると、最近「ニューサイエンス」誌に次のような記事が掲載された。 「米軍は1キロ...

チャットボットにおける2つの技術的火種: AIと機械学習

チャットボットの人気が高まるにつれて、競合するアプリケーション フレームワークが多数登場しました。 ...

AIが「テクノロジー冬季オリンピック」を支援、UBTECHロボティクスが氷と雪の世界に進出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能が社会にもっと役立つように

[[355038]]ビッグデータ時代には、「顔」が重要なデータ情報です。顔認識技術は、その独自性と優...

人工知能について知っておくべき基礎知識はすべてここにあります

21 世紀に革命をもたらした技術を 1 つ挙げるとすれば、それは人工知能でしょう。人工知能は私たちの...

機械は倫理的な判断を下せるのか?

ロボットや機械が下す決定は必ずしも道徳的に正しいとは限りません。テクノロジー企業が機械倫理に注目する...

自然言語処理 (NLP) 開発で注目に値するオープン ソース ツールにはどのようなものがありますか?

インテリジェント音声アシスタントとチャットボットは、現在人工知能のホットスポットであり、画期的な進歩...

交通渋滞の解決、放射線の監視、現場での捜索救助...ドローンにはどんな素晴らしい用途があるのでしょうか?

01 トラフィック監視セキュリティ任務におけるドローンの有望な用途の 1 つは、交通監視システムの...

生成 AI: サイバーセキュリティにとっての恩恵か、それとも災いか?

先月、イーロン・マスク氏は公開書簡でAIシステムの開発を6か月間停止するよう求め、「人間と競合する知...

2020 年の世界トップ 10 AI ガバナンス イベントと変革トレンドの展望

現在、新世代の人工知能技術が世界中で急成長を遂げており、ビッグデータ、ブロックチェーン、5Gなどの新...

...

GPT-4.5 と同等のコードインタープリター! GPT-5をトレーニングせずに、OpenAIは依然としてAGIに向けて競争している

先週、シリコンバレーのスタートアップオタクや研究者が更新するポッドキャスト「Latent Space...