機械学習におけるこれらの中核的な問題は、数学を知らなくても解決できます。

機械学習や人工知能の分野で最も重要なトピックをわかりやすく説明するにはどうすればよいでしょうか?

人工知能は未来のトレンドとなっています。車は自動運転が可能になり、コンピューターは囲碁で人間に勝ち、ロボットは人間の仕事を奪っています。近い将来、ロボットが人間の政府を転覆させ、私たちの子孫を奴隷にするでしょう...まあ、そんなことは起こらないかもしれません。しかし、これはまた、人工知能の限界は何なのかという疑問も生じさせます。

[[267701]]

答えは明らかです。それは人工知能の定義によって異なります。人工知能が囲碁しかできないコンピュータと定義されるなら、将来の囲碁プログラムは現在よりもさらに高度なものになるでしょう。しかし残念なことに、この定義を使用する人は誰もいません。メルセデス・ベンツがスマートドライビングを宣伝するとき、おそらく自社の車で囲碁ができることについて語っているわけではないだろう。しかし逆に、マーケティング担当者と同じように AI を定義することもできます。つまり、あなたの会社では自社の製品に AI が使用されており、当社の製品も同様です。私たちの製品がどのようにして人工知能を実現しているのかは誰にもわかりませんが、それが人工的な愚かさではないことは間違いありません。

では、知能とは一体何なのでしょうか? 人間の脳、心理学、さらにはアリの社会に関する多くの研究の結果、知能は主に 2 つの部分で構成されているという結論に至りました。1 つ目はパターンを認識する能力、2 つ目はこれらのパターンを使用して目標を達成する能力です。

これには多くの説明がありますが、1 つの例が非常に明確な結論を示しています。非常に賢い人、たとえば数学が非常に得意な人のことを考えてみましょう。このような人が数学の授業にあまり注意を払わないとしたら、それはなぜでしょうか? それは、そのような人が知識を非常に速く吸収するからです。生徒はそのパターンに気づき、残りの授業時間中は注意を払わないことに決めます。これらの人は、授業で学んだ知識（パターンとも言う）を課題に適用するのが得意なので、課題を早く終わらせることもできます。

この定義は他の種類の知能にも当てはまります。たとえば、芸術的才能のある人は、何が優れた芸術であるかを認識し、その直感を使って新しい優れた芸術を創造できるようです。それでも納得できないなら、Wikipedia が知能について同様の定義を提供していることを知っておいてください。インターネット上で最も信頼できる知識源である Wikipedia と議論したくないはずです。

出典: boredpanda.com

データからパターンを抽出し、それを他のデータに適用するモデルを作成するアルゴリズムを専門とする分野があります。それが機械学習です。機械学習における最も重要な概念の 1 つに「オーバーフィッティング」があります。オーバーフィッティングとは、モデルによって発見されたパターンが複雑すぎるために、将来のポイントを予測する際に問題が発生することを言い換えたものです。

出典: wikipedia.org

赤い点と青い点を分ける線を引くというタスクがあるとします。ただし、これらの点の色はランダムである可能性があり、つまり、データが少し乱雑です。黒い線は合理的な解決策のように思えます。すべての点を正しく分類しているわけではありませんが、境界上のいくつかの点が任意の方向に移動できることを考慮しているようです。緑の線はすべてのポイントをうまく分離していますが、違いは次のとおりです。線が緑の線に従って分割された場合に新しいポイントが赤に分類される領域と、線が黒の線に従って分割された場合に新しいポイントが青に分類される領域を黄色で強調表示しています。

これは確かに Microsoft Word を通じて行われるものではありません。 Photoshopなどのプロフェッショナルソフトウェアを使用できます。

そうですね、黄色の領域には赤い点よりも青い点が含まれる可能性が高いことには誰もが同意すると思います。これは過剰適合です。緑の線は既存のポイント (トレーニングポイント) では比較的よく区別されますが、新しいポイント (テストポイント) では比較的区別が不十分です。

緑の線を生成したモデルは、トレーニングポイントでパターンが多すぎることがわかったと言えます。モデルはパターンを見つけるのが非常に得意なので、パターンを適用するときに、見つけたパターンが新しいポイントには適用されない可能性があることに気づきません。したがって、中心的な問題は、どのパターンが有効で、どれがデータ自体からの干渉に過ぎないかを見つけることです。

多くの賢い人々が、長い方程式とたくさんのギリシャ文字を使ってモデルが緑色のような奇妙な線を見つけないようにするなど、非常に巧妙な方法でこの問題を解決しようとしました。この手順は正規化と呼ばれます。トレーニング中に正則化を追加する場合でも、モデル自体に正則化を組み込む場合でも、これらはすべて機械学習を改善する方法です。

しかし、実際には、最も重要なステップを省略していました。私たちは複雑な数学に頼る前に「なぜ」と尋ねることを忘れています。確かに、「なぜ空は青いのか」や「なぜ私たちは宇宙に存在するのか」といった疑問は常に存在しますが、それらはここで言及されている疑問ではありません（あなたが探している疑問ではありません）。私たちは、知性が一般的になぜ機能するのかということにもっと関心を持っています。どのモデルが機能するかを解明しようとしていますが、どのモデルが機能するかの理由はまだ特定されていません。次の点はなぜ青か赤でなければならないのでしょうか。なぜ紫ではないのでしょうか。

実際、誰が最初にこの質問をしたのかはわかりませんが、幸運なことに、誰かが最初から答えを出すことに決めました。一部のモデルが機能する理由は、テストデータがトレーニングデータとは独立して抽出され、両方が同じ分布から取得される必要があるためです。これは、モデルをテストするときに、モデルをトレーニングした環境とは異なる環境にさらすべきではないということを数学的に表現したものです。すでに多くの点が見えており、そのどれもが紫色ではないため、次の点が紫色になる確率は低くなります。結局のところ、6面のサイコロを振ったときに、半分が表で半分が裏になるとは期待できませんが、同じコインを同じように投げれば、同様の結果が得られるはずだと期待できます。感動的な引用文を借りると、「いつもやっていることをいつもやっていれば、いつも得ているものが必ず得られる。」

まあ、それは Microsoft Word によって行われます。

これは、実際のパターンと過剰適合を区別することにどのような関係があるのでしょうか? 上の図を見ると、過剰適合の主な原因は、緑の線モデルが外れ値の一部を適合させようとしていることです。これらのポイントを異なる領域にグループ化する方法があるとします。一部の領域には外れ値が含まれており、見つかったパターンに適合しません (黄色の領域)。一方、他の領域には見つかったパターンに適合するポイントが含まれます (緑の領域)。

直感的に、「緑」の領域は範囲が広く、より多くのポイントを含み、将来のポイントをより正確に予測できるはずです。つまり、「緑」の領域にさらに多くの点が表示された場合、それらの点は赤であると予想されます。一方、「黄色」の領域により多くの点が表示される場合、いくつかは赤になりますが、大部分は青であると想定されます。

もちろん、より多くのポイントを獲得するために、いつでもより多くのデータを収集することができます。しかし、時には、他の人が持っているような資金、時間、リソースを持たない貧しい学部生になってしまうこともあります。とはいえ、より多くのデータを収集することが現実的でない場合もあります。したがって、そうする代わりに、トレーニングデータの一部を無視し、見逃した部分を使用してポイントを「追加」することができます。

これも新しい概念ではありません。これは検証セットの使用です (モデルがトレーニングセットで見つけたパターンを検証します)。検証セットを使用して過剰適合の特定の領域を識別するのは、新しいアプローチです。しかし、人々がこれを行わないのには理由があります。

「緑」のエリアは見た目は素晴らしいですが、まず見つけるのが難しく、次にこれらのエリアの構築はデータに依存します。簡単に言えば、一部の領域は明らかに「緑」で、一部の領域は明らかに「黄色」ですが、一部の領域はトレーニングデータに基づいて構築されているため、色を判断するのが困難です。この問題の解決は、米国と同じ基本原則に依存します。異なるデータでトレーニングされた 2 つのモデルが同じ「黄色」の領域を生成するとしたら、それは奇妙なことです。

したがって、最初のモデルが不確かだった領域については、異なるデータに基づくモデルで色付けプロセスを繰り返すと、2 番目のモデルに基づいてその領域の色を決定できます。このモデルが同じ領域を見つけた場合、偶然に見つけたのではないことがほぼ確実であるため、「緑」になるはずです。逆に、2 番目のモデルで領域が見つからない場合は、干渉の可能性があり、「黄色」に色付けする必要があります。

では、これらの領域をどのように特定するのでしょうか? クラスターを見つけることです。クラスタリングとは何でしょうか?

出典: wikiepdia.org

クラスターを見つけるということは、データ内のクラスターを見つけることです。図に示すように、クラスターを見つけるということは、データ内で 3 つのクラスターを見つけることです。同じクラスター内のポイントはモデルに類似しているように見えます。これらのポイントを変換してモデルにプロットする方法が複数ある場合 (たとえば、ニューラルネットワークの各レイヤー)、すべてのプロットで同じクラスター内にあるポイントは、定義上、モデルにとって区別できません。これは明らかです。モデルがそれらを区別できれば、それらはある時点で異なるクラスターに配置されるはずです。とにかく、常に同じクラスター内にあるこれらのポイントがどこにあるかを定義すれば、独自の領域ができます。

機械学習は、ポイントを分離できるアルゴリズム（回帰も含む）を見つけることです。アルゴリズムは分類エラーを最小限に抑えるため、緑の線を見つけることを優先します。機械学習の課題は、新しいポイントではより効果的になる可能性があるため、黒い線を取得できるアルゴリズムを見つけることです。正規化は巧妙な数学であり、黒い線に近づくのに役立ちます。

<<: 面接の質問: Nginx の負荷分散アルゴリズムはどのように実装されていますか?なぜ動きと静止を区別する必要があるのでしょうか?

>>: 大学入試特集：AI出願ガイド

【ビッグコーヒーがやってくるエピソード5】ビッグデータミドルプラットフォームの構築方法

ブログ

GitHub CEO: AIはプログラマーに取って代わることはできない

ブログ

機械学習におけるこれらの中核的な問題は、数学を知らなくても解決できます。

【ビッグコーヒーがやってくるエピソード5】ビッグデータミドルプラットフォームの構築方法

サーバーが過負荷状態です! GANで生成された肖像油絵は人気があり、一瞬でルネッサンス時代に戻ることができます

2021年の人工知能トレンドに関する5つの予測

機械学習を簡単に理解！クラスタリング、回帰、分類アルゴリズムを説明する 3 つのケース

史上最も包括的な IT アーキテクトの技術知識マップ 34 選_Tech Stack WeChat 半月刊号 01

2021年に人工知能の倫理的問題、社会的価値、影響について読むべき8冊の本

GitHub CEO: AIはプログラマーに取って代わることはできない

推薦する

グラフ畳み込みネットワークの作り方は？これは最小限のNumpy実装です

Javaは4つのWeChat赤い封筒をつかむアルゴリズムを実装し、感謝せずにそれを受け取ります

最新のAIオープンソースプロジェクト12件をダウンロードする必要があります

RLHF を諦めろ!モデル値を手動でトレーニングする必要はなく、ダートマス大学の中国語が新しいアライメントアルゴリズムのリリースを主導しました。「AI社会」は最高の教師です

Baidu の計算生物学研究が Nature のサブジャーナルに掲載されました!スタンフォード大学やMITを上回る成果、製薬分野に進出

AI時代に需要が高まる6つの仕事

米宇宙軍、データセキュリティ上の懸念から生成AIツールを禁止

清華大学特別賞焦建涛のビッグモデル起業：GPT-4ツールの使用における画期的進歩、オープンソースのシードラウンドで7000万ドルの資金調達

Redis に基づく分散ロックと Redlock アルゴリズム

大企業の面接官によく聞かれるアルゴリズム図：スタック内の最小値を見つける方法がまだわかりませんか？

最も強力なオープンソースのビッグモデルの所有者が変わりました。李開復はチームを率いて多くの世界チャートでトップに躍り出、40万件のテキストを処理して記録を破った。

マイクロソフトはWindows 11アプリストアの検索アルゴリズムを改善し、ブラウザウェブアプリのインストールをサポートする予定

人工知能は物流の自動化の方法を変え、労働集約型産業に革新をもたらすだろう