資本が投資している人工知能は本当に人工知能なのでしょうか？ 3分で機械学習とは何かを理解する

この記事は2300語で、3分ほど読むことをお勧めします。

人工知能の機械学習が実際にどのように学習するのか知りたいですか? この記事では、漫画を使って人工知能の内部の仕組みを理解しやすくします。

最近、フォックスコンは、工場では夜間に照明を点灯する必要がなくなったと発表した。労働者を必要とせず、すべての作業が人工知能マシンによって行われるようになったためだ。

ほぼすべての大企業が人工知能について語っています。

どうやら世界はもはや人間を必要としていないようだ。

人工知能という言葉を何百回も聞いたことがあるかもしれませんが、人工知能とは一体何なのでしょうか？人工知能のいわゆる機械学習はどのように学習するのでしょうか？以前プレイしたSuborゲーム機との違いは何でしょうか？

今日、私たちは漫画を使って

直接理解させてください

人工知能の内部の仕組み

▼

私たちが挙げた例は、機械学習における教師あり学習です。

~~人工知能の機械学習は、教師あり学習、教師なし学習、強化学習、モンテカルロ木などに分けられます。~~この文が理解できない場合は、以下の説明には影響しないので、完全に無視してかまいません。

私は伝説の大ボス、人工知能だ！怖いか？

実際、人工知能は基本的に人工知能と同じです。人間にとって明らかなことでも、人工知能が理解するには長い時間がかかり、実行できない場合もあります。

まず、人工知能と従来のコンピュータ原理の関係についてお話ししましょう。

最も伝統的なコンピューターはこれです——

その動作原理は、特定の入力があれば、特定の出力があるというものです。

同じ原理が機械にも当てはまります。例えば、これ

しかし、人間は刺激を受けると、このように反応することが多い。

現実世界では、彼女の顔を見ると、どんなメイクをしていても一目で分かります。

しかし、従来のコンピューターは、単一の入力値と単一の決定された出力パターンに困惑しています。

しかし、どうすれば機械に人間の入出力機能を模倣させ、人間のような知能を持たせることができるのでしょうか?これが人工知能の問題の核心です。

実際、必要なのは、複雑な入力信号を分解して計算し、計算のさまざまな要素に対してさまざまな処理を実行して、入力がどのように変化してもほぼ妥当な出力を生成できるようにすることです。

専門用語で言えば、これは入力と出力の間の隠れ層で一連の重み調整を行ってモデルを構築することを意味します。

このように、顔にどのような変装を施しても、一定の範囲内であれば機械は顔を認識できるのです。

この時点で、機械は人間のように人を認識できるようになり、人工知能になります。

▼

これを読めば、あなたは実際に 90% 以上の人よりも人工知能について理解していることになります。しかし、人工知能は具体的にどうやって重みを調整するのでしょうか? ロボットが人の顔を押して殺すという話をすることができます。

最初のステップは、機械が顔を認識できるようにすることです。

そのため、顔を含む写真をたくさん入力する必要があります。

顔のさまざまな部分が、一連の数値に抽象化されます。たとえば、鼻は長さと幅という 2 つのデータポイントに非常に単純化できます。

次に、それを処理プログラムに送信します。人工ニューラルネットワークは現在非常に普及しているので、これを使用します。これらの数字の流れは、確かに人間の脳神経の働きに少し似ています。

この図はわかりにくいように見えるかもしれませんが、実は非常に単純です。入力された数値に係数を 1 つずつ掛けて合計するだけです。

はい、これらの係数は「重み」と呼ばれます。

出力層の出力は通常の数値です。しきい値を例えば 20 に設定し、歯、鼻、目を数えると 28 になります。20 より大きい場合は、入力が顔であると判断します。

これはパーセプトロンと呼ばれる非常に原始的な人工ニューラルネットワークです。

しかし、現代のニューラルネットワークでは、活性化関数と呼ばれるものが導入され、この画一的な遅延が少しだけスマートなものに変わります。

この画像の意味は何ですか？

それは、非常に単純な「それはあるか」という質問を「何パーセントか」という確率の質問に変換することです。かなりスマートに見えませんか?

同時に、効果を決定する鍵は実はそれらの「重み」であることに気づいたはずです。

適切な重量の組み合わせを得るにはどうすればいいですか?

これが機械学習の意味です。つまり、各テストの結果に基づいて機械が独自の重みを修正できるようにすることです。

待ってください、それはどうやって善悪を判断するのでしょうか?

それでも、人間がこれらの写真を事前に分類する必要があります。どれが人間で、どれが犬で、どれが ET か...

これは人間が標準的な答えのテストを課すようなものなので、「教師あり学習」と呼ばれます。

そして、このプロセスを繰り返し続けると、重みは徐々に適切な組み合わせに調整され、出力結果はどんどん良くなり、判断はどんどん正確になります。

改善を実現するために同じプロセスを何度も繰り返すこの方法は、「反復」と呼ばれます。

ニューラルネットワークが正しく設計されていれば、最終的には人間を正確に識別できるようになります。

現在、最先端のアルゴリズムにより、さまざまな条件下で 98% を超える精度を達成できます。

このプロセス全体を「トレーニング」と呼びます。

トレーニングに使用する画像と各画像に対応するラベルは、「トレーニングセット」と呼ばれます。

▼

通常、人工知能を紹介する記事では、ここでこれ以上詳しく説明しません。読み進めていくと、人工知能に対する理解が 99.99% の人間の理解をはるかに超えることになります。

では、レンガ職人になる準備はできていますか?

まず、誰もが最も興味を持っているのは、プログラムがどのように重みを調整するかということです。

このプロセスはバックプロパゲーションと呼ばれ、次のように機能します。各トレーニング実行中に、プログラムが到達した結論がどの程度間違っていたかを判断します。

プログラムの推測と回答はどちらも数値に変換できることはすでに述べました。

すべての誤差の二乗を合計し、平均して「損失関数」を取得します。

もちろん、損失関数が小さいほど良くなり、ニューラルネットワークがより強力になることを意味します。

最初は山の頂上にいるかもしれませんが、それは「損失」が特に大きいことを意味するので、損失を止めるためにできるだけ早く山を下りなければなりません。

どうやってやるのでしょうか? 最も一般的で効果的な方法の 1 つは、谷に簡単に到達できるように、常に最も急なルートを選択することです。

損失関数が特定の最小値に達し、あまり変化しない場合は、トレーニングがほぼ完了したことを意味します。この方法は「勾配降下法」と呼ばれます。

具体的には、導関数を求めることです。

この式を見ると、崩壊したくなるでしょうか?

まだ完全に崩壊していないのであれば、少し説明させてください。

この式は、ある重みがこれだけ減少すると、対応する重みに関する損失関数の偏微分が α 倍されることを意味します。

この偏導関数の値をどのように見つけるかについては...本当に知りたいですか?

そしてこのαも非常に重要で、「学習率」と呼ばれます。

つまり、エラーを発見した後、変更が大きすぎたり小さすぎたりするのは良くないということです。例えば、運転の仕方、方向転換の仕方など

変化（係数）の大きさがどの程度であるべきかについては、あなたの理解次第です。

▼

さて、難しいことを言ったところで、ゴシップの話をしましょう。

なぜ私たちは人工知能にこれほど多くの類人猿、イルカ、トカゲを殺させているのでしょうか?

なぜなら、ネガティブなサンプルがなければ、AI は常に正しい判断を下すことになるからです。

このように、学習して経験を積む（重みを調整する）というプロセスはなく、現実世界で実際に顔を見つける機能もありません。

いわゆる人工知能の専門家が使用する謎の用語に騙されないでください。実際、人工ニューラルネットワークの教師あり学習のプロセス全体は、自動化された回帰分析に他なりません。

最も単純な単変量線形回帰から多変量非線形回帰まで、プロセスはますますインテリジェントになっているようです。これが、人工知能の専門家が機械学習を段階的に習得する方法です。

▼

***、ここまで我慢できれば…

おめでとうございます。これで、機械学習の専門家になるための半分の道のりを歩み終えました。

次回は、教師なし学習や強化学習など、他の人工知能技術についてもお話ししたいと思います。

参考文献:

スタンフォード大学公開講座: 機械学習
FaceNet: 顔認識とクラスタリングのための統合埋め込み、Florian Schroff、Dmitry Kalenichenko、James Philbin、Google Inc.
効率的なバックプロップ、ヤン・ルカン、レオ・ボットー
人工知能の時代、ジェリー・カプラン
心、言語、社会、ジョン・サール

<<: 人工知能はチェスをプレイする以外に何をすべきでしょうか?

>>: ディープラーニングに関しては、こちらをお読みください