人工知能と機械学習における13の共通概念

[[422893]]

01 人工知能

アラン・チューリングは人工知能を次のように定義しました。

カーテンの後ろに機械があり、人がその機械と（音声やタイピングなど、何らかの方法で）対話していて、その人が他の人と対話しているように感じる場合、その機械は人工知能を備えています。

これは AI を定義する非常にユニークな方法です。知能の概念に直接取り組むのではなく、むしろ人間のような行動に焦点を当てています。実際、この目標の範囲は単なるインテリジェンスよりもさらに広範囲です。この観点から見ると、AI とは、あらゆる問題を瞬時に解決できる超知能機械を構築することではなく、人間の行動を模倣できる機械を構築することを意味します。

しかし、単に人間を模倣する機械を作るだけでは、あまり面白くないように思えます。現代の観点から見ると、AI について話すときは常に、人間の言語を理解し、複雑な操作を伴う機械的なタスクを実行し、大量のデータを伴う複雑なコンピューターベースの問題を非常に短時間で解決し、人間のように答えを返すなど、次のタスクの 1 つ以上を実行できるマシンについて言及しています。

映画『2001年宇宙の旅』に描かれたスーパーコンピュータHALは、現代のAI観に非常に近い。さまざまなソースからの大量のデータを処理し、そのデータから非常に高速に洞察と要約を生成し、その結果を人間のようなインタラクティブな方法（音声会話など）で人間に伝えることができるマシンです。

人間のような行動の観点から見ると、人工知能には2つの側面があります。一方で、この機械は知能を持ち、人間とコミュニケーションをとることができるが、運動機能は一切備えていない。 HAL はこのタイプの人工知能の一例です。一方、人間のような運動能力との物理的な相互作用があり、これはロボット工学の分野に関係しています。

[[422894]]

02 機械学習

「機械学習」または略して ML という用語は、機械を使用してチェッカーゲームを解くという文脈で 1959 年にアーサーサミュエルによって造られました。この用語は、プログラムの作成者によって明示的にプログラムされていない動作を生成するように学習できるコンピュータプログラムを指します。代わりに、作成者がまったく気付いていない可能性のある動作が明らかになる可能性があります。

この動作は、次の 3 つの要素に基づいて学習されます。

プログラムによって消費されるデータ。
現在の行動と理想的な行動の間の誤差または何らかの形の距離を定量化する尺度。
量子化されたエラーを使用して、後続のイベントでより良い動作を生成するようにプログラムを導くフィードバックメカニズム。

ご覧のとおり、2 番目と 3 番目の要素によって概念がすぐに抽象化され、その深い数学的ルーツが強調されます。機械学習理論の手法は、人工知能システムの構築に不可欠です。

機械学習アルゴリズムは、大きく分けて 3 つのタイプに分類できます。

教師あり学習アルゴリズム
教師なし学習アルゴリズム
強化学習アルゴリズム。

それぞれの種類を詳しく見てみましょう。

[[422895]]

03 教師あり学習

簡単にするために、機械学習システムを、何らかの入力が与えられると何らかの出力を生成するブラックボックスとして考えてみましょう。一連の入力に対する一連の出力を含む履歴データがすでにある場合、このデータに基づく学習は教師あり学習と呼ばれます。

教師あり学習の典型的な例は分類です。 3 種類の異なる花 (Iris Setosa、Iris Versicolor、Iris Virginica) の 4 つの異なる属性 (花びらの長さ、花びらの幅、花びらの長さ、花びらの幅) を測定したとします。

それぞれの花について 25 種類の異なる例を測定しました。このデータは、モデルのトレーニングに使用できる入力 (測定された 4 つの属性) と対応する出力 (花の種類) があるトレーニングデータとして使用されます。次に、適切な機械学習モデルが教師あり方式でトレーニングされます。モデルをトレーニングすると、萼片と花びらのサイズに基づいて、任意の花（既知の 3 種類）を分類できるようになります。

04 教師なし学習

教師なし学習パラダイムでは、ラベル付きデータは利用できません。教師なし学習の典型的な例はクラスタリングです。前のサブセクションで説明したのと同じ例を考えてみましょう。この例では、3 種類の花の萼片と花弁のサイズを測定しました。ただし、この場合、各グループで測定された花の正確な名前はわかりません。私たちが持っているのは、一連の測定値だけです。さらに、これらの測定値は 3 つの異なる種類の花に属していると言われました。

この場合、教師なし学習技術を使用して、3 つの測定値セットのクラスターを自動的に識別できます。ただし、ラベルが不明であるため、各クラスターを flower-type-1、flower-type-2、flower-type-3 と呼ぶことしかできません。新しい測定値セットが与えられた場合、それらが最も近いクラスターを見つけて、その 1 つとして分類できます。

05 強化学習

強化学習は、教師あり学習法や教師なし学習法とは別に扱う必要がある特別なタイプの学習方法です。強化学習には環境からのフィードバックが含まれるため、完全に教師なし学習ではありませんが、トレーニングに使用するラベル付きの例のセットもないため、教師あり学習とは見なされません。強化学習法では、システムは環境と継続的に相互作用し、望ましい動作を生み出し、環境からフィードバックを得ようとします。

[[422896]]

06 静的学習

機械学習の手法を分類するもう 1 つの方法は、処理するデータの種類に基づいて分類することです。静的なラベル付きデータを受信するシステムは、静的学習法と呼ばれます。時間の経過とともに継続的に変化するデータを処理するシステムは、動的メソッドと呼ばれます。各方法は教師ありまたは教師なしのいずれかになりますが、強化学習方法は常に動的です。

静的学習とは、単一のスナップショットとして取得されたデータに対する学習を指し、データのプロパティは時間の経過とともに変化しません。データに対してモデルをトレーニングしたら (教師あり学習または教師なし学習のいずれかを使用)、トレーニングしたモデルを将来いつでも同様のデータに適用できます。モデルは引き続き有効であり、期待どおりに機能します。典型的な例は、さまざまな動物の画像の分類です。

07 ダイナミックラーニング

これは時系列ベースの学習とも呼ばれます。この種の問題のデータは時間に敏感であり、時間の経過とともに変化します。したがって、モデルのトレーニングは静的なプロセスではなく、モデルを継続的に（または妥当な時間枠ごとに）トレーニングして効果を維持する必要があります。

このような問題の典型的な例としては、天気予報や株式市場の予測などが挙げられます。 1 年前にトレーニングされたモデルは、明日の天気を予測したり、明日の株価を予測したりするにはまったく役に立ちません。 2 つのタイプの根本的な違いは、状態の概念にあります。静的モデルではモデルの状態は変化しませんが、動的モデルではモデルの状態は時間の関数であり、常に変化します。

[[422897]]

08 ディメンション

さまざまなデータセットを扱う場合、次元は混乱を招く概念となることがよくあります。物理的な観点から見ると、次元は長さ、幅、高さという空間的な次元です。 (簡単にするために、時間を 4 番目の次元として考えることで物理学を詳しく調べることはしません。) 実際のシナリオでは、これら 3 つの次元しか遭遇しません。

しかし、機械学習のデータを扱う場合、数十、数百、あるいはそれ以上の次元が存在することがよくあります。これらの高次元を理解するには、次元の基本的な特性を研究する必要があります。

空間の次元は、各次元が他の 2 つの次元に対して垂直または直交するように定義されます。この直交性は、3 次元空間内のすべての点を一意に表現するために不可欠です。次元が相互に直交していない場合、空間内の同じ点が複数の表現を持つ可能性があり、これに基づく数学的計算全体が失敗します。

たとえば、長さ、幅、高さの 3 つの座標を設定し、任意の原点を設定するとします (原点の正確な位置によって座標値が変わるだけで、一意性プロパティには影響しません。したがって、計算全体を通じて原点が一定である限り、原点はどのような選択でも問題ありません)。

座標 (0,0,0) は原点自体の位置を示します。座標 (1,1,1) は、各次元で原点から 1 単位離れた一意の空間点を示します。空間内の同じ位置を表すことができる他の座標系は存在しません。

さて、この概念をより高い次元に拡張してみましょう。数学的に次元を追加するのは比較的簡単ですが、それを空間的に視覚化するのは困難です。 4 番目の次元を追加する場合、それは前の 3 つの次元すべてに対して直交している必要があります。このような 4 次元空間では、原点の座標は (0,0,0,0) です。 3 次元空間の点 (1,1,1) は、4 次元空間では座標 (1,1,1,0) を持つことができます。

直交性が確保されていれば、座標の一意性は保証されます。同様に、任意の数の次元があっても、すべての計算は成立します。

先ほど説明した虹彩データの例を考えてみましょう。入力には、萼片と花弁の長さと幅の 4 つの特徴があります。これら 4 つの機能は互いに独立しているため、直交していると見なすことができます。したがって、Iris データを使用して問題を解決する場合、実際には 4 次元の入力空間を扱っています。

[[422898]]

09 次元の呪い

数学的な観点からは任意の数の次元を追加することは可能ですが、それでも問題が残ります。次元が増加すると、データの密度は指数関数的に減少します。

たとえば、トレーニングデータに 1000 個のデータポイントがあり、データに 3 つの固有の機能があるとします。すべての特徴の値が 1 から 10 の間であると仮定します。これら 1000 個のデータポイントはすべて、サイズ 10×10×10 の立方体内に配置されます。したがって、密度は 1000/1000、つまり単位立方体あたり 1 つのサンプルになります。固有の特徴が 3 つではなく 5 つある場合、データの密度は 5D 立方体あたり 0.01 サンプルに急速に低下します。

データの密度は重要です。データの密度が高いほど、適切なモデルが見つかる可能性が高くなり、モデルの精度に対する信頼度も高くなるためです。密度が低い場合、そのデータを使用してトレーニングされたモデルの信頼性は低くなります。したがって、高次元は数学的には許容されますが、高い信頼性で優れた機械学習モデルを開発できるようにするには、次元の数に注意する必要があります。

10. オッカムの剃刀

機械学習モデルを開発して適用する場合、答えを得るためには常に複数の解決策と複数のアプローチに直面します。多くの場合、どのソリューションやどのアプローチが他よりも優れているかについての理論的なガイダンスはありません。この文脈では、オッカムの剃刀（時には節約の原則とも呼ばれる）の概念を効果的に適用できます。この原則は次のように述べています。

必要最小限以上の仮定は立てるべきではありません。言い換えれば、解決策に複数の選択肢がある場合、最も単純なものが最適です。

この原理は定理ではなく、定量的な規則や方程式として適用することはできません。しかし、現実の生活でそのような決定を下すときには、それは強力かつ効果的な概念的なガイドとなります。

また、このルールによって、一方では複雑さという形でより多くの情報が得られ、他方では単純さという形でより少ない情報が得られるというトレードオフが生じることにも留意することが重要です。核心的な情報の一部が失われるほど問題を単純化してはいけません。オッカムの剃刀のもう 1 つの影響は、より単純な解決策の方が一般化の力が高くなる傾向があるということです。

11. 「ただ飯はない」定理

機械学習システムを設計する際に注意すべきもう 1 つの興味深い概念は、Wolpert と Macready の論文に出てくる「ノータダランチ」定理、または最適化における NFL 定理です。この定理は基本的に次のことを述べています。

あるアルゴリズムが 1 つのクラスの問題で優れたパフォーマンスを発揮すると、他のクラスの問題ではパフォーマンスが低下するという代償を払うことになります。言い換えれば、あらゆる種類の問題に対して、単一の最善の解決策は存在しないということです。

この定理は、法則というよりもガイドラインとして使用する必要があります。なぜなら、あらゆる問題の種類において、適切に設計されたアルゴリズムが、それほど適切に設計されていない他のアルゴリズムよりも優れたパフォーマンスを発揮する可能性が十分にあるからです。しかし、実際の状況では、この定理から、すべての問題に同じ解決策を使用して、それがすべてのケースでうまく機能すると期待することはできないことが推測できます。

12. 収穫逓減の法則

収益逓減の法則は、経済やビジネスのシナリオでよく現れます。既存の従業員数が増加するにつれて、仕事を完了するために従業員を増やすと、収益が減少し始めると述べています。

機械学習の観点から見ると、このルールは特徴エンジニアリングに適用できます。特定のデータセットからは、一定数の特徴しか抽出できず、それを超えるとパフォーマンスの向上は減少し始め、労力に見合う価値がなくなります。ある意味では、これはオッカムの剃刀と一致しており、さらに詳細が追加されています。

[[422899]]

13 エキスパートシステム

機械学習が本格的に商業化されるようになるまで、従来のコンピューティングの限界を押し広げたシステムはほとんどありませんでした。最も注目すべきアプリケーションの 1 つはエキスパートシステムです。

アラン・チューリングの定義は、機械知能が認識され、人工知能の分野が誕生した時代の始まりを示しました。しかし、初期の頃（1980 年代まで）、機械知能または機械学習の分野は、いわゆるエキスパートシステムまたは知識ベースシステムに限定されていました。エキスパートシステムの分野における第一人者の 1 人であるエドワードファイゲンバウム博士は、かつてエキスパートシステムを次のように定義しました。

解決するには相当の人間の専門知識が必要となるほど困難な問題を、知識と推論プロセスを使用して解決するインテリジェントなコンピュータプログラム。

このようなシステムは、特定の分野の専門家に取って代わることができます。これらのマシンは、複雑な論理演算に基づいて複雑なヒューリスティックタスクを実行するようにプログラムされています。

これらのシステムは特定の分野の専門家に取って代わることができますが、人間の知能と比較すると、真に「インテリジェント」なシステムではないことがわかります。その理由は、システムが特定の種類の問題のみを解決するように「ハードコード」されており、より単純だがまったく異なる問題を解決する必要がある場合、これらのシステムはすぐに完全に役に立たなくなるためです。

それにもかかわらず、これらのシステムは、特に診断、検査、監視、制御など、反復的でありながら非常に正確なパフォーマンスが求められる分野で非常に人気があり、成功しています。

著者について: Ameet V. Joshi 博士は現在、Microsoft のデータサイエンスマネージャーです。彼は2006年にミシガン州立大学で博士号を取得しました。彼は、パイプライン検査、家庭のエネルギーの内訳、Microsoft Cortana Intelligence、CRM のビジネスインテリジェンスなど、さまざまな産業分野にわたる機械学習アルゴリズムの開発において 15 年以上の経験を持っています。

<<: 金融ビジネスイノベーションを実現する自社開発グラフデータベースに基づくナレッジグラフ実装

>>: Hadoop、Spark、Hive とはいったい何でしょうか? アルゴリズムを開発するには、これらを学ぶ必要がありますか?