人工知能、機械学習、認知コンピューティングの入門

何千年もの間、人々はインテリジェントな機械を構築する方法について考え続けてきました。それ以来、人工知能 (AI) は浮き沈みを経験してきましたが、それはその成功と実現されていない可能性の両方を証明しています。最近では、新しい問題を解決するために機械学習アルゴリズムを適用するというニュースをよく耳にします。がんの検出と予測から画像の理解と要約、自然言語処理まで、AI は人々に力を与え、世界を変えています。

現代の AI の歴史には、素晴らしいドラマの要素がすべて備わっています。 AI は、思考する機械への関心と、アラン・チューリングやジョン・フォン・ノイマンなどの著名人によって 1950 年代に注目を集めました。数十年にわたる好況と不況、そして実現されなかった期待にもかかわらず、AIとその先駆者たちは前進し続けています。今日、AI はアプリケーションに重点を置き、ディープラーニングやコグニティブコンピューティングなどのテクノロジーを提供することで、その真の可能性を発揮しています。

この記事では、AI とそのサブフィールドのいくつかの重要な側面について説明します。まず AI タイムラインを分析し、次に各要素を詳しく見ていきます。

現代AIのタイムライン

1950 年代以降、現代の AI は、いわゆる「強い AI」に重点を置くようになりました。これは、人間が実行できるあらゆるインテリジェントなタスクを一般的に実行できる AI を指します。強い AI の進歩の欠如は、最終的にはいわゆる弱い AI、つまり AI 技術をより狭い範囲の問題に適用することにつながった。 1980 年代まで、AI 研究はこれら 2 つのパラダイムに分かれていました。しかし、1980 年頃には、コンピューターが学習してモデルを構築し、特定の領域で予測などのアクティビティを実行できるようにすることを目標とした機械学習が、主要な研究分野になりました。

図1. 現代のAIのタイムライン

画像全体を表示するにはクリックしてください。ディープラーニングは、AI と機械学習の研究成果に基づいて、2000 年頃に登場しました。コンピューター科学者は、新しいトポロジーと学習方法を使用して、ニューラルネットワークを多くの層で使用しています。ニューラルネットワークの進化により、さまざまな分野の複雑な問題が解決されました。

過去 10 年間にわたり、コグニティブコンピューティングは、学習して人々と自然に対話できるシステムを構築するという目標を掲げて登場しました。 IBM Watson は、Jeopardy ゲームで世界クラスの対戦相手に勝利し、コグニティブコンピューティングの威力を実証しました。

このチュートリアルでは、各領域を詳しく検討し、コグニティブコンピューティングを成功に導いた重要なアルゴリズムのいくつかについて説明します。

基本的なAI

1950 年以前の研究では、脳は電気インパルスのネットワークで構成され、それが引き起こされて何らかの形で慎重に思考と意識に組織化されるという考えが提唱されていました。アラン・チューリングがあらゆる計算をデジタルで実行できることを示したとき、人間の脳を模倣できる機械を構築するというアイデアは遠い未来の話ではありませんでした。

初期の研究の多くは強力な AI のこの側面に焦点を当てていましたが、この時期には、今日のすべての機械学習とディープラーニングの基礎となるいくつかの基本概念も導入されました。

図2. 1980年以前のAI手法のタイムライン

AIは検索

AI における多くの問題は、ブルートフォース検索 (深さ優先探索や幅優先探索など) を使用して解決できます。しかし、一般的な問題の検索空間を考えると、基本的な検索はすぐに持続不可能になります。 AI を検索に利用した最も初期の例の 1 つは、チェスをプレイするプログラムの開発でした。アーサー・サミュエルは、IBM 701 電子データ処理マシン上で、検索ツリーに対してアルファベータ剪定と呼ばれる最適化を実行する最初のプログラムを構築しました。彼のプログラムは特定の動きに対する報酬も記録し、アプリケーションが各ゲームから学習できるようにします（自律的に学習する最初のプログラムになります）。プログラムの学習を高速化するために、サミュエルはプログラムが自分自身でチェスをプレイできるように設計し、チェスのプレイ能力と学習能力を向上させました。

検索は多くの単純な問題にはうまく適用できますが、選択肢の数が増えるとすぐに実行不可能になります。単純な三目並べゲームを例に挙げてみましょう。ゲーム開始時には、9 つの動きが可能です。各移動には 8 つの可能なカウンター移動が結果として生じます。完全な三目並べの移動ツリー (重複する移動を削除する回転最適化なし) には 362,880 個のノードがあります。同じ思考実験をチェスや囲碁にまで広げてみると、検索の欠点がすぐにわかります。

パーセプトロン

パーセプトロンは、単層ニューラルネットワーク向けの初期の教師あり学習アルゴリズムです。入力特徴ベクトルが与えられると、パーセプトロンアルゴリズムは入力を特定のカテゴリに分類することを学習します。トレーニングセットを使用することで、線形分類ネットワークの重みとしきい値を更新できます。パーセプトロンはもともと IBM 704 用に実装され、その後、画像認識用のカスタムハードウェアで使用されました。

図3. パーセプトロンと線形分類

線形分類器として、パーセプトロンは問題を線形に分離できます。パーセプトロンの制限の重要な例としては、排他的論理和 (XOR) 関数を学習できないことが挙げられます。多層パーセプトロンはこの問題を解決し、より複雑なアルゴリズム、ネットワークトポロジ、ディープラーニングへの道を開きました。

クラスタリングアルゴリズム

パーセプトロンの場合、学習方法は教師ありです。ユーザーはネットワークをトレーニングするためのデータを提供し、新しいデータでネットワークをテストします。クラスタリングアルゴリズムでは、教師なし学習と呼ばれる別の学習方法が使用されます。このモデルでは、アルゴリズムはデータの 1 つ以上の属性に基づいて、特徴ベクトルのセットをクラスターに編成します。

図4. 2次元特徴空間におけるクラスター

少量のコードで実装できる最も単純なアルゴリズムの 1 つは、k-means と呼ばれます。このアルゴリズムでは、k はサンプルを割り当てることができるクラスターの数を表します。ランダムな特徴ベクトルを使用してクラスターを初期化し、他のすべてのサンプルを最も近いクラスターに追加できます (各サンプルが特徴ベクトルを表し、ユークリッド距離を使用して「距離」が識別されると仮定します)。クラスターに例を追加すると、その重心 (クラスターの中心) が再計算されます。次に、アルゴリズムはサンプルを再度チェックして、最も近いクラスターに存在することを確認し、サンプルがクラスターのメンバーシップを変更しない場合は停止します。

k-means は比較的効率的ですが、事前に k を指定する必要があります。使用するデータによっては、階層型または分布ベースのクラスタリング手法など、他のアプローチの方が効率的な場合があります。

決定木

クラスタリングと密接に関連しているのは決定木です。決定木は、結論につながる観察値について予測を行う予測モデルです。ツリーの葉は結論を表し、ノードは観察結果が分岐する決定ポイントです。決定木は、決定木学習アルゴリズムを使用して構築されます。このアルゴリズムは、属性値テストに基づいてデータセットをサブセットに分割します (再帰パーティショニングと呼ばれるプロセスを通じて)。

下の図の例を考えてみましょう。このデータセットでは、3 つの要素に基づいて、人がより生産的になる時期を確認できます。決定木学習アルゴリズムを使用する場合、メトリックを使用して属性 (情報ゲインなど) を識別できます。この例では、気分は生産性の大きな要因なので、「良い気分」が「はい」か「いいえ」かに基づいてデータセットを分割します。「いいえ」の分岐は単純です。常に生産性の低下につながります。ただし、はいブランチでは、他の 2 つの属性に基づいてデータセットを再度分割する必要があります。観測結果がリーフノードのどこにつながるかを示すために、データセットに色を付けました。

図5. 単純なデータセットとその結果の決定木

クリックするとフルサイズの画像が表示されます決定木の便利な点の 1 つは、その固有の構成です。これにより、データ項目をどのように分類したかを簡単にグラフィカルに説明できます。一般的な決定木学習アルゴリズムには、C4.5 や分類木、回帰木などがあります。

ルールベースのシステム

ルールと推論に基づいて構築された最初のシステムである Dendral は 1965 年に開発されましたが、いわゆる「エキスパートシステム」が普及したのは 1970 年代になってからでした。ルールベースのシステムは知識とルールを保存し、推論システムを使用して結論を導き出します。

ルールベースのシステムは通常、ルールセット、知識ベース、推論エンジン (前方ルールチェーンまたは後方ルールチェーンを使用)、およびユーザーインターフェイスで構成されます。下の図では、情報 (「ソクラテスは死ぬ運命にある」)、ルール (「すべての人間は死ぬ運命にある」)、そして誰が死ぬ運命にあるかというやりとりを使用しています。

図6. ルールベースのシステム

ルールベースのシステムは、音声認識、計画と制御、病気の特定に適用されてきました。ダムの安定性を監視・診断するために1990年代に開発されたシステム「カレイドス」は、現在も稼働している。

機械学習

機械学習は、統計学と数学的最適化にルーツを持つ AI とコンピューターサイエンスのサブフィールドです。機械学習には、予測、分析、データマイニングに適用される教師あり学習と教師なし学習の手法が含まれます。これはディープラーニングに限定されるものではなく、このセクションでは、この非常に効率的なアプローチを実装するいくつかのアルゴリズムについて説明します。

図7. 機械学習手法のタイムライン

バックプロパゲーション

ニューラルネットワークの真の力は、多層的な変換にあります。単層パーセプトロンのトレーニングは簡単ですが、結果として得られるネットワークはあまり強力ではありません。すると、複数のレイヤーを持つネットワークをどのようにトレーニングするかという疑問が生じます。ここで、バックプロパゲーションアルゴリズムが登場します。

バックプロパゲーションは、多くの層を持つニューラルネットワークをトレーニングするためのアルゴリズムです。 2段階で実行されます。最初の段階では、入力をニューラルネットワークを通じて最終層に伝播します (フィードフォワードと呼ばれます)。第 2 段階では、アルゴリズムはエラーを計算し、このエラーを最後のレイヤーから最初のレイヤーにバックプロパゲート (重みを調整) します。

図8. バックプロパゲーション図

トレーニング中、ネットワークの中間層は入力空間の一部を出力空間にマッピングするように自己組織化されます。教師あり学習を通じて、バックプロパゲーションは入力と出力のマッピングにおけるエラーを識別し、それに応じて（一定の学習率で）重みを調整してこのエラーを修正します。バックプロパゲーションは常にニューラルネットワーク学習の重要な側面です。コンピューティングリソースが高速化および安価になるにつれて、バックプロパゲーションはより大規模で高密度のネットワークに適用され続けるでしょう。

畳み込みニューラルネットワーク

畳み込みニューラルネットワーク (CNN) は、動物の視覚皮質にヒントを得た多層ニューラルネットワークです。このアーキテクチャは、画像処理を含むさまざまなアプリケーションに役立ちます。最初の CNN は Yann LeCun によって作成されましたが、当時のアーキテクチャは郵便番号の読み取りなどの手書き文字認識タスクに重点を置いていました。

LeNet CNN アーキテクチャは、特徴抽出と分類を実装する複数のレイヤーで構成されています。画像は複数の受容野に分割され、入力画像から特徴を抽出する畳み込み層に送られます。次のステップはプーリングです。プーリングでは、抽出された特徴の次元を削減し（ダウンサンプリングを使用）、最も重要な情報を保持します（通常は最大プーリングを使用）。次に、アルゴリズムは別の畳み込みとプーリングのステップを実行し、完全に接続された多層パーセプトロンに入力します。このネットワークの最終的な出力層は、画像の特徴を識別するノードのセットです (この場合、識別された数字ごとに 1 つのノード)。ユーザーはバックプロパゲーションを通じてネットワークをトレーニングできます。

図9. LeNet畳み込みニューラルネットワークアーキテクチャ

ディーププロセッシング、畳み込み、プーリング、完全に接続された分類層の使用により、ニューラルネットワークのさまざまな新しいアプリケーションへの扉が開かれます。 CNN は、画像処理に加えて、多くのビデオ認識や自然言語処理タスクにも効果的に適用されています。 CNN も GPU 上に効率的に実装され、パフォーマンスが大幅に向上しました。

長期記憶と短期記憶

バックプロパゲーションの説明で、ネットワークがフィードフォワード方式でトレーニングされたことを思い出してください。このアーキテクチャでは、ユーザーがネットワークに入力を注入し、ネットワークはそれを隠し層から出力層まで伝播します。ただし、ニューラルネットワークトポロジは他にも多数存在します。ここで分析するトポロジーにより、ノード間の接続を確立して有向サイクルを形成できるようになります。これらのネットワークはリカレントニューラルネットワークと呼ばれ、前の層または層内の後続のノードにフィードバックできます。この特性により、これらのネットワークは時系列データの処理に最適です。

1997 年に、Long Short-Term Memory (LSTM) と呼ばれる特殊な種類の回帰ネットワークが作成されました。 LSTM はメモリセルで構成されています。メモリセルは、短期または長期にわたって何らかの値を記憶するネットワーク内のセルです。

図10. 長期短期記憶ネットワークとメモリセル

メモリセルには、セルへの情報の流れやセルからの情報の流れを制御するゲートが含まれています。入力ゲートは、新しい情報がメモリに流入するタイミングを制御します。忘却ゲートは、既存の情報が保持される期間を制御します。最後に、出力ゲートは、セルに含まれる情報がそのセルからの出力でいつ使用されるかを制御します。メモリセルには、各ゲートを制御する重みも含まれています。トレーニングアルゴリズムは、通常は時間の経過に従って逆伝播し (バックプロパゲーションのバリエーション)、得られたエラーに基づいてこれらの重みを最適化できます。

LSTM は、音声認識、手書き認識、テキスト音声合成、画像キャプション作成、その他さまざまなタスクに適用されてきました。すぐに LSTM に戻ります。

ディープラーニング

ディープラーニングは、機械学習を根本的に変える比較的新しい一連の手法です。ディープラーニング自体はアルゴリズムではなく、教師なし学習を通じてディープネットワークを実装するアルゴリズムのファミリーです。これらのネットワークは非常に深いため、構築にはコンピューティングノードのクラスターに加えて、新しいコンピューティング方法 (GPU など) が必要になります。

この記事ではこれまで、CNN と LSTM という 2 つのディープラーニングアルゴリズムについて説明してきました。これらのアルゴリズムの組み合わせは、さまざまな非常にインテリジェントなタスクを実現するために使用されてきました。下の図に示すように、CNN と LSTM は、自然言語を使用して写真やビデオを認識し、説明するために使用されてきました。

図11. 畳み込みニューラルネットワークと長期短期記憶ネットワークを組み合わせて画像を記述する

クリックして画像全体を表示ディープラーニングアルゴリズムは、顔認識、96% の精度での結核の識別、自動運転車、その他多くの複雑な問題にも使用されています。

しかし、ディープラーニングアルゴリズムの適用におけるこれらの成果にもかかわらず、解決すべき問題がまだいくつか残っています。最近、ディープラーニングを皮膚がん検出に応用したところ、そのアルゴリズムは専門医資格を持つ皮膚科医よりも正確であることが判明した。しかし、皮膚科医は診断に至った要因を挙げることができるが、ディープラーニングプログラムは分類にどの要因を使用したかを特定できない。これはいわゆるディープラーニングのブラックボックス問題です。

「Deep Patient」と呼ばれる別のアプリケーションは、患者の医療記録に基づいて病気を予測することに成功しました。このアプリは、予測が非常に難しいことで知られる統合失調症でさえ、医師よりもはるかに正確に病気を予測できることが判明した。したがって、これらのモデルは機能しましたが、巨大なニューラルネットワークが機能する理由を実際に理解した人は誰もいませんでした。

認知コンピューティング

AI と機械学習の両方に、生物学的インスピレーションの例は数多くあります。初期の AI は、人間の脳を模倣したマシンを構築するという壮大な目標に焦点を当てており、認知コンピューティングもこの目標の達成に取り組んでいます。

認知コンピューティングはニューラルネットワークとディープラーニングに基づいて構築されており、認知科学の知識を応用して人間の思考プロセスをシミュレートするシステムを構築します。ただし、コグニティブコンピューティングは、単一のテクノロジセットに焦点を当てるのではなく、機械学習、自然言語処理、ビジョン、人間とコンピュータの相互作用など、複数の分野を網羅しています。

認知コンピューティングの一例としては、Jeopardy で最先端の質問応答インタラクティブ機能を実証した IBM Watson が挙げられますが、その後、さまざまな Web サービスを通じてその機能を拡張してきました。これらのサービスは、視覚認識、音声テキスト変換およびテキスト音声変換機能、言語理解と翻訳、および強力な仮想エージェントを構築するための会話エンジン用のアプリケーションプログラミングインターフェイスを公開します。

結論

この記事では、AI の歴史と最新のニューラルネットワークおよびディープラーニング手法のほんの一部についてのみ説明します。 AI と機械学習の開発には浮き沈みがありましたが、ディープラーニングやコグニティブコンピューティングなどの新しいアプローチにより、これらの分野の水準は大幅に向上しました。意識を持った機械はまだ実現不可能かもしれないが、人間の生活を向上させるのに役立つシステムはすでに存在している。

<<: ビジネス上の問題を機械学習の問題に変換するにはどうすればよいでしょうか?

>>: ディープラーニングで最もよく使われる学習アルゴリズム「Adam最適化アルゴリズム」をご存知ですか？

Midjourney 5.2 がリリースされました!オリジナルの絵画から3Dシーンを生成し、無限の宇宙を無限に拡大します

人工知能、機械学習、認知コンピューティングの入門

Midjourney 5.2 がリリースされました!オリジナルの絵画から3Dシーンを生成し、無限の宇宙を無限に拡大します

Google Gemini ビデオが偽物だと暴露！マルチモーダル動画は実際に編集され、吹き替えられています。彼らは「不正行為」によって GPT-4 を破ったのでしょうか?

統計ソフトウェアStataを回帰分析に使用する方法

AI時代ではモデルは大きいほど良い

モノのインターネットを支援するAI搭載量子コンピューティング

5G、自動運転、AIがどの段階に到達したかを示す曲線

AIがあらゆるところに存在している世界を想像してみてください

高いリアリティ、全体的な一貫性、優れた外観を備えたぼやけたターゲット向けの NeRF ソリューションがリリースされました

Googleが検索エンジンアルゴリズムを調整：HTTPSサイトのランキングが上昇

清華大学は顔認識技術に脆弱性を発見、セキュリティ問題を真剣に受け止める必要がある

推薦する

SVM の原理に関する詳細なグラフィックチュートリアル!カーネル関数を自動的に選択する1行のコードと実用的なツールがあります

Transformerのトレーニング問題を解決するために、Microsoft Researchは1000層のTransformerを開発しました。

GPT-4 を使用してテキスト要約を直接生成しないでください。 MIT、コロンビア大学などが新たな「密度チェーン」のヒントを発表：エンティティ密度が要約の質の鍵

機械学習のトレーニングをより安価かつ効率的にする方法

米国は人工知能戦争への準備を強化している

ガートナー：バブルにもかかわらず、中国企業は依然としてビッグモデルと生成AIに最も関心を持っている

NLP: 車輪の再発明はしない

「顔認証」は大人気だけど、知らないことも多い

非常に少ないデータで大規模なモデルを微調整するにはどうすればよいでしょうか?

信じられますか？これら 8 つの AI テクノロジーにより、すでに次のことが可能になっています...

2024年に向けて誰もが準備すべきAIトレンドトップ10

人工知能を搭載したロボットは私たちの生活からどれくらい離れているのでしょうか?