AI、機械学習、ディープラーニングの解放

AI、機械学習、ディープラーニングの解放

【51CTO.com クイック翻訳】

[[393512]]

AI、機械学習、ディープラーニングの発展を理解する

まず、少し背景を説明します。

ディープラーニングは機械学習のサブセットであり、機械学習は人工知能のサブセットですが、これらの名前の由来は興味深い歴史に由来しています。また、ディープラーニングを他の種類の機械学習と区別する魅力的な技術的特徴もいくつかあります。これは、ML、DL、または AI のスキルレベルが高い人にとっては必須の実用的な知識です。

2021 年にスキルを向上させたり、ビジネス/研究戦略を導いたりしたいと考えている場合は、ディープラーニングのスキル不足を嘆く記事を目にしたことがあるでしょう。数年前には、機械学習のスキルを持つ専門家の不足に関する同様の記事を読んだでしょうし、さらに数年前には、「ビッグデータ」に精通したデータサイエンティストの不足に人々は注目していたでしょう。

同様に、アンドリュー・ン氏は長年にわたり「AI は新しい電気である」と語り、ビジネスや社会における AI の出現が産業革命と同様の影響を及ぼすだろうと繰り返し示唆してきました。スキル不足の警告は誇張されているとも言えるが、そもそも埋められる役割よりも、最も必要とされるスキルについての考えが早く変わるのはなぜだろうか。

もっと広い視点で見てみると、AI 研究にはなぜ長年にわたりこれほど多くの異なる名前やタイトルが付けられてきたのでしょうか。

本稿執筆時点では、求人サイト Indeed.com で「ディープラーニング」を検索すると、約 49,000 件のヒットが返されます。これは少し面白いことです。なぜなら、ディープラーニングは人工知能の分野である機械学習のサブセットであり、検索機械学習と人工知能はそれぞれ約 40,000 と約 39,000 の雇用を生み出しているからです。

ディープラーニングが人工知能の一部であるなら、なぜ後者の求人が約 20% 少ないのでしょうか?答えは、これらの分野で使用される用語は、実質的な違いよりも、トレンドや市場化のレベルに関係する傾向があるということです。技術的な特徴に基づいてカテゴリーを区別できないと言っているわけではありません。私たちはそうするつもりです。

実際、ディープラーニングと「古典的な」機械学習(浅いニューラル ネットワークや統計学習を含む)の間には、非常に興味深い新たな特徴がいくつかあります。そのことについて話す前に、AI の歴史を見てみましょう。さまざまな AI 用語の人気は、後に打ち砕かれる前に高い期待を生み出し、新しいアイデアが古い問題に対する新しい解決策につながることで最終的に信頼を取り戻すことに大きく関係していることがわかります。

ダートマスセミナー:人工知能の名前の由来

ダートマスセミナーは、1956 年に少数の著名な数学者と科学者によって開催された夏季会議でした。

このワークショップは、人工知能の分野における創始的な仕事であると広く考えられており、さまざまな名前(それぞれ独自の概念的基盤を持つ)のさまざまな分野を人工知能の傘の下にまとめています。 1955年にジョン・マッカーシーがこの会議を提案する以前、思考する機械のアイデアはオートマトン理論やサイバネティクスなどのさまざまなアプローチで追求されていました。出席者には、クロード・シャノン、ジョン・ナッシュ、マービン・ミンスキーといった著名人がいた。ダートマス シンポジウムは、インテリジェント マシンに関連するいくつかの独立した研究分野を結び付けるだけでなく、今後 10 年間の研究に対する野心的な期待も示しています。

結局、これらの野望は失望と最初の AI の冬 (AI の誇大宣伝サイクルにおける静穏の盛衰を表す用語) に終わることになった。

1973 年、英国の教授ジェームズ・ライトヒル卿は、「人工知能: 総合調査」(ライトヒル報告書としても知られる) を執筆しました。ライトヒル氏は報告書の中で、AI 研究を A、B、C の 3 つのカテゴリーに分類しました。ライトヒル氏は、カテゴリー A と C (高度な自動化と計算神経科学) で満たされていない期待について述べる一方で、この分野の最も顕著な欠陥は、非常に明確なカテゴリー B (ロボット工学) にあると述べています。ライトヒルの報告書は、マービン・ミンスキーとシーモア・ペイパートが設計したパーセプトロンという初期の浅いニューラルネットワークの欠点のいくつかを示した論文とともに、1970年代に広まり始めたAIの冬の到来を告げる大きな前兆であると今日まで考えられている。

「この研究を学んだ研究者は、20世紀に大規模な知識ベースを学習または自己組織化モードで効率的に処理できる非常に汎用的なシステムを開発することを期待するのは非現実的であることに同意しています。」—ジェームズ・ライトヒル、人工知能:概要

コネクショニズムと1980年代の人工知能の復活

すぐに AI への関心が再燃し、1980 年代にはこの分野への資金が徐々に戻り始めました。ニューラル ネットワークとパーセプトロンの分野は、明らかに最初の時点で人気が落ちていましたが (多くの人がミンスキーとパパートを非難しました)、今回はそれらが大きな役割を果たすことになります。おそらく、以前の失望から距離を置くための努力の一環として、ニューラル ネットワークは「コネクショニズム」という新しい名前で正当な研究に再び参入することになるだろう。

実際、ユルゲン・シュミットフーバー、ヤン・ルカン、ヨシュア・ベンジオ、ジェフリー・ヒントンなど、現代のディープラーニングの最も有名な人物の多くは、1980 年代から 1990 年代初頭にかけて、バックプロパゲーションや勾配消失問題などの基礎研究を行っていましたが、1980 年代の AI 研究の真の主役はエキスパート システムの分野にいました。ライトヒル氏が報告書で批判した「大げさな主張」とは異なり、カーネギーメロン大学で開発された XCON などのエキスパートシステムは、実際に定量化可能なビジネス上のメリットをもたらします。

XCON は、Digital Equipment Corporation に年間 4,000 万ドルの節約をもたらしたとされるエキスパート システムです。 XCON のようなシステムやいくつかの有名なゲーム システムが使用されているため、民間の研究開発ラボと政府のプロジェクトの両方で AI への資金が戻ってきています。しかし、これは長くは続かないでしょう。

組み合わせ爆発は未解決の課題のままであり、現実世界のシナリオの複雑さを列挙することは困難になります。特に、エキスパート システムは、絶えず変化する情報を処理するには脆弱すぎるため、更新にはコストがかかります。同様に、説得力があり有能なロボットもどこにも見当たりません。

ロドニー・ブルックスやハンス・モラベックなどのロボット工学者は、人間の専門知識をコンピュータープログラムに凝縮するという骨の折れる手作業では、混雑した歩道を歩いたり、騒がしい人混みの中で友人を見つけたりするといった人間の最も基本的なスキルを解決するには不十分であることを強調し始めました。やがて、現在ではモラベックのパラドックスとして知られている現象により、簡単なことは AI にとって難しいが、大金を計算したり、チェッカーのエキスパートをプレイしたりするような難しいことは比較的簡単であることが明らかになりました。

エキスパートシステムは脆弱で高価であることが判明し、失望のきっかけとなりましたが、同時に、学習ベースの人工知能の人気が高まり、多くの研究者がこの分野に集まり始めました。機械学習における彼らの重点には、ニューラル ネットワークだけでなく、サポート ベクター マシン、クラスタリング アルゴリズム、回帰モデルなどのさまざまなアルゴリズムとモデルが含まれます。

1980 年代から 1990 年代への移行は、文字通り何百もの AI 企業や部門がこの期間中に閉鎖されたことから、一部の人々からは第 2 の AI の冬と考えられています。これらの企業の多くは当時、高性能コンピューティング (HPC) の構築に携わっており、それらの閉鎖はムーアの法則が AI の進歩に大きな役割を果たすことを示唆しています。

1990 年代後半に IBM が開発したチェス チャンピオン システムである Deep Blue は、より優れたエキスパート システムではなく、計算によって実現されるアルファベータ検索によって実現されました。自宅のデスクトップで同じパフォーマンスが得られるのに、なぜ専用の Lisp マシンに高額を支払うのでしょうか?

トランジスタが物理的限界に達したため、ムーアの法則は大幅に減速しましたが、NVIDIA と AMD が主導するエンジニアリングの改善により、現代の AI における新たなブレークスルーが実現し続けています。現在、最新のディープラーニング モデルを最適にサポートできるコンポーネントで設計されたオールインワン AI ワークステーションは、ほんの数年前の最先端のハードウェアよりもはるかに速いペースで進化しています。

ニューラルネットワークの実際の応用

しかし、1990 年代初頭は、研究と実用化の面では、実にゆっくりとした成長期でした。当時、将来のチューリング賞受賞者たちは画期的な研究を行っており、ニューラル ネットワークはすぐに郵便物の仕分けなどの作業における光学文字認識に実用化される予定でした。 LSTM は 1997 年に勾配消失問題で進歩を遂げ、ニューラル ネットワークやその他の機械学習手法における有意義な研究を導き続けています。

機械学習という用語は人気を集め続けていますが、これはおそらく、人工知能に関連する過度に野心的な主張(および SF の汚名)から距離を置こうとする真剣な研究者の努力によるものでしょう。着実な進歩とハードウェアの改善により、AI は新世紀に入っても進化を続けました。しかし、ニューラル ネットワークの自然な並列数学プリミティブとして高度に並列化されたグラフィックス プロセッシング ユニット (GPU) が採用されて初めて、ディープラーニングの現代に突入しました。

現代のAI: ディープラーニングの到来

AI におけるディープラーニング時代の始まりについて考えるとき、多くの人が 2012 年の ImageNet Large Scale Visual Recognition Challenge での Alex Krizhevsky らの成功と、その GPU トレーニング済みモデルを挙げます。今日の基準からすると規模は控えめですが、いわゆるAlexNetは、競争の激しいアプローチの分野で決定的な勝利を収めました。

それ以来、このチャレンジの優勝者はすべて、畳み込みニューラル ネットワークの同様の原理に基づいて構築してきたため、畳み込みネットワークの多くの機能とトレーニング中に学習されたカーネルの重みが動物の視覚システムに類似していることは驚くべきことではありません。

AlexNet は特に深い畳み込みニューラル ネットワークではありません。先端から末尾まで 8 層に及びますが、これは 20 年以上前に説明された畳み込みネットワークである LeNet-5 (pdf) よりも 3 層だけ深いだけです。代わりに、AlexNet の主な貢献は、GPU でのトレーニングが可能であり、非常に望ましいことを実証したことです。

AlexNet 開発の直接の系譜では、ディープ ニューラル ネットワークのより高速で効率的なトレーニングをサポートするために特別に設計された GPU が登場しました。

AlexNetはAIのブレークスルーの原型となった

2012 年の ILSVRC と AlexNet のコンテストでのパフォーマンスは非常に象徴的で、過去 10 年間の AI のブレークスルーの原型となりました。

良くも悪くも、人々は自然言語処理、ロボット工学、歩行分析などにおける「ImageNet の瞬間」について語っています。それ以来、私たちは長い道のりを歩んできました。ディープラーニング モデルは、ゲームのプレイ、説得力のあるテキストの生成、および前述のモラベックのパラドックスで言及されている「簡単であることは難しい」というカテゴリに分類されるその他のカテゴリにおいて、人間に近いかそれ以上のパフォーマンスを発揮しています。

ディープラーニングは基礎科学研究にも貢献しており、2020 年にはタンパク質構造予測生物学の根本的な課題に明確な貢献を果たしました。

ハードウェア アクセラレーションにより、深く幅広いニューラル ネットワークをトレーニングすることが可能になりますが、大規模なモデルが小規模なモデルよりも優れた結果を生み出す仕組みや理由については説明されていません。現代のディープラーニングの先駆者の一人として広く知られるジェフリー・ヒントン氏は、機械学習ニューラルネットワーク MOOC で、ニューラルネットワークを使用した機械学習は 7 つのレベルでディープラーニングになるという説を提唱しました。

これはディープラーニングパラダイムの初期の経験則としては間違っていないと思いますが、ディープラーニングモデルが他の形式の機械学習とは異なる方法でトレーニングされる方法について考えることで、より意味のある線引きができると考えています。

また、ディープラーニングは通常、複数の完全結合層または畳み込みニューラル層で構成されるモデルを指しますが、この用語にはニューラル常微分方程式やニューラルセルオートマトンなどのモデルも含まれることにも注意してください。

ディープラーニングを可能にするのは、計算の複雑さと操作の深さであり、必ずしも層を人工ニューロンで構成する必要はありません。

ディープラーニングによるバイアスと分散のトレードオフからの脱出

統計学習は、この記事では触れられていない機械学習のサブセットですが、何百万ものデータや基礎研究を行う科学者にとって依然として重要な専門分野です。

統計学習と機械学習において、小規模なモデルとデータセットにとって最も重要な概念の 1 つは、バイアスと分散のトレードオフです。バイアスはトレーニング データへの適合不足に対応し、通常はモデルがデータセット内のパターンを適切に表現できないことの症状です。

一方、分散は、トレーニング データに適合しすぎて検証データへの一般化が不十分なモデルに対応します。覚えやすい同義語は「underfit/overfit」です。


単純な分類問題における過剰適合の漫画例。濃い紫色の点はトレーニング データを表し、黒い決定境界は過剰適合されています。明るい紫色の点は決定境界から正しく除外されましたが、トレーニング セットに表示されなかった 2 つのオレンジ色の点 (矢印を参照) は、外れ値として誤って分類されました。背景の破線は実際の分類境界を表しています。

統計モデルと浅いニューラル ネットワークの場合、アンダーフィッティングはモデルが小さすぎることの症状として解釈されることが多く、オーバーフィッティングはモデルが大きすぎることの症状として解釈されます。もちろん、モデルをより適切に一般化するために正規化するためのさまざまな戦略がありますが、その説明は別の機会に残しておきます。より大きなモデルは、より大きなデータセットをより有効に活用できる傾向があります。

より大きなデータセットを活用するための、より大きなモデルの能力を漫画で表現したものです。画像は著者提供。

トレーニング データセットと検証データセットにおけるモデル パフォーマンスの差は、多くの場合、過剰適合を示しており、このバイアスは、トレーニング エポックやモデルが増えるにつれて悪化します。しかし、モデルとデータセットの両方が大きくなると、興味深い現象が現れます。この魅力的な二重降下現象は、初期にはパフォーマンスが向上し、その後、過剰適合によりパフォーマンスが低下するものの、最終的にはパフォーマンスが向上することを意味します。これは、モデルの深さ、幅、またはトレーニング データが増加するにつれて発生し、おそらくディープラーニングと浅いニューラル ネットワークを区別する最も論理的な場所です。

深い二重の下降を漫画で表現したもの。画像は著者提供。

一般化は良い結果を生み出す傾向がありますが、ドロップアウトのような正則化手法はより良い結果を生み出す傾向があります。宝くじ仮説などのディープラーニングの他の特徴も関連している可能性があります。

AIサブフィールドの歴史と理論的基礎の概要

これで、AI のいくつかのサブフィールドの歴史と原理、そして歴史上のさまざまな時点での呼び名に関する説明は終わりです。

また、ディープラーニング モデルの興味深い識別特性についても説明しました。それは、直感的には過剰適合すると予想される場合でも、規模やデータの増加に伴って継続的に改善できるというものです。もちろん、投資家/マネージャー/資金提供者にプロジェクトを売り込む場合や、潜在的な雇用主に自分自身を紹介する場合は、マーケティングの観点から用語について考える必要があるかもしれません。

この場合、自分の仕事を、一般の人々には AI、投資家にはディープラーニング、カンファレンスの同僚や仲間には機械学習として説明するとよいでしょう。

出典: DZone オリジナルリンク: https://dzone.com/articles/disentangling-ai-machine-learning-and-deep-learning

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  AIはセルオートマトンを通じてMinecraftで家を建てることを学ぶ

>>:  Java プログラミング スキル - データ構造とアルゴリズム「マージ ソート」

ブログ    
ブログ    

推薦する

インテリジェントな顧客サービス チャット モジュールの 3 つのソリューションを比較すると、どれが気に入りましたか?

現在のインテリジェント顧客サービス市場とその NLP 分野において、チャット モジュールは非常に重要...

...

...

全天候型インテリジェント無人配達、即時消費が「無人」時代の到来を告げる

「携帯電話で注文すれば、1時間以内に商品が自宅に届く」という即時消費が「無人」時代の到来を告げた。本...

キャッシュ、キャッシュ アルゴリズム、キャッシュ フレームワークの概要

導入私たちは皆、キャッシュについて聞いたことがあります。キャッシュとは何かと尋ねると、完璧な答えが返...

...

AIはプログラマーの仕事を破壊する最初のものとなるでしょうか?プログラマーの90%は就職が難しくなっていると考えており、大学生もキャリアプランの調整が必要

一夜にしてプログラマーは仕事を見つけられなくなるようですね?海外メディアのマザーボードとブラインドが...

...

ドライバー疲労モニタリングシステムの開発動向に関する簡単な分析

車両に先進運転支援システムが搭載されることで、ドライバーの安全性と快適性がさらに向上しました。先進運...

Swift モバイル ゲーム開発に適用される幅優先探索アルゴリズム

[51CTO.com クイック翻訳] Swift Algorithm Club (https://g...

...

ハト駆除に関しては、自律型ドローンが究極の藁人形になるかもしれない

私たちはハトが大好きですが、ハトは建物やその他の構造物を汚したり、健康被害をもたらす可能性があります...

機械分野におけるLDAトピックモデルを説明する記事

[[211903]]序文このブログ投稿では、第一レベルの数学的導出の観点から LDA トピック モデ...

探索的データ分析: 人工知能と機械学習の有効性を判断するための第一歩

データ品質の低さは、人工知能 (AI) および機械学習 (ML) テクノロジの実際のパフォーマンスを...

大規模マルチビューガウスモデル(LGM):5秒で高品質の3Dオブジェクトを生成、試用可能

メタバースにおける 3D クリエイティブ ツールの需要の高まりに対応するため、3 次元コンテンツ生成...