LeCunがまた人気です！ 1993年に公開された初のテキスト認識技術を実演したCNNのビデオがRedditのホットリストでトップに

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

畳み込みニューラルネットワークについてよくご存知かもしれません。

これはディープラーニングの古典的なアルゴリズムの 1 つです。1990 年代以降、コンピュータービジョンや自然言語処理の分野で驚異的な成果を継続的に達成してきました。

畳み込みニューラルネットワーク (CNN) は、1993 年に AT&T ベル研究所でテキスト認識のデモンストレーションに初めて使用されました。デモンストレーターは、「CNN の父」として知られる Yann LeCun でした。

今日、その年のルカンのデモビデオがネットユーザーによって再び発掘され、すぐにRedditで話題となり、1,000件近くのいいねを獲得した。

一部のネットユーザーは、このデモンストレーション以前は、汎用人工知能（AGI）やその他の難しい問題と同様に、この種のテキスト認識は実現不可能だと考えられていたとコメントした。

多くのネットユーザーも、彼らは本物のエンジニアであり、彼らに敬意を表しているというメッセージを残しました。

このビデオは、世界初のテキスト認識用畳み込みニューラルネットワークを示していると報告されており、これはCNNがコンピュータービジョンや自然言語処理で広く使用されるための重要な始まりです。

CNN: 手書き数字認識タスク

1990 年代初頭、ルカン氏は当時世界で最も権威のある研究機関の 1 つであったベル研究所に入社しました。 32 歳のとき、彼と彼の同僚は、典型的なエンドツーエンドの画像認識システムである手書きの数字を読み取って認識するシステムを作成しました。

デモビデオでは、システムが手書きの番号 210-949-4038 を迅速かつ正確に認識しました。これはベル研究所のルカン氏の電話番号だと言われています。

さらに、1990 年代には非常に珍しかった、より集中的で多様なデジタル認識タスクの処理においても優れたパフォーマンスを示しました。

[[375224]]

ビデオには、実験に参加した研究者として、研究所所長のリッチ・ハワード氏とコンピューター専門家のドニー・ヘンダーソン氏も登場している。

[[375225]]

このコードは主に NCR (National Cash Register Coporation) の小切手読み取りシステムへの応用を目的として開発されたものと理解されています。

一般的に、数値計算能力の限界や学習サンプルの不足、また同時期にサポートベクターマシン (SVM) に代表されるカーネル学習法が登場したことにより、この時期にさまざまな画像処理問題向けに設計された畳み込みニューラルネットワークは、研究室の研究段階にとどまりました。

しかし、1998 年に Yann LeCun 氏とその協力者は、より完全な畳み込みニューラルネットワーク LeNet-5 を共同で構築し、手書き数字認識の問題でさらなる成功を収めました。 1990 年代後半までに、このシステムは米国における小切手識別の 10% ～ 20% を処理していました。

実際、LeNet-5 ニューラルネットワークは、1989 年に LeCun によって提案されました。 LeNet の初期バージョンには、2 つの畳み込み層、2 つの完全接続層、合計 60,000 個の学習パラメータが含まれていました。これは TDNN や SIANN よりもはるかに大きく、構造的には現代の畳み込みニューラルネットワークに非常に近いものでした。

1989 年の論文「バックプロパゲーションとニューラルネットワークを使用した手書き数字の認識」で、LeCun がネットワーク構造について論じる際に初めて「畳み込み」という言葉を使用したことは特筆に値します。「畳み込みニューラルネットワーク」が誕生し、LeCun は後に業界で「CNN の父」と呼ばれるようになりました。

MNIST データセット

この実験に基づいて、LeCun 氏は古典的な手書きデータセット MNIST も作成しました。これは、機械学習、パターン認識、その他のタスクの研究に使用される高品質のデータベースです。Hinton 氏はこれを「機械学習界のミバエ」と呼んでいます。

MNIST 手書き数字画像データセットは、20 年以上にわたって機械学習のベンチマークとして使用されてきました。トレーニングセットとテストセットが含まれています。トレーニングセットには 60,000 個のサンプルが含まれ、テストセットには 10,000 個のサンプルが含まれます。各サンプルは 28 x 28 ピクセルのグレースケールの手書き数字画像です。

MNISTデータセットには、さまざまな（0〜9）手書き数字が含まれています。

MNIST データセットは NIST データベースから抽出されると報告されています。トレーニングデータは国勢調査局の従業員 2,000 人の手書きから取得され、テストデータは大学生 500 人の手書きから取得されます。テストセットのサンプル数が少ないため、MNIST に意味のある信頼区間を提供することは困難です。 2019年6月、Facebookとニューヨーク大学の研究者らはデータセットを拡張・再構築し、テストセットに5万個の新しいサンプルを追加しました。これに応えて、LeCun 氏は、この新しいデータセットによって MNIST が生まれ変わり、復元され、拡張されたとリツイートしました。

現在、データセットには次の 4 つのファイルが含まれています。

手書き数字認識は、コンピュータービジョンの分野における基本的なプロジェクトであり、機械学習を始めるための伝説的な「Hello World」に相当します。そのため、MNIST データセットも開発者に広く使用されています。

ディープラーニングの父、ヤン・ルカン

LeCun 氏は 1998 年以来、ディープラーニングの分野に深く携わり、OverFeat 検出フレームワーク、ステレオマッチング用の CNN、DropConnect メソッドなど、合計引用数が 10 万回を超える重要な論文を多数発表しています。

2015年、彼はモントリオール大学のヨシュア・ベンジオ教授、グーグルの副社長兼エンジニアリング研究者のジェフリー・ヒントン氏と共同で「ディープラーニング」に関するレビュー論文を執筆し、Nature誌に掲載された。

ルカン氏はCNNの重要な推進者です。 2018 年、ヤン氏は「CNN (畳み込みニューラルネットワーク) にバックプロパゲーションアルゴリズムを導入し、重み共有やプーリングなどの技術を発明して、CNN を真に使いやすくした」として、ACM (Association for Computing Machinery) から 2018 チューリング賞を受賞しました。

[[375226]]

ACM は受賞者を発表する際に、3 人のコンピューター科学者を「ディープラーニング革命の父」と呼び、「3 人の科学者が成し遂げた概念的および工学的な飛躍的進歩により、ディープニューラルネットワークはコンピューティングの重要な部分となった」と指摘しました。

チューリング賞は「コンピュータサイエンスのノーベル賞」として知られ、最古の人工コンピュータモデルである「チューリングマシン」を発明した英国の数学者アラン・チューリングにちなんで名付けられました。彼はまた、ヨシュア・ベンジオとジェフリー・ヒントンとともにこの賞を共同受賞した。

ヒントン氏はトロント大学で博士課程を学んでいた時のルカン氏の指導者でもあったことは特筆に値します。ヒントン氏は、機械学習、記憶、知覚、記号処理にニューラルネットワークを使用する方法を研究しています。当時、ディープニューラルネットワークというテーマはニッチな分野であり、ルカン氏はニューラルネットワークの研究においてヒントン氏から多大な指導と援助を受けました。

さらに、LeCun 氏は IEEE ニューラルネットワークパイオニア賞 (2014 年) と IEEE PAMI 優秀研究者賞 (2015 年) も受賞しています。彼は現在、ニューヨーク大学のデータサイエンスセンターの創設ディレクターであり、Facebook の副社長兼主任人工知能科学者です。

2020年のAAAI協会で、LeCun氏はAIの将来について「自己教師あり学習」と題した基調講演を行いました。同氏は、ディープラーニングはボトルネックに達しており、自己教師あり学習こそがAIの明るい未来であると信じています。同氏は、ディープラーニングの手法は自動運転、言語翻訳、チャットボットなどに応用できるものの、「真の」人工知能を生み出すことはできないと述べた。

自己教師学習は人間の学習プロセスに近いため、今後の開発トレンドとなるでしょう。

<<: 早期がん検査、医療AI：2020年の医療の10の進歩は注目に値する

>>: アルゴリズムが消費者を「計算」するのを防ぐにはどうすればよいでしょうか?専門家：対策のためのアルゴリズムの研究は可能