LeCunがまた人気です! 1993年に公開された初のテキスト認識技術を実演したCNNのビデオがRedditのホットリストでトップに

LeCunがまた人気です! 1993年に公開された初のテキスト認識技術を実演したCNNのビデオがRedditのホットリストでトップに

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

畳み込みニューラル ネットワークについてよくご存知かもしれません。

これはディープラーニングの古典的なアルゴリズムの 1 つです。1990 年代以降、コンピューター ビジョンや自然言語処理の分野で驚異的な成果を継続的に達成してきました。

畳み込みニューラル ネットワーク (CNN) は、1993 年に AT&T ベル研究所でテキスト認識のデモンストレーションに初めて使用されました。デモンストレーターは、「CNN の父」として知られる Yann LeCun でした。

今日、その年のルカンのデモビデオがネットユーザーによって再び発掘され、すぐにRedditで話題となり、1,000件近くのいいねを獲得した。

一部のネットユーザーは、このデモンストレーション以前は、汎用人工知能(AGI)やその他の難しい問題と同様に、この種のテキスト認識は実現不可能だと考えられていたとコメントした。

多くのネットユーザーも、彼らは本物のエンジニアであり、彼らに敬意を表しているというメッセージを残しました。

このビデオは、世界初のテキスト認識用畳み込みニューラルネットワークを示していると報告されており、これはCNNがコンピュータービジョンや自然言語処理で広く使用されるための重要な始まりです。

CNN: 手書き数字認識タスク

1990 年代初頭、ルカン氏は当時世界で最も権威のある研究機関の 1 つであったベル研究所に入社しました。 32 歳のとき、彼と彼の同僚は、典型的なエンドツーエンドの画像認識システムである手書きの数字を読み取って認識するシステムを作成しました。

デモビデオでは、システムが手書きの番号 210-949-4038 を迅速かつ正確に認識しました。これはベル研究所のルカン氏の電話番号だと言われています。

さらに、1990 年代には非常に珍しかった、より集中的で多様なデジタル認識タスクの処理においても優れたパフォーマンスを示しました。

[[375224]]

ビデオには、実験に参加した研究者として、研究所所長のリッチ・ハワード氏とコンピューター専門家のドニー・ヘンダーソン氏も登場している。

[[375225]]

このコードは主に NCR (National Cash Register Coporation) の小切手読み取りシステムへの応用を目的として開発されたものと理解されています。

一般的に、数値計算能力の限界や学習サンプルの不足、また同時期にサポートベクターマシン (SVM) に代表されるカーネル学習法が登場したことにより、この時期にさまざまな画像処理問題向けに設計された畳み込みニューラルネットワークは、研究室の研究段階にとどまりました。

しかし、1998 年に Yann LeCun 氏とその協力者は、より完全な畳み込みニューラル ネットワーク LeNet-5 を共同で構築し、手書き数字認識の問題でさらなる成功を収めました。 1990 年代後半までに、このシステムは米国における小切手識別の 10% ~ 20% を処理していました。

実際、LeNet-5 ニューラル ネットワークは、1989 年に LeCun によって提案されました。 LeNet の初期バージョンには、2 つの畳み込み層、2 つの完全接続層、合計 60,000 個の学習パラメータが含まれていました。これは TDNN や SIANN よりもはるかに大きく、構造的には現代の畳み込みニューラル ネットワークに非常に近いものでした。

1989 年の論文「バックプロパゲーションとニューラル ネットワークを使用した手書き数字の認識」で、LeCun がネットワーク構造につ​​いて論じる際に初めて「畳み込み」という言葉を使用したことは特筆に値します。「畳み込みニューラル ネットワーク」が誕生し、LeCun は後に業界で「CNN の父」と呼ばれるようになりました。

MNIST データセット

この実験に基づいて、LeCun 氏は古典的な手書きデータセット MNIST も作成しました。これは、機械学習、パターン認識、その他のタスクの研究に使用される高品質のデータベースです。Hinton 氏はこれを「機械学習界のミバエ」と呼んでいます。

MNIST 手書き数字画像データセットは、20 年以上にわたって機械学習のベンチマークとして使用されてきました。トレーニング セットとテスト セットが含まれています。トレーニング セットには 60,000 個のサンプルが含まれ、テスト セットには 10,000 個のサンプルが含まれます。各サンプルは 28 x 28 ピクセルのグレースケールの手書き数字画像です。

MNISTデータセットには、さまざまな(0〜9)手書き数字が含まれています。

MNIST データ セットは NIST データベースから抽出されると報告されています。トレーニング データは国勢調査局の従業員 2,000 人の手書きから取得され、テスト データは大学生 500 人の手書きから取得されます。テスト セットのサンプル数が少ないため、MNIST に意味のある信頼区間を提供することは困難です。 2019年6月、Facebookとニューヨーク大学の研究者らはデータセットを拡張・再構築し、テストセットに5万個の新しいサンプルを追加しました。これに応えて、LeCun 氏は、この新しいデータセットによって MNIST が生まれ変わり、復元され、拡張されたとリツイートしました。

現在、データセットには次の 4 つのファイルが含まれています。

手書き数字認識は、コンピューター ビジョンの分野における基本的なプロジェクトであり、機械学習を始めるための伝説的な「Hello World」に相当します。そのため、MNIST データセットも開発者に広く使用されています。

ディープラーニングの父、ヤン・ルカン

LeCun 氏は 1998 年以来、ディープラーニングの分野に深く携わり、OverFeat 検出フレームワーク、ステレオ マッチング用の CNN、DropConnect メソッドなど、合計引用数が 10 万回を超える重要な論文を多数発表しています。

2015年、彼はモントリオール大学のヨシュア・ベンジオ教授、グーグルの副社長兼エンジニアリング研究者のジェフリー・ヒントン氏と共同で「ディープラーニング」に関するレビュー論文を執筆し、Nature誌に掲載された。

ルカン氏はCNNの重要な推進者です。 2018 年、ヤン氏は「CNN (畳み込みニューラル ネットワーク) にバックプロパゲーション アルゴリズムを導入し、重み共有やプーリングなどの技術を発明して、CNN を真に使いやすくした」として、ACM (Association for Computing Machinery) から 2018 チューリング賞を受賞しました。

[[375226]]

ACM は受賞者を発表する際に、3 人のコンピューター科学者を「ディープラーニング革命の父」と呼び、「3 人の科学者が成し遂げた概念的および工学的な飛躍的進歩により、ディープ ニューラル ネットワークはコンピューティングの重要な部分となった」と指摘しました。

チューリング賞は「コンピュータサイエンスのノーベル賞」として知られ、最古の人工コンピュータモデルである「チューリングマシン」を発明した英国の数学者アラン・チューリングにちなんで名付けられました。彼はまた、ヨシュア・ベンジオとジェフリー・ヒントンとともにこの賞を共同受賞した。

ヒントン氏はトロント大学で博士課程を学んでいた時のルカン氏の指導者でもあったことは特筆に値します。ヒントン氏は、機械学習、記憶、知覚、記号処理にニューラル ネットワークを使用する方法を研究しています。当時、ディープニューラルネットワークというテーマはニッチな分野であり、ルカン氏はニューラルネットワークの研究においてヒントン氏から多大な指導と援助を受けました。

さらに、LeCun 氏は IEEE ニューラル ネットワーク パイオニア賞 (2014 年) と IEEE PAMI 優秀研究者賞 (2015 年) も受賞しています。彼は現在、ニューヨーク大学のデータサイエンスセンターの創設ディレクターであり、Facebook の副社長兼主任人工知能科学者です。

2020年のAAAI協会で、LeCun氏はAIの将来について「自己教師あり学習」と題した基調講演を行いました。同氏は、ディープラーニングはボトルネックに達しており、自己教師あり学習こそがAIの明るい未来であると信じています。同氏は、ディープラーニングの手法は自動運転、言語翻訳、チャットボットなどに応用できるものの、「真の」人工知能を生み出すことはできないと述べた。

自己教師学習は人間の学習プロセスに近いため、今後の開発トレンドとなるでしょう。

<<:  早期がん検査、医療AI:2020年の医療の10の進歩は注目に値する

>>:  アルゴリズムが消費者を「計算」するのを防ぐにはどうすればよいでしょうか?専門家:対策のためのアルゴリズムの研究は可能

ブログ    
ブログ    

推薦する

ガートナー:世界の AI PC と生成 AI スマートフォンの出荷台数は 2024 年に 2 億 9,500 万台に達すると予測

ガートナーの最新予測によると、人工知能(AI)パーソナルコンピュータ(PC)と生成型人工知能(ジェネ...

ビッグデータAIベースのセキュリティシステムにおける倫理的偏見

「機械は人間を攻撃できるか?」という疑問は、世界中の会議やソーシャルチャットの議論のテーブルで浮上し...

人工知能技術の発展の概要

人工知能は、コンピュータサイエンス業界のトップテクノロジーの一つとして、1956年にダートマス会議で...

Metaが人工知能チャットボット「Meta AI」をリリース

Meta は、Meta AI と呼ばれる人工知能チャットボットをリリースしました。ザッカーバーグ氏は...

運転教習業界にも「AI」の波が吹き荒れる、普及規模に注目

[[422314]]近年、都市化と道路交通建設の加速により、自動車旅行の需要が継続的に増加しており、...

通信会社は AI と機械学習をどのように活用して利益率を向上させることができるでしょうか?

過去 10 年間で世界中のスマートフォン ユーザーの数は急増しており、今後も同様の増加傾向が続くと思...

...

機械学習にはどのような数学的基礎が必要ですか?

[[184240]]ここ数か月間、データサイエンスの世界にチャレンジして、機械学習の技術を使って統...

エネルギー分野における人工知能の5つの主要な応用

[[435080]]エネルギー分野における AI の革新と進歩により、企業がエネルギーを生産、販売、...

フェイフェイ・リーのチームの新しい作品: AI 透視眼、障害物を通して見る、そして人体のレンダリングと遮蔽における新たなブレークスルー

人物画像のビデオレンダリングは、AR/VR、映画、医療などの分野で広く使用されています。単眼カメラか...

機械学習アルゴリズムの新たな女王 — XGBoost

15年前の初出勤の日のことを今でも覚えています。大学院を終えて、世界的な投資銀行にアナリストとして...

2020年以降のAIトレンド

機械で書かれたニュース記事、AI 主導のサイバーセキュリティ、感情検出における重要な進歩など、201...

Ma Yiチームの新作!大規模なマルチモーダルモデルを微調整すると、「壊滅的な忘却」につながり、パフォーマンスが大幅に低下する可能性があります。

モデルの壊滅的な忘却は現在重要なホットトピックとなっており、GPT-4 でもそれを回避することはでき...