人工知能の簡単な歴史 | (2)ディープラーニング、人工知能の新たな盛り上がり

人工知能の簡単な歴史 | (2)ディープラーニング、人工知能の新たな盛り上がり

ヤネン・ルカンと畳み込みニューラルネットワーク

ヒントン教授の話をした後は、ディープラーニング分野のもう一人の著名人、かつてヒントン教授のもとで博士研究員として研究を行ったル・クン氏についてお話ししましょう。ル・クンは1960年にフランスのパリ近郊で生まれました。彼の父親は航空エンジニアです。ルカン氏は1988年から20年間、有名なベル研究所で勤務しました。ル・カン氏は現在、ニューヨーク大学の終身教授であり、フェイスブックの人工知能研究所の所長でもある。ル・クン教授の人工知能分野における最も重要な貢献は、深層学習における画像認識や言語認識を実現するための重要な技術である畳み込みニューラルネットワーク(CNN)の開発と推進です。ヒントン教授と同様に、ルカン教授も人工知能とニューラルネットワークの低迷期に科学研究に長期間取り組み、最終的に成功を収めた人物の一例です。ヒントン教授はこう言った。「最も暗い時代を松明を掲げて突き進んだのはルカンだった。」

畳み込みニューラル ネットワークは、生物の自然な視覚認識メカニズムからヒントを得ています。1960 年代初頭、David Hunter Hubel と Torsten Nils Wiesel は、猫の視覚皮質細胞の研究を通じて受容野の概念を提唱しました。これに触発されて、1980年に福島邦彦は畳み込みニューラルネットワークの前身であるネオコグニトロンを提案しました。 1980 年代に、ルカンは畳み込みニューラル ネットワークの理論を開発し、完成させました。 1989 年に、Lecun は有名な論文「手書きの郵便番号認識へのバックプロパゲーションの適用」を発表しました。 1998 年に彼は、7 層ニューラル ネットワークである Le Net-5 と呼ばれるシステムを設計しました。これは、数字認識の問題にうまく適用された最初の畳み込みニューラル ネットワークでした。国際的に使用されているMNIST手書き数字認識データセットでは、Le Net-5はほぼ99.2%の精度を達成できます。このシステムは後にアメリカの銀行で小切手の番号を認識するために広く使用されるようになりました。

Lecun 氏は、実りある業績を残したコンピューター サイエンスの巨匠ですが、私が最も尊敬しているのは、彼の趣味である飛行機の組み立てです。 IEEE が企画した詳細な対話の中で、彼は C++ の父である Bjarne Stroustrup と興味深い会話を交わしました。ストロングストラップ氏は「あなたはとてもクールなものをいくつか作ってきました。そのほとんどは飛行可能です。今でもそれらをいじくり回す時間がありますか、それとも仕事の楽しさは失われてしまったのですか?」と尋ねました。ルカン氏は「仕事にはたくさんの楽しみがありますが、時には自分の手で何かを作る必要があります。この習慣は航空宇宙エンジニアである父から受け継いだものです。父と兄も航空機製造に熱心です。ですから、休暇でフランスに行くと、3週間ほど航空機の製造に没頭します。」と答えました。

畳み込みニューラル ネットワークは、ローカル受容野と重み共有を使用することで、トレーニングに必要なパラメータの数を大幅に削減します。そのため、画像、音声、ビデオなどの複雑な信号のパターン認識のためのスケーラブルなディープ ネットワークの構築に非常に適しています。規模感をつかんでいただくために、現在画像認識に使用されている典型的な畳み込みニューラル ネットワークは、最大 30 層の深さ、2,400 万のノード、1 億 4,000 万のパラメーター、150 億の接続を持つことがあります。接続数がパラメータ数よりはるかに多い理由は、重み共有、つまり多くの接続が同じパラメータを使用するためです。このような大規模なモデルをトレーニングするには、多数の最先端の CPU と GPU が必要であり、膨大な量のトレーニング データを提供する必要があります。

GPUと膨大なトレーニングデータ

GPU と膨大な量のトレーニング データについて話すとき、私たち中国人の貢献について話すことができます。現在、ほとんどのディープラーニング システムは、大規模な並列コンピューティングを通じてトレーニングを加速するために NVIDIA の GPU を使用しています。NVIDIA の共同設立者兼 CEO は、台湾出身の Jen-Hsun Huang 氏です (図 3.4 を参照)。黄仁訓氏によると、2011年に人工知能分野の研究者はNVIDIAのGPUの強力な並列計算機能を発見した。当時、Google Brain プロジェクトは驚くべき成果を達成したばかりでした。YouTube 動画を 1 週間視聴することで、Google Brain のディープ ニューラル ネットワーク システムは、どの動画が猫に関するものかを識別することを学習しました。しかし、そのためには Google の巨大なデータセンターの 1 つにある 16,000 個のサーバー CPU を使用する必要があります。これらの CPU は動作と冷却に膨大な量のエネルギーを消費しますが、この規模のコンピューティング リソースを持っている人はほとんどいません。 NVIDIA とその GPU が登場しました。 NVIDIA Research の Bryan Catanzaro 氏は、スタンフォード大学の Andrew Ng 教授のチームと協力して、このプロジェクトで GPU をディープラーニングに適用しました。 12 個の NVIDIA GPU は、2,000 個の CPU と同等のディープラーニング パフォーマンスを提供できることが判明しました。それ以来、ニューヨーク大学、トロント大学、スイス人工知能研究所の研究者たちは、GPU 上でディープ ニューラル ネットワークを高速化してきました。次に、世界中の人工知能研究者が GPU を使い始め、NVIDIA は再び急速な成長を遂げ始めました。

[[391585]]

図3.4 黄仁訓(左)とイーロン・マスク(右)

1976 年に北京で生まれた Fei-Fei Li 教授 (図 3.5 参照) は、膨大な量のトレーニング データに多大な貢献をしました。フェイフェイ・リーは16歳のときに両親とともに米国に移住しました。現在はスタンフォード大学の終身教授であり、人工知能研究所と視覚研究所の所長を務めています。 2007 年、Fei-Fei Li はプリンストン大学の Kai Li 教授と協力して ImageNet プロジェクトを立ち上げました。 Image Net プロジェクト チームは、インターネットを利用して 10 億枚近くの画像をダウンロードし、Amazon Mechanical Turk などのクラウドソーシング プラットフォームを使用してこれらの画像にラベルを付けました。最盛期には、Image Net プロジェクトは Amazon Mechanical Turk プラットフォーム上で最大の雇用者数を誇るプロジェクトの 1 つとなり、世界 167 か国から約 50,000 人の従業員が協力して、プロジェクト チームが約 10 億枚の候補写真を選別、分類、ラベル付けするのを支援していました。 2009 年に、22,000 個のオブジェクトをカバーする 1,500 万枚の写真のデータベースである ImageNet プロジェクトが誕生しました。これらの項目は、大規模な英語知識グラフである Word Net の 22,000 の同義語セットに対応する、日常的な英語の単語に基づいてカテゴリ別に整理されています。 ImageNet は、質・量ともに他に類を見ないデータベースであり、同時にインターネット上で無料リソースとして公開されており、世界中の研究者が無料で利用できます。 Image Net プロジェクトは、インターネットを通じて人類が世界規模の協力を達成することによる驚異的なパワーを十分に実証しています。

図3.5 フェイフェイ・リー

機械学習アルゴリズムの継続的な最適化と、GPU 並列コンピューティング能力および大量のトレーニング データのサポートにより、ディープ ニューラル ネットワーク トレーニングにおける元々の困難が徐々に解決され、「ディープラーニング」の発展は新たな頂点を迎えました。 2012年Image Net Challengeの画像分類コンテストでは、ヒントン教授の教え子であるアレックス・クリシェフスキー教授が実装したディープラーニングシステムAlexNetが優勝し、Top5の分類エラー率は当初の26%から16%に大幅に減少しました。それ以来、ディープラーニングは性能面で機械学習分野の他の多くのアルゴリズムを上回り、その応用分野は初期の画像認識から機械学習のさまざまな分野に拡大し、人工知能の新たな波を引き起こしました。

ディープラーニングの応用

次に、さまざまな分野におけるディープラーニングの応用について、いくつかの例を挙げて説明します。まず、コンピューター ビジョンの分野を見てみましょう。光学式文字認識 (OCR) は、この分野における最も初期の実用的なアプリケーションの 1 つでした。光学文字認識とは、画像ファイル内の数字、文字、漢字など、コンピュータが理解できない文字を、コンピュータが理解できるテキスト形式に変換するプロセスです。 Google は 2004 年に Google Books プロジェクト (http://books.google.com) を開始しました。ハーバード大学、オックスフォード大学、スタンフォード大学などの大学図書館との協力により、現在では数千万冊の書籍をスキャンして識別し、全文検索を実行できるようになりました。著作権の問題のない書籍については、PDF 形式のファイルのダウンロードも提供しています。ハーバード大学図書館が大切に保管していた王陽明の『実生訓』と慧能の『六祖壇経』の古本をグーグルブックスで開いたとき、私は深い感動を覚えました。グーグルは世界中の図書館をみんなのパソコンに移すのと同じで、本当に大きな功績です。

コンピューター ビジョンの他の 2 つの一般的な応用分野は、自動運転車と顔認識です。 2010年、グーグルの自動運転車7台がカリフォルニアの道路でテストを開始した。これらの車両は、カメラ、レーダーセンサー、レーザー距離計を使用して交通状況を「確認」し、詳細な地図を使用して前方の道路をナビゲートした。車両の実際の制御は、ディープラーニングに基づく人工知能運転システムだった。 2012年5月8日、米国ネバダ州で自動運転車の公道走行が許可されてから3か月後、数十万キロに及ぶテスト走行を経て、自動車管理局はGoogleの自動運転車に合法的なナンバープレートを発行した。図 3.6 は、Google の無人運転車の設計プロトタイプです。 Facebookは2014年に、写真に写った人物を識別または検証できるディープラーニングシステム「Deep Face」を開発しました。世界的に権威のある顔認識評価データセットLFWでは、顔認識精度は97.25%に達しました。

図3.6 Googleの自動運転車の設計プロトタイプ

近い将来、10年以内には、間違いなく多くの無人運転車が道路を走るようになるでしょう。その時までに、道路上の固定カメラに加えて、無人運転車には何万台もの移動カメラが搭載されるでしょう。ディープラーニングに基づく顔認識技術と高速通信ネットワークを組み合わせることで、社会の安全を守り、犯罪者を捕まえる作業ははるかに便利になる可能性があります。同時に、すべての人のプライバシーも大きく脅かされています。人工知能の強力な力がうまく活用されることを祈るしかありません。

ディープラーニングの急速な発展により、人工知能の科学者は近年、音声認識、自然言語処理、機械翻訳、音声合成など、人間の言語コミュニケーションに関連する分野で大きな技術的進歩を達成しました。 2012年、マイクロソフトリサーチアジアが開催した21世紀コンピューティングカンファレンスにおいて、マイクロソフト上級副社長リチャード・ラシッド氏が、同社が開発した英語から中国語への同時通訳システムのデモンストレーションを行いました。この講演は世界中から大きな注目を集め、YouTubeで100万回以上再生されています。同時通訳システムは、音声認識、機械翻訳、音声合成の最新技術を組み合わせたもので、非常に短時間で効率的に完了することが求められます。 Microsoft の同時通訳システムが Skype インターネット通話に適用され、世界中のさまざまな言語を話す人々のコミュニケーションの向上をサポートしています。 AppleのSiriやGoogleのGoogle Nowなど、スマートフォンの音声アシスタントはすでに多くの人の日常生活に入り込んでいます。Alexa音声対話システム(図3.7参照)をベースにしたAmazonのEchoスマートスピーカーはさらに強力で、音声ショッピングや音声決済を直接実現できるほか、荷物の発送先を尋ねたり、お気に入りの音楽を流したり、アラームを設定したり、テイクアウトを注文したり、Uberタクシーを呼んだりすることもできます。スマートスイッチやスマートランプと接続すれば、家全体を音声で完全に制御できるスマートホーム環境にすることができます。

図3.7 AmazonのEchoスマートスピーカー

才能ある若者へのアドバイス

もちろん、これらの人工知能システムはまだ初期段階です。Siri や Echo の答えに笑ったり泣いたりすることもあるでしょう。友人たちがこれらの音声アシスタントをからかっているという話もよく聞きます。今後、より多くの優秀な人材がこの分野に参入し、よりスマートで人間的なシステムを作り上げていくことを期待しています。もしあなたの家に才能ある10代の子供がいるなら、ディープラーニングの古典であるディープラーニングをお勧めしたい。これはイアン・グッドフェロー、ベンジオ、アーロン・クールヴィルの3人の巨匠が共同で出版した本である。この本の著者は非常に無私で、この本の内容と関連資料をインターネット上に公開し、誰でも無料で学べるようにしている。ウェブサイトは
http://www.deeplearningbook.org.

この章の最後で、若き天才にさらなるアドバイスを与えたいとお考えなら、ディープラーニング分野の巨匠である Bengio 氏 (図 3.8 を参照) と彼の学生との会話を引用させてください。 2014 年、ベンジオ教授は有名なオンライン コミュニティ Reddit の機械学習セクションの「Ask Me Anything」イベントに参加し、機械学習愛好家からの多くの質問に答えました。

[[391586]]

図3.8 ベンジオ教授

ある学生がこう尋ねました。「私は科学哲学と論理学に関する学部論文を書いています。将来はコンピュータサイエンス学部に編入して修士号を取得し、その後機械学習の博士号を取得したいと考えています。数学とプログラミングを詰め込むことに加えて、私のような人間が教授の注目を集めるには何をする必要があると思いますか?」

ベンジオ教授は次のように答えた。

「1. ディープラーニングに関する論文やチュートリアルを読みます。最初は入門書から始めて、徐々に難易度を上げていきます。読書体験を記録し、学んだことを定期的に要約します。」

2.学習したアルゴリズムを自分でゼロから実装し、関連する数学を理解していることを確認します。論文に記載されている疑似コードをそのままコピーするのではなく、いくつかのバリエーションを実装してください。

3.これらのアルゴリズムを実際のデータでテストするには、Kaggle コンテストに参加できます。データを扱うことで多くのことを学ぶことができます。

4.プロセス全体を通しての経験と結果についてブログを書き、その分野の専門家に連絡して、彼らのプロジェクトでリモートで協力してもらうか、インターンシップを探してもらうか尋ねてみましょう。

5.ディープラーニングラボを見つけて応募してください。

これが私が提案するロードマップですが、十分に明確でしょうか? ”

私は心からお祈りするとともに、あなたの天才少年、あるいは彼/彼女が開発した超知能ロボットに、将来いつか、この青い惑星の美しい山や川の間で、あるいは広大な宇宙を飛ぶ宇宙船の中で会えることを楽しみにしています...

<<:  機械学習について昨日、今日、そして明日に語りましょう

>>:  人工知能の簡単な歴史 | (1) ディープラーニング、人工知能の新たな盛り上がり

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

がん治療への新たな希望:AIが科学者の生きた人間の細胞の観察を向上

[[230060]]細胞生物学者と細胞研究者は、新しい細胞モデルツールを利用できるようになりました。...

中国の人工知能は世界の潮流をリードできるか?

[[389342]] 10年以上前であれば、おそらく多くの人が、将来中国が日本や米国と同じくらい発...

...

プログラマーが知っておくべき10の基本的な実用的なアルゴリズムとその説明

[[128752]]アルゴリズム1: クイックソートアルゴリズムクイックソートは、Tony Hall...

ブロックチェーン + AI、完璧な組み合わせですね?

「この二つの技は同じ名前だが、技の内容は大きく異なる。一つは全真剣術の強力な技で、もう一つは玉女剣...

エンタープライズグレードのインテリジェントオートメーションガイド

エンタープライズ グレードのインテリジェント オートメーションとは何ですか?エンタープライズ レベル...

世界各国の人工知能の配置をご存知ですか?

[[207472]]人工知能は未来をリードする戦略技術です。世界の主要先進国は人工知能の発展を国家...

Tian Yuandong らの新しい研究: メモリのボトルネックを突破し、4090 で 7B の大規模モデルを事前トレーニング可能に

先月、Meta FAIR の Tian Yuandong が参加した研究が大きな称賛を受けました。彼...

数学モデルが人間の視覚の秘密を解き明かす

人間の視覚はどのように発達するのでしょうか?今日に至るまで、それは謎のままです。脳の視覚系は、世界自...

AI論文が急増、10万件以上の引用を誇るResNetの登場は良いことなのか悪いことなのか?この研究は、

[[442368]] 1週間前、コンピュータービジョン分野の古典であるHe Kaiming氏のRe...

世界の主要なテクノロジー企業は新型コロナウイルスとどう戦っているのか?

[[319653]]新型コロナウイルスは、ウイルス自体の急速な拡散という点だけでなく、ますます多く...

畳み込みニューラルネットワークにおける自己注意メカニズムの理解

導入コンピューター ビジョンにおけるエンコーダー/デコーダー アーキテクチャの制限とそれを改善する方...