畳み込みニューラルネットワークの父:人工知能が動画から常識を学ぶための次のステップ

畳み込みニューラルネットワークの父:人工知能が動画から常識を学ぶための次のステップ

志東西(公式アカウント:zhidxcom)

起源

ディープラーニング分野の大物として、ヤン・ルカン氏は近年Facebookの人工知能プロジェクトを急速に前進させており、その勢いはGoogleに劣らない。現在、Facebook の顔認識技術 DeepFace は 4 億人以上の顔を認識できますが、Yann LeCun 氏はこれに満足していません。彼は、機械視覚は写真からの認識に満足すべきではないと考えています。次のステップは、機械がビデオから「常識を学ぶ」ことです。

5年前、研究者たちは画像認識の精度において大きな進歩を遂げました。この背後にある技術、つまり人工ニューラル ネットワークが、最近の人工知能のブームを可能にしました。これにより、Google や Facebook で写真アルバムを検索できるようになり、顔認識を使用する多数のアプリも利用できるようになりました。

FacebookのAI研究チームの責任者であり、ニューヨーク大学の教授でもある彼は、機械視覚の分野におけるニューラルネットワークの応用の先駆者です。彼は、この分野にはまだ大きな発展の余地があり、この分野の進歩によって常識的なソフトウェア システムが実現できると考えています。

Q:現在のマシンビジョンのレベルはどの程度ですか?

YannLeCun : 画像に目立つ主題がある場合は、主題のカテゴリにラベルを付けるだけで済みます。十分なデータ(たとえば、カテゴリごとに 1,000 枚の画像)があれば、特定のブランドの車、特定の種類の植物、特定の血統の犬など、かなり具体的なものを認識することを学ぶことができます。風景、夕焼け、結婚式、誕生日パーティーなど、より抽象的なものも認識できます。わずか 5 年前には、この問題が解決可能であるかどうかは明らかではありませんでした。 (私たちは今それを克服しました) しかし、これは視覚の問題が解決されたことを意味するものではありません。

Q:まだ解決されていない重要な問題は何ですか?

YannLeCun : 画像や動画のキャプションや注釈を自動的に生成する取り組みは、長年行われてきました。有望に見えても、実際にはそれほど信頼できるものではないアプローチもいくつかありました。それらの適用範囲は、トレーニング方法によって大きく制限されます。ほとんどのシステムでは、他の種類のオブジェクトを含む画像や通常とは異なる状況の画像を与えると、認識パフォーマンスはひどく低下します。彼らには常識がない。

Q:視覚と常識の関係は何ですか?

ヤン・ルカン:それは誰に話すかによります。Facebook 内でも、この点については人によって意見が異なります。言語のみを使用してインテリジェント システムと通信できますが、問題は言語が非常に低い帯域幅の情報チャネルであることです。人々は情報を解釈するための豊富な背景知識を持っているため、言語を通じて多くの情報を伝達することができます。

AI システムに十分な情報を提供する唯一の方法は、言語よりもはるかに多くの情報を含む視覚認識に基づくことだと主張する人もいます。次に、機械に「これはスマートフォンです」「これはローラーです」「押せるものと押せないものがあります」と伝えると、機械は世界がどのように機能するかについて基本的な知識を学習するかもしれません。

それは赤ちゃんの学習方法に少し似ています。赤ちゃんは明確な指示がなくても、世界について信じられないほど多くのことを学びます。

私たちは、機械がビデオを見るなどして、現実世界の法則を反映した大量の事実を取得することを本当に望んでいます。これにより、最終的に彼らは常識を獲得できるようになります。幼い動物や赤ちゃんが生後数か月でどのように学習していくかを見るのは興味深いことです。彼らは、観察するだけで短期間のうちに世界に対する驚くべき理解を発達させます。そして、今日の機械は世界についてほとんど何も知らないため、さまざまな方法で簡単に騙されてしまう可能性があります。

Q:インテリジェントシステムが観察を通じて学習できるようにする上で、どのような進歩がありましたか?

YannLeCun:学習システムは未来を予測できるはずであり、私たちはこのアイデアに非常に興味を持っています。学習システムにビデオのいくつかのフレームを見せると、次に何が起こるかを予測します。この種の作業を行うようにシステムをトレーニングできれば、教師なし学習システムの基礎を構築できたことになると思います。これは、多くの興味深い可能性を開く転換点になると思います。その応用はマシンビジョンに限定されるものではなく、AI の継続的な進歩にとって重要な部分です。

<<:  AI が「脳で画像を完成させる」ことを学習: ニューラル ネットワークが 0 から 1 までの画像を完成させる

>>:  人工知能が注目を集め、ロボットキャスターが生放送の「新参者」に

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

金融や視覚分野に加えて、AIはゲーム開発においても破壊的な技術となっている。

機械学習は、ゲームプログラミングではなく、ゲーム開発トレーニングへの扉を開きます。 「ゲーム開発」は...

百度の女性デーのポスターはスマートライフの姿を描いている:人工知能は女性をより自由にする

社会の進歩と国民の意識の高まりに伴い、社会全体が女性の権利にますます注目するようになっています。 3...

...

GPTとWhisperを使用してパーソナライズされた音声アシスタントを作成する

翻訳者 | 朱 仙中レビュー | Chonglou導入この記事は、ユーザーの好みに合わせてシンプルで...

人工知能が火星の新しいクレーターの発見に貢献

人工知能ツールによって特定された、火星の最新のクレーター群の高解像度画像。画像出典: Space.c...

予測分析の 4 つの業界における用途

[[436125]]画像ソース: https://pixabay.com/images/id-602...

...

12の性能項目で1位を獲得、GPT-4に最も近い中国最大級のモデルが登場!いよいよ本格的に営業開始です!

中国はいつになったら、極めて強力な一般化能力を持つさまざまな知的存在を創造し、人類の真の助手となるこ...

...

...

Amazon Transcribe について

Amazon Transcribe は、開発者がアプリケーションに音声テキスト変換機能を簡単に追加で...

視覚的な「脳の読み取り」:脳の活動から見える世界を再構築する

人間の知覚は客観的な刺激だけでなく過去の経験によっても形成され、それらが組み合わさって脳内で複雑な活...

機械学習にはどのような数学的基礎が必要ですか?

[[184240]]ここ数か月間、データサイエンスの世界にチャレンジして、機械学習の技術を使って統...