畳み込みニューラルネットワークの父:人工知能が動画から常識を学ぶための次のステップ

畳み込みニューラルネットワークの父:人工知能が動画から常識を学ぶための次のステップ

志東西(公式アカウント:zhidxcom)

起源

ディープラーニング分野の大物として、ヤン・ルカン氏は近年Facebookの人工知能プロジェクトを急速に前進させており、その勢いはGoogleに劣らない。現在、Facebook の顔認識技術 DeepFace は 4 億人以上の顔を認識できますが、Yann LeCun 氏はこれに満足していません。彼は、機械視覚は写真からの認識に満足すべきではないと考えています。次のステップは、機械がビデオから「常識を学ぶ」ことです。

5年前、研究者たちは画像認識の精度において大きな進歩を遂げました。この背後にある技術、つまり人工ニューラル ネットワークが、最近の人工知能のブームを可能にしました。これにより、Google や Facebook で写真アルバムを検索できるようになり、顔認識を使用する多数のアプリも利用できるようになりました。

FacebookのAI研究チームの責任者であり、ニューヨーク大学の教授でもある彼は、機械視覚の分野におけるニューラルネットワークの応用の先駆者です。彼は、この分野にはまだ大きな発展の余地があり、この分野の進歩によって常識的なソフトウェア システムが実現できると考えています。

Q:現在のマシンビジョンのレベルはどの程度ですか?

YannLeCun : 画像に目立つ主題がある場合は、主題のカテゴリにラベルを付けるだけで済みます。十分なデータ(たとえば、カテゴリごとに 1,000 枚の画像)があれば、特定のブランドの車、特定の種類の植物、特定の血統の犬など、かなり具体的なものを認識することを学ぶことができます。風景、夕焼け、結婚式、誕生日パーティーなど、より抽象的なものも認識できます。わずか 5 年前には、この問題が解決可能であるかどうかは明らかではありませんでした。 (私たちは今それを克服しました) しかし、これは視覚の問題が解決されたことを意味するものではありません。

Q:まだ解決されていない重要な問題は何ですか?

YannLeCun : 画像や動画のキャプションや注釈を自動的に生成する取り組みは、長年行われてきました。有望に見えても、実際にはそれほど信頼できるものではないアプローチもいくつかありました。それらの適用範囲は、トレーニング方法によって大きく制限されます。ほとんどのシステムでは、他の種類のオブジェクトを含む画像や通常とは異なる状況の画像を与えると、認識パフォーマンスはひどく低下します。彼らには常識がない。

Q:視覚と常識の関係は何ですか?

ヤン・ルカン:それは誰に話すかによります。Facebook 内でも、この点については人によって意見が異なります。言語のみを使用してインテリジェント システムと通信できますが、問題は言語が非常に低い帯域幅の情報チャネルであることです。人々は情報を解釈するための豊富な背景知識を持っているため、言語を通じて多くの情報を伝達することができます。

AI システムに十分な情報を提供する唯一の方法は、言語よりもはるかに多くの情報を含む視覚認識に基づくことだと主張する人もいます。次に、機械に「これはスマートフォンです」「これはローラーです」「押せるものと押せないものがあります」と伝えると、機械は世界がどのように機能するかについて基本的な知識を学習するかもしれません。

それは赤ちゃんの学習方法に少し似ています。赤ちゃんは明確な指示がなくても、世界について信じられないほど多くのことを学びます。

私たちは、機械がビデオを見るなどして、現実世界の法則を反映した大量の事実を取得することを本当に望んでいます。これにより、最終的に彼らは常識を獲得できるようになります。幼い動物や赤ちゃんが生後数か月でどのように学習していくかを見るのは興味深いことです。彼らは、観察するだけで短期間のうちに世界に対する驚くべき理解を発達させます。そして、今日の機械は世界についてほとんど何も知らないため、さまざまな方法で簡単に騙されてしまう可能性があります。

Q:インテリジェントシステムが観察を通じて学習できるようにする上で、どのような進歩がありましたか?

YannLeCun:学習システムは未来を予測できるはずであり、私たちはこのアイデアに非常に興味を持っています。学習システムにビデオのいくつかのフレームを見せると、次に何が起こるかを予測します。この種の作業を行うようにシステムをトレーニングできれば、教師なし学習システムの基礎を構築できたことになると思います。これは、多くの興味深い可能性を開く転換点になると思います。その応用はマシンビジョンに限定されるものではなく、AI の継続的な進歩にとって重要な部分です。

<<:  AI が「脳で画像を完成させる」ことを学習: ニューラル ネットワークが 0 から 1 までの画像を完成させる

>>:  人工知能が注目を集め、ロボットキャスターが生放送の「新参者」に

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Groq LPU の謎を解明: 世界最速のハードウェア アクセラレータの基礎となるアーキテクチャ設計!

先月末、スタートアップ企業Groqの製品が一夜にして人気を博した。自社開発のハードウェアアクセラレー...

エッジコンピューティングの価値はデータにある

企業はビジネスニーズの変化に応じてスケールアップおよびスケールダウンできるコンピューティングおよびス...

いくつかの一般的な暗号化アルゴリズムのPython実装

私たちは日常生活の中で、暗号化アルゴリズムによく遭遇します。今日は、これらの暗号化アルゴリズムの P...

...

Logreduce: Python と機械学習でログノイズを除去する

Logreduce は、大量のログ データから異常を検出することでデバッグ時間を節約できます。継続的...

2020年のスマートセキュリティ技術の開発動向

インテリジェントセキュリティ技術とは、画像の取得、伝送、保存、ビデオ分析、ビッグデータ処理のほか、マ...

あなたの GPU は Llama 2 のような大規模なモデルを実行できますか?このオープンソースプロジェクトを試してみてください

コンピューティング能力が重要視される時代に、GPU は大規模モデル (LLM) をスムーズに実行でき...

...

...

データセンターで自動化できない 5 つのこと

データセンター内外を問わず、自動化に境界はないと考えるのは簡単です。 AI がデータ センターの運用...

ChatGPT の背後にあるビッグモデル技術を 3 分で簡単に理解する

過去 10 年間で、人工知能の分野で大きな進歩が遂げられてきましたが、その中で自然言語処理 (NLP...

ディープラーニングコンパイラについて知っておくべきこと

[[409589]]ディープラーニングはここ 10 年ほどで急速に発展し、業界では多くのディープラー...

Python で畳み込みニューラル ネットワークを視覚化する

ディープラーニングなどのエンドツーエンドのモデルの場合、トレーニングプロセスをどのように説明し理解す...

地図やGPSは信頼できないが、それは問題ではない:カリフォルニア大学バークレー校のロボットが未知の環境で3キロメートル以上を移動

ほとんどのロボットの移動方法は、ほとんどの人間の移動方法とは大きく異なります。ロボットは、環境を包括...

AI革命はネットゼロデータセンターを終わらせるか?

データセンターは現代生活に欠かせないものです。あらゆるものがインターネットでつながっているこの時代に...