ルカンのリーダーシップの下、自己監督に賭けるMeta AI

自己教師学習は本当に AGI への重要なステップなのでしょうか?

Metaの主任AI科学者であるヤン・ルカン氏は、「現時点で講じるべき具体的な対策」について語る際、長期的な目標を忘れなかった。「私たちは動物や人間のように学習するインテリジェントな機械を作りたいのです」と彼はインタビューで語った。

近年、Meta は AI システムの自己教師学習 (SSL) に関する一連の論文を発表しています。 LeCun 氏は、SSL は AI システムに必要な前提条件であり、AI システムが世界モデルを構築して、合理性、常識、スキルや知識をある環境から別の環境に転送する能力など、人間のような能力を獲得するのに役立つと固く信じています。

彼らの新しい論文は、マスクオートエンコーダ（MAE）と呼ばれる自己教師ありシステムが、非常に断片化された不完全なデータから画像、ビデオ、さらには音声を再構築する方法を学習する方法を示しています。 MAE は新しいアイデアではありませんが、Meta はこの取り組みを新しい分野にまで拡張しました。

静止画像、ビデオ、音声シーケンスなど、欠落しているデータを予測する方法を見つけることで、MAE システムは世界のモデルを構築していると LeCun 氏は言います。「動画で何が起こるかを予測できるなら、世界は3次元であり、一部の物体は無生物で自ら動かず、他の物体は生物で予測が非常に難しいことを理解し、さらには生物の複雑な行動を予測する必要がある」と同氏は述べた。AIシステムが世界を正確にモデル化できれば、そのモデルを使って行動を計画できる。

LeCun氏は「知能の本質は予測することを学ぶことだ」と述べた。MetaのMAEシステムが汎用人工知能に近いとは主張しなかったものの、汎用人工知能に向けた重要な一歩であると考えている。

しかし、Meta の研究者が汎用人工知能に向けて正しい道を歩んでいることに誰もが同意しているわけではない。 Yoshua Bengio 氏は、AI 分野の大きなアイデアについて LeCun 氏と友好的な議論を交わすこともあります。 IEEE Spectrum への電子メールで、ベンジオ氏は両社の目標の相違点と類似点のいくつかを説明した。

「現在のアプローチ（自己教師ありか否かに関わらず）は、人工知能と人間レベルの知能のギャップを埋めるのに十分ではないと私は本当に思います」とベンジオ氏は書いている。同氏は、この技術を人間規模のAIに真に近づけるためには、この分野が「質的な進歩」を遂げる必要があると述べた。

ベンジオ氏は、世界について推論する能力が知能の中核要素であるという点ではルカン氏に同意しているが、彼のチームは予測できるモデルではなく、むしろ自然言語の形で知識を提示できるモデルに重点を置いている。このようなモデルにより、これらの知識を組み合わせて新たな問題を解決したり、反事実的シミュレーションを実行したり、起こりうる未来を調査したりすることが可能になると同氏は指摘する。ベンジオ氏のチームは、エンドツーエンドの学習に取り組んでいるルカン氏が好むものよりも本質的にモジュール化された新しいニューラルネットワークフレームワークを開発した。

ビデオとオーディオからの自己教師学習

ビデオ MAE システムでは、フレーム間の類似性によりビデオ信号は静止画像よりも冗長性が高くなるため、マスクによって各ビデオフレームの 95% が隠されます。 Meta の研究者 Christoph Feichtenhofer 氏は、ビデオに関して言えば、MAE アプローチの大きな利点は、ビデオは一般的に計算負荷が高いことであり、MAE は各フレームのコンテンツの最大 95% をマスクすることで計算コストを最大 95% 削減できると述べています。

これらの実験で使用されたビデオクリップはわずか数秒の長さだったが、ファイヒテンホファー氏は、より長いビデオを使用して AI システムをトレーニングすることが現在進行中の研究テーマであると述べた。あなたの家のビデオを録画して、1時間前に鍵をどこに置いたかを教えてくれる仮想アシスタントがいると想像してみてください。

もっと近い将来には、画像と動画の両システムが、Facebook や Instagram のコンテンツモデレーションに必要な分類タスクに役立つことが想像できると、ファイヒテンホファー氏は述べ、その可能性のある用途として「整合性」を挙げた。「これについては製品チームと話し合っていますが、非常に新しいもので、まだ具体的なプロジェクトはありません。」

オーディオ MAE の研究については、Meta AI チームは研究結果を近々 arXiv で公開する予定だと述べています。彼らはマスキング技術を適用する巧妙な方法を見つけました。彼らはサウンドファイルをスペクトログラム（信号内の周波数スペクトルの視覚的表現）に変換し、その後、トレーニング用に画像の一部をマスクしました。モデルが現在数秒の断片しか処理できないにもかかわらず、再構築されたオーディオは印象的です。

オーディオシステムの研究者であるバーニー・フアン氏は、この研究の潜在的な応用例として、分類タスク、パケットがドロップされたときに失われたオーディオを補うことによるボイスオーバーIP（VoIP）の支援、あるいはオーディオファイルのより効率的な圧縮方法の発見などが挙げられると述べた。

Meta は、こうした MAE モデルなどのオープンソース AI 研究を行っており、AI コミュニティに事前トレーニング済みの大規模言語モデルも提供しています。しかし批評家は、このように研究に対してオープンであるにもかかわらず、Meta はニュースフィード、推奨、広告配置を制御する中核的なビジネスアルゴリズムをまだ研究用に公開していないと指摘している。

<<: ディープラーニングの「記憶喪失」に応えて、科学者たちは類似性に基づく重み付けインターリーブ学習を提案し、PNASに掲載された。

>>: マシンビジョンにはどのようなハードウェアが含まれていますか?