ルカンのリーダーシップの下、自己監督に賭けるMeta AI

ルカンのリーダーシップの下、自己監督に賭けるMeta AI

自己教師学習は本当に AGI への重要なステップなのでしょうか?

Metaの主任AI科学者であるヤン・ルカン氏は、「現時点で講じるべき具体的な対策」について語る際、長期的な目標を忘れなかった。 「私たちは動物や人間のように学習するインテリジェントな機械を作りたいのです」と彼はインタビューで語った。

近年、Meta は AI システムの自己教師学習 (SSL) に関する一連の論文を発表しています。 LeCun 氏は、SSL は AI システムに必要な前提条件であり、AI システムが世界モデルを構築して、合理性、常識、スキルや知識をある環境から別の環境に転送する能力など、人間のような能力を獲得するのに役立つと固く信じています。

彼らの新しい論文は、マスクオートエンコーダ(MAE)と呼ばれる自己教師ありシステムが、非常に断片化された不完全なデータから画像、ビデオ、さらには音声を再構築する方法を学習する方法を示しています。 MAE は新しいアイデアではありませんが、Meta はこの取り組みを新しい分野にまで拡張しました。​

静止画像、ビデオ、音声シーケンスなど、欠落しているデータを予測する方法を見つけることで、MAE システムは世界のモデルを構築していると LeCun 氏は言います。 「動画で何が起こるかを予測できるなら、世界は3次元であり、一部の物体は無生物で自ら動かず、他の物体は生物で予測が非常に難しいことを理解し、さらには生物の複雑な行動を予測する必要がある」と同氏は述べた。AIシステムが世界を正確にモデル化できれば、そのモデルを使って行動を計画できる。

LeCun氏は「知能の本質は予測することを学ぶことだ」と述べた。MetaのMAEシステムが汎用人工知能に近いとは主張しなかったものの、汎用人工知能に向けた重要な一歩であると考えている。​

しかし、Meta の研究者が汎用人工知能に向けて正しい道を歩んでいることに誰もが同意しているわけではない。 Yoshua Bengio 氏は、AI 分野の大きなアイデアについて LeCun 氏と友好的な議論を交わすこともあります。 IEEE Spectrum への電子メールで、ベンジオ氏は両社の目標の相違点と類似点のいくつかを説明した。

「現在のアプローチ(自己教師ありか否かに関わらず)は、人工知能と人間レベルの知能のギャップを埋めるのに十分ではないと私は本当に思います」とベンジオ氏は書いている。同氏は、この技術を人間規模のAIに真に近づけるためには、この分野が「質的な進歩」を遂げる必要があると述べた。

ベンジオ氏は、世界について推論する能力が知能の中核要素であるという点ではルカン氏に同意しているが、彼のチームは予測できるモデルではなく、むしろ自然言語の形で知識を提示できるモデルに重点を置いている。このようなモデルにより、これらの知識を組み合わせて新たな問題を解決したり、反事実的シミュレーションを実行したり、起こりうる未来を調査したりすることが可能になると同氏は指摘する。ベンジオ氏のチームは、エンドツーエンドの学習に取り組んでいるルカン氏が好むものよりも本質的にモジュール化された新しいニューラルネットワークフレームワークを開発した。​

人気のトランスフォーマー

Meta の MAE は、Transformer と呼ばれるニューラル ネットワーク アーキテクチャ上に構築されています。このアーキテクチャは、当初は自然言語処理の分野で人気を博し、その後コンピューター ビジョンなどの複数の分野に拡大しました。​

もちろん、Meta は視覚的なタスクに Transformer をうまく使用した最初のチームではありません。 Meta AI の研究者であるロス・ガーシック氏は、Google の Visual Transformer (ViT) に関する研究が Meta のチームにインスピレーションを与えたと語り、「ViT アーキテクチャの採用により、実験中に遭遇したいくつかの障害を排除することができました」と述べています。

Girshick 氏は Meta の最初の MAE システム論文の著者の 1 人で、Kaiming He 氏が主著者でした。彼らは、入力画像のランダムなパッチをマスクし、失われたピクセルを再構築するという非常にシンプルなアプローチを説明しました。

このモデルのトレーニングは、BERT やその他の Transformer ベースの言語モデルのトレーニングと似ています。研究者は膨大なテキスト データベースを提示しますが、一部の単語は欠落しているか、「マスク」されています。モデルは欠落している単語を独自に予測する必要があり、その後、マスクされた単語が明らかにされて、モデルがその動作を確認し、パラメータを更新できるようになります。このプロセスは今後も繰り返されるでしょう。視覚で同様のことを行うために、研究チームは画像をパッチに分割し、パッチの一部をマスクして、MAE システムに画像の欠落部分を予測するよう依頼したとガーシック氏は説明する。

チームの画期的な進歩の 1 つは、画像の大部分をマスクすると最良の結果が得られるという認識だった。これは、単語の 15% しかマスクしない言語変換器との重要な違いである。 「言語は極めて密度が高く効率的なコミュニケーション システムであり、各シンボルには多くの意味が込められています」とガーシック氏は語ります。「しかし、自然界からの信号である画像は冗長性を排除するようには作られていません。そのため、JPG 画像を作成するときにコンテンツを非常にうまく圧縮するのです。」

Meta AI の研究者たちは、最良の結果を得るために画像のどの程度をマスクするかを実験しました。

Girshick 氏は、画像内のパッチの 75% 以上をマスクすることで、訓練するにはタスクが簡単すぎる画像内の冗長性を排除したと説明しています。彼らの 2 部構成の MAE システムは、まずトレーニング データセットを使用してピクセル間の関係を学習するエンコーダーを使用し、次にマスクされた画像から元の画像を再構築するために最善を尽くすデコーダーを使用します。このトレーニング計画が完了したら、分類や物体検出などの視覚タスクに合わせてエンコーダーを微調整することもできます。

「最終的に、このモデルを下流のタスクで使用して成果が得られるのが私たちにとって楽しみです」とガーシック氏は語った。物体認識などのタスクにエンコーダーを使用すると、「得られる成果は非常に印象的です」。同氏は、モデルをさらにスケールアップすればさらに優れたパフォーマンスが得られる可能性があると指摘し、SSL は「大量のデータを手動で注釈付けすることなく使用できる可能性がある」ため、これは将来のモデルにとって有望な方向性であると述べた。

フィルタリングされていない膨大なデータセットから全力を尽くして学習することは、SSL の結果を改善するための Meta の戦略かもしれませんが、これはますます物議を醸すアプローチでもあります。ティムニット・ゲブル氏のような AI 倫理研究者は、大規模な言語モデルが学習する、キュレーションされていないデータセットに内在するバイアスに注意を喚起しており、それが悲惨な結果につながることもある。

ビデオとオーディオからの自己教師学習

ビデオ MAE システムでは、フレーム間の類似性によりビデオ信号は静止画像よりも冗長性が高くなるため、マスクによって各ビデオ フレームの 95% が隠されます。 Meta の研究者 Christoph Feichtenhofer 氏は、ビデオに関して言えば、MAE アプローチの大きな利点は、ビデオは一般的に計算負荷が高いことであり、MAE は各フレームのコンテンツの最大 95% をマスクすることで計算コストを最大 95% 削減できると述べています。​

これらの実験で使用されたビデオクリップはわずか数秒の長さだったが、ファイヒテンホファー氏は、より長いビデオを使用して AI システムをトレーニングすることが現在進行中の研究テーマであると述べた。あなたの家のビデオを録画して、1時間前に鍵をどこに置いたかを教えてくれる仮想アシスタントがいると想像してみてください。

もっと近い将来には、画像と動画の両システムが、Facebook や Instagram のコンテンツ モデレーションに必要な分類タスクに役立つことが想像できると、ファイヒテンホファー氏は述べ、その可能性のある用途として「整合性」を挙げた。「これについては製品チームと話し合っていますが、非常に新しいもので、まだ具体的なプロジェクトはありません。」

オーディオ MAE の研究については、Meta AI チームは研究結果を近々 arXiv で公開する予定だと述べています。彼らはマスキング技術を適用する巧妙な方法を見つけました。彼らはサウンドファイルをスペクトログラム(信号内の周波数スペクトルの視覚的表現)に変換し、その後、トレーニング用に画像の一部をマスクしました。モデルが現在数秒の断片しか処理できないにもかかわらず、再構築されたオーディオは印象的です。​

オーディオシステムの研究者であるバーニー・フアン氏は、この研究の潜在的な応用例として、分類タスク、パケットがドロップされたときに失われたオーディオを補うことによるボイスオーバーIP(VoIP)の支援、あるいはオーディオファイルのより効率的な圧縮方法の発見などが挙げられると述べた。

Meta は、こうした MAE モデルなどのオープンソース AI 研究を行っており、AI コミュニティに事前トレーニング済みの大規模言語モデルも提供しています。しかし批評家は、このように研究に対してオープンであるにもかかわらず、Meta はニュースフィード、推奨、広告配置を制御する中核的なビジネス アルゴリズムをまだ研究用に公開していないと指摘している。​

<<:  ディープラーニングの「記憶喪失」に応えて、科学者たちは類似性に基づく重み付けインターリーブ学習を提案し、PNASに掲載された。

>>:  マシンビジョンにはどのようなハードウェアが含まれていますか?

推薦する

ついに誰かが教師あり学習を明確にした

01 教師あり学習とは何か教師あり学習を行うには、コンピューターが学習できるラベルが付いたサンプル...

...

機械学習アルゴリズムが NDA の法的分析テストで 20 人の弁護士に勝利

ロボット工学と人工知能の発展により、多くの仕事が機械に置き換えられるでしょう。機械は、一部のタスク、...

AIの大規模導入における大きなギャップを埋めます!アリババ、テンセント、百度などが共同でインターネットサービスAIベンチマークを開始

[[276827]]今日、インターネット サービスは根本的な変化を遂げており、徐々にインテリジェント...

機械学習のケーススタディ: クレジットカード詐欺検出

私は51CTOアカデミー講師の唐玉迪です。51CTOアカデミーの「4.20 ITリチャージフェスティ...

2022QSリスト公開! MITがコンピュータサイエンスランキングでトップ、清華大学は15位、北京大学はトップ20から脱落

2022年QS世界大学分野別ランキングが発表されました!全体的には、21年前と比べて大きな変化はあり...

ChatGPT でより良いコードを書く方法

翻訳者 |李睿レビュー | Chonglouコードの生成は、ChatGPT や指示に従うその他の大規...

SaaSベースのAIトレーニングがゲームチェンジャーとなる理由

機械学習アプリケーションが増加するにつれて、多くの人が機械学習トレーニング データを使用する利点を理...

人工知能はモバイルインターネットデバイスを変えようとしている

安価な高速インターネット、安全なクラウド ストレージ、モバイル ソリューション、低コストのデバイスの...

ドバイが無人「空飛ぶ車」を試験:世界初のドローン旅客サービスとなる見込み

[[204952]]ボロコプター、ドバイで無人空飛ぶ車のテストを開始ロイター通信は北京時間9月26日...

新しい世代の AI 人材はどこから生まれ、どこに向かうべきでしょうか?

[[443279]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

...

15人の専門家が予測:AIは2024年にサイバーセキュリティのルールを変える

AI技術の飛躍的な発展に伴い、攻撃者はAIの武器化を加速させ、ソーシャルエンジニアリング技術と組み合...

人工知能技術を開発すべきでしょうか?

まず、技術発展の観点から見ると、人工知能技術の発展は避けられません。現在、クラウドコンピューティング...