Metaの主任AI科学者であるヤン・ルカン氏は、「現時点で講じるべき具体的な対策」について語る際、長期的な目標を忘れなかった。 「私たちは動物や人間のように学習するインテリジェントな機械を作りたいのです」と彼はインタビューで語った。 近年、Meta は AI システムの自己教師学習 (SSL) に関する一連の論文を発表しています。 LeCun 氏は、SSL は AI システムに必要な前提条件であり、AI システムが世界モデルを構築して、合理性、常識、スキルや知識をある環境から別の環境に転送する能力など、人間のような能力を獲得するのに役立つと固く信じています。 彼らの新しい論文は、マスクオートエンコーダ(MAE)と呼ばれる自己教師ありシステムが、非常に断片化された不完全なデータから画像、ビデオ、さらには音声を再構築する方法を学習する方法を示しています。 MAE は新しいアイデアではありませんが、Meta はこの取り組みを新しい分野にまで拡張しました。 静止画像、ビデオ、音声シーケンスなど、欠落しているデータを予測する方法を見つけることで、MAE システムは世界のモデルを構築していると LeCun 氏は言います。 「動画で何が起こるかを予測できるなら、世界は3次元であり、一部の物体は無生物で自ら動かず、他の物体は生物で予測が非常に難しいことを理解し、さらには生物の複雑な行動を予測する必要がある」と同氏は述べた。AIシステムが世界を正確にモデル化できれば、そのモデルを使って行動を計画できる。 LeCun氏は「知能の本質は予測することを学ぶことだ」と述べた。MetaのMAEシステムが汎用人工知能に近いとは主張しなかったものの、汎用人工知能に向けた重要な一歩であると考えている。 しかし、Meta の研究者が汎用人工知能に向けて正しい道を歩んでいることに誰もが同意しているわけではない。 Yoshua Bengio 氏は、AI 分野の大きなアイデアについて LeCun 氏と友好的な議論を交わすこともあります。 IEEE Spectrum への電子メールで、ベンジオ氏は両社の目標の相違点と類似点のいくつかを説明した。 「現在のアプローチ(自己教師ありか否かに関わらず)は、人工知能と人間レベルの知能のギャップを埋めるのに十分ではないと私は本当に思います」とベンジオ氏は書いている。同氏は、この技術を人間規模のAIに真に近づけるためには、この分野が「質的な進歩」を遂げる必要があると述べた。 ベンジオ氏は、世界について推論する能力が知能の中核要素であるという点ではルカン氏に同意しているが、彼のチームは予測できるモデルではなく、むしろ自然言語の形で知識を提示できるモデルに重点を置いている。このようなモデルにより、これらの知識を組み合わせて新たな問題を解決したり、反事実的シミュレーションを実行したり、起こりうる未来を調査したりすることが可能になると同氏は指摘する。ベンジオ氏のチームは、エンドツーエンドの学習に取り組んでいるルカン氏が好むものよりも本質的にモジュール化された新しいニューラルネットワークフレームワークを開発した。 人気のトランスフォーマーMeta の MAE は、Transformer と呼ばれるニューラル ネットワーク アーキテクチャ上に構築されています。このアーキテクチャは、当初は自然言語処理の分野で人気を博し、その後コンピューター ビジョンなどの複数の分野に拡大しました。 もちろん、Meta は視覚的なタスクに Transformer をうまく使用した最初のチームではありません。 Meta AI の研究者であるロス・ガーシック氏は、Google の Visual Transformer (ViT) に関する研究が Meta のチームにインスピレーションを与えたと語り、「ViT アーキテクチャの採用により、実験中に遭遇したいくつかの障害を排除することができました」と述べています。 Girshick 氏は Meta の最初の MAE システム論文の著者の 1 人で、Kaiming He 氏が主著者でした。彼らは、入力画像のランダムなパッチをマスクし、失われたピクセルを再構築するという非常にシンプルなアプローチを説明しました。 このモデルのトレーニングは、BERT やその他の Transformer ベースの言語モデルのトレーニングと似ています。研究者は膨大なテキスト データベースを提示しますが、一部の単語は欠落しているか、「マスク」されています。モデルは欠落している単語を独自に予測する必要があり、その後、マスクされた単語が明らかにされて、モデルがその動作を確認し、パラメータを更新できるようになります。このプロセスは今後も繰り返されるでしょう。視覚で同様のことを行うために、研究チームは画像をパッチに分割し、パッチの一部をマスクして、MAE システムに画像の欠落部分を予測するよう依頼したとガーシック氏は説明する。 チームの画期的な進歩の 1 つは、画像の大部分をマスクすると最良の結果が得られるという認識だった。これは、単語の 15% しかマスクしない言語変換器との重要な違いである。 「言語は極めて密度が高く効率的なコミュニケーション システムであり、各シンボルには多くの意味が込められています」とガーシック氏は語ります。「しかし、自然界からの信号である画像は冗長性を排除するようには作られていません。そのため、JPG 画像を作成するときにコンテンツを非常にうまく圧縮するのです。」 Meta AI の研究者たちは、最良の結果を得るために画像のどの程度をマスクするかを実験しました。 Girshick 氏は、画像内のパッチの 75% 以上をマスクすることで、訓練するにはタスクが簡単すぎる画像内の冗長性を排除したと説明しています。彼らの 2 部構成の MAE システムは、まずトレーニング データセットを使用してピクセル間の関係を学習するエンコーダーを使用し、次にマスクされた画像から元の画像を再構築するために最善を尽くすデコーダーを使用します。このトレーニング計画が完了したら、分類や物体検出などの視覚タスクに合わせてエンコーダーを微調整することもできます。 「最終的に、このモデルを下流のタスクで使用して成果が得られるのが私たちにとって楽しみです」とガーシック氏は語った。物体認識などのタスクにエンコーダーを使用すると、「得られる成果は非常に印象的です」。同氏は、モデルをさらにスケールアップすればさらに優れたパフォーマンスが得られる可能性があると指摘し、SSL は「大量のデータを手動で注釈付けすることなく使用できる可能性がある」ため、これは将来のモデルにとって有望な方向性であると述べた。 フィルタリングされていない膨大なデータセットから全力を尽くして学習することは、SSL の結果を改善するための Meta の戦略かもしれませんが、これはますます物議を醸すアプローチでもあります。ティムニット・ゲブル氏のような AI 倫理研究者は、大規模な言語モデルが学習する、キュレーションされていないデータセットに内在するバイアスに注意を喚起しており、それが悲惨な結果につながることもある。 ビデオとオーディオからの自己教師学習ビデオ MAE システムでは、フレーム間の類似性によりビデオ信号は静止画像よりも冗長性が高くなるため、マスクによって各ビデオ フレームの 95% が隠されます。 Meta の研究者 Christoph Feichtenhofer 氏は、ビデオに関して言えば、MAE アプローチの大きな利点は、ビデオは一般的に計算負荷が高いことであり、MAE は各フレームのコンテンツの最大 95% をマスクすることで計算コストを最大 95% 削減できると述べています。 これらの実験で使用されたビデオクリップはわずか数秒の長さだったが、ファイヒテンホファー氏は、より長いビデオを使用して AI システムをトレーニングすることが現在進行中の研究テーマであると述べた。あなたの家のビデオを録画して、1時間前に鍵をどこに置いたかを教えてくれる仮想アシスタントがいると想像してみてください。 もっと近い将来には、画像と動画の両システムが、Facebook や Instagram のコンテンツ モデレーションに必要な分類タスクに役立つことが想像できると、ファイヒテンホファー氏は述べ、その可能性のある用途として「整合性」を挙げた。「これについては製品チームと話し合っていますが、非常に新しいもので、まだ具体的なプロジェクトはありません。」 オーディオ MAE の研究については、Meta AI チームは研究結果を近々 arXiv で公開する予定だと述べています。彼らはマスキング技術を適用する巧妙な方法を見つけました。彼らはサウンドファイルをスペクトログラム(信号内の周波数スペクトルの視覚的表現)に変換し、その後、トレーニング用に画像の一部をマスクしました。モデルが現在数秒の断片しか処理できないにもかかわらず、再構築されたオーディオは印象的です。 オーディオシステムの研究者であるバーニー・フアン氏は、この研究の潜在的な応用例として、分類タスク、パケットがドロップされたときに失われたオーディオを補うことによるボイスオーバーIP(VoIP)の支援、あるいはオーディオファイルのより効率的な圧縮方法の発見などが挙げられると述べた。 Meta は、こうした MAE モデルなどのオープンソース AI 研究を行っており、AI コミュニティに事前トレーニング済みの大規模言語モデルも提供しています。しかし批評家は、このように研究に対してオープンであるにもかかわらず、Meta はニュースフィード、推奨、広告配置を制御する中核的なビジネス アルゴリズムをまだ研究用に公開していないと指摘している。 |
<<: ディープラーニングの「記憶喪失」に応えて、科学者たちは類似性に基づく重み付けインターリーブ学習を提案し、PNASに掲載された。
>>: マシンビジョンにはどのようなハードウェアが含まれていますか?
「顔認証」や「顔スキャン決済」は顔認識技術の継続的な発展です。今では、小型カメラの助けを借りて、私た...
今日から、全国各地の大学入試結果が続々と発表され、出願手続きが始まります。今年、各大学は、専門分野、...
[51CTO.comからのオリジナル記事] 2018年、人工知能は人類が未来を創造するための最も輝か...
【51CTO.comオリジナル記事】 [[344118]]近年、ロボティック・プロセス・オートメーシ...
[[412609]]画像ソース: https://pixabay.com/images/id-648...
1. CPUとGPUの比較CPUは複数の機能を備えた優れたリーダーです。その利点は、強力なスケジュ...
旅行がますます便利になるにつれ、旅行の際には携帯電話だけを持って行けばよくなります。これは、モバイル...
センサーのコストは15ドルから1ドルまで幅があり、自動車メーカーは、車両を完全に自動運転にするにはど...
[[201793]]導入毎晩残業して家に帰るときは、Didiやシェア自転車を使うこともあります。ア...
9月21日、ByteDanceは「TikTokに関する特定の虚偽の噂についての声明」を発表した。バイ...
1. 論文情報2. はじめにこの論文では、自動運転、ロボット工学、監視などのアプリケーションに不可...
触覚は人間が相互作用を調整する主な方法の 1 つです。触覚を通じて知覚される触覚は、人間が物体の大き...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[51CTO.com クイック翻訳] 機械学習はデータサイエンスの頂点であり、教師あり学習は機械学習...