Meta CTO との独占インタビュー: AI はすでに XR のキラー アプリケーションであり、LLM オープンソース コミュニティの競争には敗者なし

Meta CTO との独占インタビュー: AI はすでに XR のキラー アプリケーションであり、LLM オープンソース コミュニティの競争には敗者なし

最近、Meta の CTO である Andrew Bosworths 氏が記者に独占インタビューに応じました。

彼は、Meta が AI と XR 産業をどのように統合しているか、オープンソース AI コミュニティにおける Meta の競争と発展、AI 人材の流れなどについて多くを語りました。

XR と AI が出会うと、どのような火花が散るのでしょうか?

質問: 複合現実ハードウェアと生成 AI を組み合わせると、1+1 以上の結果が得られるように思えます。そうではありませんか?

マイケル・アブラッシュ氏は7年前のConnectでのスピーチで、大規模ARの将来に対するビジョンを語り、人工知能が中核的な要素であることを強調しました。

しかし、より優れた AI システムを実現するには、大規模で限定的なデータ セットが必要であるという考えは、誤解を招く可能性があります。しかし、この考え方は徐々に変化しつつあります。

アイウェア製品が市場に長期にわたって存在し、人工知能を応用することで、アイウェアの実用性が大幅に向上します。

大規模言語モデルが登場する前は、機械学習は常に価値を生み出すアプリケーションを中心に展開されていました。

たとえば、Facebook はニュースフィードランキングメカニズムが導入される前から存在していましたが、そのランキングメカニズムは時間の経過とともに改善されてきました。

同様に、すべての AI システムは通常、非 AI 要素に基づいて開始され、データセットを取得し、それが AI システムの継続的な進歩をサポートします。

しかし、大規模言語モデルは、すでに非常に汎用性が高いという点で、過去とは異なります。これは、正確または完璧なトレーニング データが不要になり、既存の AI テクノロジーが将来の Meta デバイスの基礎となることを意味します。

Meta が最近 Ray Ban と共同で発売したメガネがその一例です。カメラビデオ、ライブストリーミング、プレミアム音楽の再生、電話通話などを備えたこのメガネは優れた製品です。

最初にリリースしたとき、ユーザーがこれらの機能を使用するために「スマート アシスタント」が必要だと感じていましたが、6 か月後には、スマート アシスタント自体がメガネの最も人気のある機能になりました。

同氏は、ハードウェア製品の主要機能が短期間で変化することは非常にまれだが、メガネの場合はそれが起こり、技術開発の急速かつ予測不可能な性質を示していると強調した。

Q: 人工知能は Quest でどのような役割を果たすと思いますか?

Quest で実際に有効にしたかった機能の中には、優れたトレーニング データセットがなかったものもありました。

テキストについては、インターネット全体がリソースとして利用できます。写真、Facebook、Instagram の巨大なギャラリー。しかし、3D オブジェクト、特に 4 次元空間でアニメーション化された 3D オブジェクトについては、大規模で信頼できるデータベースが存在しません。

まさにこれが私たちが望んでいることです。私たちは、より多くの 3D コンテンツをエクスポートできるようにするなど、この MOD に関するあらゆる点を改善するために懸命に取り組んでいます。

つまり、複合現実と仮想現実は、すべてを別の次元空間に実装しようとするため、実現が非常に困難です。

しかし一方で、XR と VR には常時オンのセンサーが搭載されているという大きな利点があることは明らかです。これらのセンサーは常に空間をスキャンして感知しています。

Meta は現在も研究を続けており、3D および 4D 空間に非常に有望なものを見出しています。

Q: 実現したいキラーユースケースは何ですか?

A: 短期的には、同社はクリエイターに焦点を当て、アバターのデザイン、世界やゲームの作成などの機能を提供しています。

Meta の長期的な目標は、ユーザーとマシンのインタラクションの効率を向上させ、ユーザーがコンテンツ レベルとシステム レベルの両方でインタラクションできるようにすることです。

たとえば、ユーザーは簡単なコマンドを使用してゲームを起動し、友達をゲームに直接招待することができます。

これは非常に複雑なプロセスになる可能性があり、システム上でゲームを起動し、友人を招待し、同じアプリ内の同じ場所に集める必要があります。

オープンソースAI、Meta、そしてコミュニティが共に繁栄する

Q: Llama をオープンソース化する Meta の戦略は何ですか?

同社は 2006 年以来、オープンソースのリーダーとして活躍しています。同社は、PHP、Memcached、MySQL などの複数のオープンソース プロジェクトを活用し、より少ない従業員で効率的に業務を運営できるようになりました。彼らはまた、主要な機械学習エンジニアリング システムである PyTorch プロジェクトを推進し、それをオープンソース化しました。

オープンソース プロジェクトの大きな利点の 1 つは、その周りにコミュニティを構築できるため、プロジェクトが自己強化されることです。たとえば、業界の他のメンバーが PyTorch を使用して構築したツールも、同社で使用されています。同社はまた、大規模なビルダーコミュニティと1億回のダウンロード記録を持つLlamaプロジェクトの成功も経験しており、さまざまなプロジェクトやビジネスプログラムの成功につながっています。

同社はオープンソースソフトウェアの価値も強調した。彼らの研究室は、オープンソース ソフトウェアは独立した第三者による検証結果を迅速に得ることができ、さらなる開発を促進できることを発見しました。データセットの使用やセキュリティ上の懸念などにより、すべてがオープンソースに適しているわけではありませんが、オープンソースは、自分たちを含めたすべての人にとってメリットがあるため、可能な場合はオープンソースにする傾向があります。

Q: AI モデル ファミリーである Llama についてお話ししましょう。 Llama をオープンソース化する戦略は何ですか?

A: 2006 年に私が Facebook に入社して以来、Facebook はオープンソースのリーダーであり続けています。

PHP はオープンソースです。もし Facebook が Memcached プロジェクトを引き継いでいなかったら、私たちは崩壊していたでしょう。

MySQL はオープンソースです。これが、Facebook が少数の従業員で多くのことを達成し、小規模ながらも非常に効率的な企業になることができた理由の 1 つです。

Meta は現在、これらのプロジェクトだけでなく、機械学習エンジニアリングを完了するためのナンバーワンのシステムである PyTorch も推進しています。私たちはそれを構築し、オープンソース化しました。

オープンソース プロジェクトの重要な利点は、その周りにコミュニティを構築できることと、Meta がこのコミュニティ内のすべてのリソースを最大限に活用できることです。

たとえば、他のメンバーが PyTorch を使用して構築したツールは、Meta 自体でも使用されます。

ラマの場合、多くの人が恩恵を受けました。 1 億ダウンロードを達成したことで、さまざまなプロジェクトが生まれ、Llama をベースに成功を収めている商用プログラムも数多くあります。

Llama が現在のように成長を続け、大規模な開発者コミュニティの絶対的な中心的存在になれば、Meta も大きな恩恵を受け、Meta に多大な貢献を果たすことになるでしょう。

また、ちょうど10年前に設立されたFAIRを見ると、私たちの研究室は常にオープンソースのコンセプトを貫いてきました。ソフトウェアがオープンソース化されると、FAIR は直ちに独立した第三者による検証結果を取得し、その後誰かがその上で開発を続けます。

その結果を利用して、次の論文を作成したり、次のプログラムを開発したりすることができます。

すべてをオープンソース化することはできません。たとえば、私たちの研究の一部は、使用されているデータセットやセキュリティ上の理由でオープンソース化できません。

しかし、他の条件が同じであれば、私たちはオープンソース化に取り組んでおり、それが私たちを含めたすべての人に役立つと信じています。それは双方にとって有利な状況です。

質問: オープンソース戦略は採用にどのような影響を与えますか?オープンソースを愛するエンジニアがいる一方で、このような強力な技術をオープンソース化するのは無責任だと考える AI 研究者もいることを私は知っています。

A: より多くの人がモデルとそのトレーニング方法に精通しているので、採用基盤の拡大に間違いなく役立つと思います。 PyTorch の使い方を知っているエンジニアをさらに雇用することができます。

ですから、これは、会社で素晴らしい仕事をするのに一歩近づいた、より多くの人材を採用するのに非常に良いことだと私は思います。

オープンソースは無責任であるという考えに関しては、これらの大規模な言語モデルに関する多くの不安は見当違いであると思います。

ヤン・ルカンはそれをとてもうまく言ったと思います。オープンソース モデルは非常に興味深く、重要なツールです。リレーショナルデータベースだと思います。

推論したり計画したりする能力がなければ、世界を理解することはできません。そして、どうやら将来的にはこれらの能力は失われるようです。

テクノロジーは今後も進歩し続けるでしょう。これはとても興奮する瞬間です。これは素晴らしい、重要な技術です。

構築コストや実行コストが下がり、レイテンシが低くなり、効率性が向上し、低電力の小型デバイスで非常に強力なモデルを実行できるようになるのが待ちきれません。これらはすべて非常に重要なことです。しかし、それには多くの時間と労力がかかります。

また、大規模なモデルは AGI ではありません。限界まで開発された大規模モデルだけでは、AGI は実現できません。フォン・ノイマンはオッペンハイマーについて何と言ったでしょうか?

「時には、名誉を得るために罪を認める人もいます。」シリコンバレーでは時々そういうことが起こると思います。

人々がそれを信じていないと言っているのではありません。たぶん、信じる人もいるだろうが、私は信じない。

AI人材が黄金時代を迎える

Q: 次世代の優秀な AI 研究者を採用するためのマーケティング戦略は何ですか? OpenAI や Google DeepMind ではなく Meta に参加してもらうにはどうすればよいでしょうか?

A: 研究者には現在多くの選択肢があります。今こそこの業界に参入する良い時期です。これらの企業は多岐にわたります。 Google に入社して 1,000 人のチームの一員になりたい方は、ぜひご連絡ください。

しかし、Meta にはさまざまな規模のチームがあり、各個人が達成できる個人的な影響力はまったく異なります。 OpenAI は 3 つ目の異なる組織です。彼らは非常に珍しいガバナンス構造を持っており、株式ユニットも異なっているようです。

Q: 採用活動は順調に進んでいますか?

A: 順調に進んでいます。先ほど挙げた 3 つの企業からは、確かに多くの優秀な人材が退職しています。その才能の一部は他の企業に移るでしょう。

この才能の一部は新たな場所に行くでしょう。フランスのミストラルはラマを開発した才能のグループで構成されています。

シリコンバレーの基準からすると、私は長いキャリアを積んできたので、これは何も新しいことではありません。

新しい技術が登場すると、人々の熱意は爆発します。この才能の一部は新興企業に行き、一部は既存企業に行きます。しかし、この業界には間違いなくもっと多くの才能ある人材が参入してくるでしょう。

才能の総数がどんどん増えていく時代です。おそらく、ディープラーニングの研究者の数は 1 年前と比べて 10 倍に増えています。人々はこの需要を認識しているため、ますます多くの人々がこれらの技術を学び、研究し始めています。

Q: ミストラルについてお話がありました。先週開始された Mixtral モデルは、複数の専門家を組み合わせて使用​​しており、Meta で皆さんが行っていることと競合しているようです。そう思われますか?

回答:いいえ。コミュニティ全体が何らかのオープンソース モデルを中心に団結し、それが事実上の標準になると、それは興味深い出来事の 1 つです。

このモデルを使用できます。 Memcached が必ずしも私たちから提供されるわけではないのと同じように、これは必ずしも私たちから提供されるわけではありません。

MySQL は当社製ではありません。これらは素晴らしいものです。喜んで使わせていただきます。したがって、オープンソースと競合したくない場合は、オープンソースが適しています。

互いに競争し、異なる戦略を使用し、さまざまな方法で互いに競い合うモデルを作りましょう。 「

私のビジネスモデルは、他の人がこのテクノロジーを使用することを妨げるものではありません。 「

誤解のないように言うと、Llama チームは他のすべてのモデルに勝つことを絶対に望んでいます。こうした競争は良いことであり健全なことです。

これは善意と善意による人々の間の競争であり、生存のための競争ではありません。

ゲームに負けた場合、ペナルティとして、より優れたモデルを使用できるようになります。

<<:  OCRの終焉? Megvii は、ドキュメントレベルの OCR をサポートし、中国語と英語をサポートし、オープンソース化されたマルチモーダル大規模モデルを提案しています。

>>: 

推薦する

エコシステムの構築と垂直実装により、TerminusはAIoT分野で際立つ存在に

[51CTO.com からのオリジナル記事] モノのインターネットは人工知能なしでは成功しません。モ...

AIリップリーディング、騒音環境でも最大75%の音声認識精度

人は話者の唇の動きを聞いて観察することで会話を認識します。では、AI も同じことができるのでしょうか...

機械学習のプライバシー研究における新たな進歩: データ強化のリスクは過小評価されており、新しいアルゴリズムは次元依存性を「克服」します

編集者注: 今日、データは人工知能のイノベーションを推進する中核的な要素です。ただし、データのセキュ...

Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

人工知能が美女を元の姿に戻す方法

誰もが美を愛しますが、誰もが生まれながらに美しさを持っているわけではないので、さまざまな種類の写真美...

5分でAdam最適化アルゴリズムを素早くマスター

[[389202]]勾配降下法は、目的関数の負の勾配に従って関数の最小値を見つける最適化アルゴリズム...

AMU-Botロボット:作物の間を移動しながら除草する

手作業による除草は時間がかかり、労力もかかりますが、除草剤を散布するのは決して環境に優しくありません...

科学者:大規模なAIモデルは小さなAIツールを自動的に生成できる

12月18日、Businessinsiderによると、大規模なAIモデルは現在、人間の介入なしに完全...

クラウドコンピューティングは、サービスアウトソーシングアルゴリズムに、減算から加算への革命をもたらしました。

クラウド コンピューティングの自然な仲間は、ソフトウェア対応のサービス アウトソーシングと電子商取引...

NTRU 1.2 リリース Java 用 NTRU 暗号化アルゴリズム ライブラリ

NTRU 1.2 バージョンには多くの機能強化とバグ修正が含まれていますが、このバージョンは以前のバ...

NVIDIA、端末デバイスへのディープラーニングの導入を加速する高性能Jetson TX2を発表

人工知能と機械学習はユーザーからますます注目を集めており、AIの応用は徐々に世間の注目を集め始めてい...

ゼロサンプルに主眼が置かれています! ReSimAD: 自動運転で 3D ドメイン適応を実現するには?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...