Appleの会話型AI予算は1日あたり数百万ドルに拡大

海外メディアは9月7日、事情に詳しい関係者の話として、アップルが人工知能の構築に必要なコンピューティング予算を増やしており、1日あたり数百万ドルにまで拡大していると報じた。同社の目標の1つは、iPhoneユーザーが簡単な音声コマンドを使用して、複数の手順を伴うタスクを自動化できる機能を開発することです。例えば、この技術により、ユーザーは Siri に指示して、最近撮った 5 枚の写真から GIF を作成し、友人に送信できるようになります。現在、iPhone ユーザーはこのプロセスを手動で完了する必要があります。

チームに詳しい関係者によると、4年前、アップルの人工知能担当責任者ジョン・ジャナンドレア氏は、大規模言語モデル（LLM）として知られる会話型AI、あるいは生成型AIを開発するチームを結成するよう命じられた。当時、この技術はまだソフトウェア業界の注目の的となっていませんでした。昨年、OpenAIがチャットボット「ChatGPT」を立ち上げて初めて、人々はAppleの先見の明に気づいた。チャットボット ChatGPT は大規模言語モデルの繁栄を推進してきました。

複数のアップル社員によると、ジャンナンドレア氏は人工知能言語モデルを搭載したチャットボットの潜在的有用性について繰り返し懐疑的な見解を示しているものの、アップルは言語モデルのブームに全く備えていないわけではないという。これは、Apple のソフトウェア研究文化の変革に貢献した Giannandrea 氏のおかげです。

こうした変化は現在、成果を上げています。大規模言語モデルの出現により、コンピュータプログラムからスライドプレゼンテーション、書籍に至るまで、あらゆるものを作成する方法が変化する可能性があるからです。この技術は、要約から企業の IT チケットや顧客サービスへの問い合わせの処理まで、テキストが関係する退屈で反復的なタスクを自動化することも約束します。

Foundational Modelsと呼ばれる会話型AIチームは、長年Googleで勤務した数人のエンジニアで構成されており、Giannandrea氏はAppleに入社する前は彼らの上司だった。このチームは、ジャンナンドレア氏が率いる人工知能研究部門を含むグーグルでの15年間の勤務を経て2021年にアップルに入社したルオミン・パン氏が率いる。

Appleが複数のLLMチームを結成

「ベースモデル」チームは約16人と小規模のままだが、アップルの最先端モデルをトレーニングするための予算は1日数百万ドルにまで増加していると関係者は語った。比較すると、ChatGPTを開発したスタートアップ企業OpenAIは、チャットボットを動かすための最も先進的なソフトウェアであるGPT-4のトレーニングに数か月かけて1億ドル以上を費やしたと、OpenAIのCEOサム・アルトマン氏は述べている。

Apple の「ベースモデリング」チームは、Google や Meta などの企業の人工知能チームと同様の役割を果たしています。これらの企業では、研究者は AI モデルを構築することが求められており、そのモデルは他のチームによって企業のさまざまな製品に適用されます。

しかし、Apple には言語モデルまたは画像モデルに取り組んでいる比較的新しいチームが少なくとも 2 つあるようです。最近のAppleのAI研究レポートとLinkedInの従業員プロフィールによると、同社には「画像、ビデオ、または3Dシーン」を生成できるソフトウェアの開発に専念する「ビジュアルインテリジェンス」チームがあるという。

別のチームは、画像、ビデオ、テキストを認識して生成できるモデルであるマルチモーダル AI に関する長期研究を行っています。このマルチモーダルチームのリーダーの一人は、2021年後半にAppleで働き始め、以前はGoogleで人工知能に携わっていたジョン・シュレンズ氏です。シュレンズ氏は今年初め、Google の人工知能チーム (現在は Google DeepMind として知られている) に加わった。 Google の次期 Gemini モデルにはマルチモード機能が搭載されます。

Appleの「基礎モデリング」チームはいくつかの高度なモデルを開発し、社内でテストしている。同社のチャットボット開発に直接詳しい人物によると、大規模な言語モデルに基づいたアップルのチャットボットは、最終的にはAppleCareの顧客とやり取りできるようになるという。 AppleCare は、保証と技術サポートを提供する同社のアフターサービスです。

Siriのアップグレード

さらに、Siri チームは大規模な言語モデルを統合して、Apple のインテリジェント音声アシスタントのユーザーが、上記の例のように簡単なコマンドで GIF を作成して送信するなど、現在は不可能な方法で特定の複雑なタスクを自動的に完了できるようにすることも計画しています。この新機能は、ユーザーがさまざまなアプリを使用して一連のアクションを手動でプログラムできるようにするAppleのショートカットアプリに関連しており、来年のiPhoneオペレーティングシステムの新バージョンと同時にリリースされる予定です。事情に詳しい人物によると、グーグルは音声アシスタントがより複雑なタスクを理解して処理できるよう、大規模な言語モデルを音声アシスタントに統合する取り組みも進めているという。

関係者によると、Appleの「基礎モデル」チームのメンバーは、同社の最も先進的な大規模言語モデルであるAJAX GPTが、ChatGPTの初期バージョンをサポートする大規模言語モデルであるOpenAIのGPT 3.5の機能を上回っていると考えているという。それ以来、OpenAI は大幅に強力な一連のモデルをリリースしました。

Apple が大規模言語モデルを自社製品にどう組み込むかについては、詳細はまだ不明だ。複数の元アップルの機械学習エンジニアによると、同社の経営陣は、クラウドサーバーではなく、プライバシーとパフォーマンスを向上させるデバイス上でソフトウェアを実行することを好んでいるという。

しかし、これを達成するのは難しいかもしれません。たとえば、Ajax GPT は、モデルを直接知る人物によると、2,000 億を超えるパラメータでトレーニングされている。パラメータは、機械学習モデルのサイズと複雑さを反映します。パラメータの数が多いほど、モデルは複雑になり、より多くのストレージスペースと計算能力が必要になります。 2000 億を超えるパラメータを持つ大規模な言語モデルは、iPhone での実行には適さない可能性があります。

大規模な言語モデルのサイズを縮小する前例があります。たとえば、Google の PaLM 2 には 4 つのサイズがあり、1 つはデバイス上で使用するためのもので、もう 1 つはオフラインで使用するためのものです。

アップルの広報担当者はコメントを控えた。

Googleの影響力

同僚からはJGと呼ばれているジャンナンドレア氏は、もともとSiriの改良とAppleのソフトウェアへの機械学習機能の導入に携わるためにAppleに入社した。同氏は、大規模言語モデルを搭載したチャットボットの潜在的な有用性について同僚に繰り返し懐疑的な見解を示していたが、この1年で社内のデモンストレーションをいくつか見てから、同氏はこの技術が指定されたタスクを達成する能力を持っていることを認め始めたと、事情を知る人物は語った。

Appleの「基礎モデル」チームの結成は、Giannandrea氏がAppleを自身の元雇用主に似たものにし、従業員にさまざまな種類の研究の実施や論文の出版においてより柔軟性を持たせるという決断から生まれたものである。これまで、こうした慣行に対する規制は、初期の AI 技術を自社製品にうまく活用していたにもかかわらず、Apple の優秀な人材を採用する能力を損なっていました。

2018年にAppleに入社した後、Giannandrea氏はGoogleから主要なエンジニアや研究者の採用に携わりました。同氏はまた、グーグルが開発したテンソル・プロセッシング・ユニットと呼ばれる人工知能チップを搭載したサーバーを含むグーグルのクラウドサービスの利用拡大を支持しており、アップルの機械学習モデルを訓練し、それがSiriやその他の製品機能の向上に役立てられることになる。

パン・ルオミン氏をよく知る人々によると、彼が発表したニューラルネットワークに関する研究は、多くの支持者を集めているという。ニューラルネットワークは機械学習のサブセットであり、人間の脳の働きと同様に、データ内のパターンと関係性を認識できるようにソフトウェアをトレーニングします。パン氏の注目すべき研究には、携帯電話のプロセッサでニューラルネットワークがどのように機能するか、また、並列コンピューティング (大きな問題を複数のプロセッサで同時に計算できる小さなタスクに分割するプロセス) を使用してニューラルネットワークをトレーニングする方法などが含まれています。

オープンソース運動

Pang 氏の Apple に対する影響は、彼のチームが過去 1 年間にわたって AJAX GPT のトレーニング用に開発した社内ソフトウェアである AXLearn に見ることができます。 AXLearn は、機械学習モデルを迅速にトレーニングできる機械学習フレームワークです。 AXLearn は Pang Ruoming の研究に基づいており、Google の Tensor Processing Unit 向けに最適化されています。

AXLearn は、Google の研究者によって開発されたオープンソースフレームワークである JAX のフォークです。 Apple の AJAX GPT を家に例えると、AXLearn は設計図、JAX は設計図を描くのに使用するペンと紙です。 Apple が大規模言語モデルのトレーニングに使用するデータは主に建設業界から収集されたもので、まだ公開されていません。

今年 7 月、Apple の「ベースモデル」チームは AXLearn のコードをコードリポジトリ GitHub にひっそりとアップロードしました。これにより、一般の人々はゼロからすべてを構築することなく、独自の大規模な言語モデルをトレーニングできるようになります。 Apple が AXLearn コードを公表した理由は不明だが、同社がそうするのは通常、他のエンジニアがモデルを改良してくれることを期待してのことだ。ジャンナンドレア氏が着任する前は、ソースコードを商用利用のために公開するという決定は、秘密主義のアップルにとって異例のことと思われていただろう。

チームリーダー

当初オランダのコンピューター科学者アーサー・ヴァン・ホフ氏が率いていたチームは、後にアップルの「ベースモデル」チームの中核となった。ホフ氏を知る人々によると、同氏は1990年代にJavaを開発したサン・マイクロシステムズチームの初期メンバーであり、後に著名な起業家となった。ホフ氏は2019年にアップルに入社し、当初はコードネーム「ブラックバード」と呼ばれるSiriの新バージョンの開発に取り組んだが、アップルは最終的にこれを断念した。

その後、ホフ氏のチームは、Blackbird の基本バージョンで使用することを目的とした大規模な言語モデルの構築に注力し始めました。当初、チームはわずか数名の従業員で構成されていましたが、その中で最も目立っていたのは、自然言語処理を専門とする 2 人の英国人研究者、トム・ガンターとトーマス・ニックソンでした。 2人の研究者はともにオックスフォード大学で高度な学位を取得し、2016年にSiriの開発のためにAppleに入社した。

関係者によると、2021年にパン・ルオミン氏は最先端の大規模言語モデルのトレーニングに携わるためアップルに入社した。他のアップル研究者とは異なり、彼はニューヨークに滞在する特別許可を与えられ、同社の機械学習チームのためにニューヨークに新しい拠点を設立する権限を与えられた。数か月後、アップルはホフ氏のチームを監督するために元グーグルAI幹部のダフネ・ルオン氏を雇い、長期的な機械学習研究に重点を置く並行チームを率いるためにグーグルの研究員サミー・ベンジオ氏を雇った。

パン・ルオミン氏が現在「ベースモデル」チームを引き継いでおり、ホフ氏は今年初めに無期限の休職を開始した。事情に詳しい関係者によると、パン・ルオミン氏のチームのメンバー数名は現在ニューヨークを拠点にしているという。

Google Cloud 取引

Pang Ruoming 氏が採用された当時、Apple 社内では、機械学習の分野で大規模言語モデルがますます重要になってきているという認識が高まっていました。事情に詳しい関係者によると、OpenAIのGPT-3は2020年6月にリリースされ、Appleの機械学習チームは独自のモデルをトレーニングするためにさらなる資金を要請したという。

事情に詳しい2人の人物によると、コスト削減のため、アップルの経営陣はこれまで機械学習エンジニアに対し、アマゾンの類似サービスではなく、グーグルのクラウドコンピューティングサービスを使うよう奨励してきた。グーグルのほうがコストが低いからだ。

協議に詳しい元アップル幹部によると、グーグル幹部は過去にアップルに対し、クラウド価格の引き下げは両社間の幅広い商業提携を部分的に反映したものだと伝えていたという。この契約により、Google 検索は Apple の Safari ブラウザのデフォルトの検索プロバイダーとなります。 Apple は長年にわたり世界最大のクラウドサーバーレンタル会社であり、Amazon の重要な顧客であり続ける一方で、Google Cloud の最大の顧客の 1 つにもなっています。

事情に詳しい人物によると、アップルはグーグルやメタの人工知能チームからも積極的に人材を採用しているという。 AXLearn コードが 7 月に GitHub にアップロードされて以来、18 人が貢献しており、そのうち少なくとも 12 人が過去 2 年間に Apple の機械学習チームに加わっています。このうち7人はGoogleまたはMetaで勤務していた。

<<: エスティローダーはAI/AR技術を活用してメイクアップをより洗練させ、近視の人がメイクアップがうまくできないことを心配する必要がなくなる

>>: