ジェフ・ディーン氏は自身の研究に対する批判に答える。「我々は新しいSOTAを取得しようとしているわけではなく、コスト計算は間違っている」

ジェフ・ディーン氏は自身の研究に対する批判に答える。「我々は新しいSOTAを取得しようとしているわけではなく、コスト計算は間違っている」

昨日、コミュニティ全体で最もホットな話題となったのは、reddit の機械学習研究者が、Google AI の責任者であるジェフ・ディーンの論文への関与を疑問視したことでした。論文「大規模マルチタスク学習システムにおけるタスクの動的導入への進化的アプローチ」は、木曜日にプレプリントプラットフォームarXivに提出された。

この論文では、ジェフ・ディーンらが、新しいタスクの動的かつ継続的な追加をサポートしながら、大規模なマルチタスクモデルを生成できる進化的アルゴリズムを提案しました。生成されたマルチタスクモデルは、スパースにアクティブ化され、タスクベースのルーティングを統合します。この新しい方法は、69 の画像分類タスクで競争力のある結果を達成し、たとえば、公開データのみでトレーニングされたモデルで CIFAR-10 の認識精度 99.43% という業界トップクラスの新しい認識精度を達成しました。

以前の SOTA は 99.40 であったため、CIFAR-10 で達成されたこの新しい SOTA が疑問視されています。彼女は、「この結果を出すのに合計 17,810 TPU コア時間かかりました。つまり、Google で働いていない場合は、1 時間あたり 3.22 ドルのオンデマンド料金を支払う必要があり、トレーニング済みモデルのコストは 57,348 ドルになります」と述べました。

そこで彼女は、魂を見つめる質問をしました。「ジェフ・ディーンは、CIFAR-10 を 0.03% 改善し、新しい SOTA を作成するために、4 人家族を 5 年間養えるほどのお金を費やしました。それだけの価値はあったのでしょうか?」

この質問は多くの分野の人々から共感を得ました。研究者の中には、「ディープラーニングへの興味はほとんど失せてしまった。小規模な研究室の実践者として、コンピューティング予算の面でテクノロジー大手と競争するのは基本的に不可能だ。たとえ優れた理論的なアイデアを持っていたとしても、主流の環境では偏りがあり、日の目を見るのが難しいかもしれない。これにより、不公平な競争環境が生まれてしまう」と悲観的な見方を示す者もいた。

話題がさらに広がる中、ジェフ・ディーンがRedditで個人的に反応した。同氏は「我々の研究の目的は、より高品質のcifar10モデルを得ることではなく、元の投稿者のコスト計算方法にも問題がある」と述べた。

ジェフ・ディーンの完全な回答

この論文は、Andrea Gesmundo と私によって完成されました。Andrea Gesmundo がほとんどの作業を行いました。

論文アドレス: https://arxiv.org/pdf/2205.12755.pdf

私が言いたいのは、この研究の目的は高品質の cifar10 モデルを取得することではないということです。代わりに、この研究では、実行中のシステムに新しいタスクを動的に導入し、既存のモデルからの表現を再利用し、新しいパラメータをまばらに導入する新しいタスクの高品質モデルを正常に取得し、同時に、壊滅的な忘却や負の転移などのマルチタスク システムの問題を回避できる設定を調査します。

私たちの実験では、いくつかの独立した視覚化タスク ベンチマークから 69 の異なるタスク ストリームを動的に導入でき、最終的にはこれらすべてのタスクに対して高品質のソリューションを共同で生成できるマルチタスク システムが実現できることが示されています。結果として得られるモデルは、特定のタスクに対してまばらにアクティブ化され、システムは新しいタスクに対してますます少ない新しいパラメータを導入します (下の図 2 を参照)。マルチタスク システムでは、このタスク ストリームの最後に増分タスクに対して 1.4% の新しいパラメーターのみが導入され、各タスクはモデル パラメーターの合計の平均 2.3% をアクティブ化します。タスク間でかなりの表現の共有が行われており、進化プロセスは、いつそれが意味をなすか、新しいタスクにいつ新しいトレーニング可能なパラメータを導入する必要があるかを判断するのに役立ちます。

また、元の投稿者のコスト計算は間違っていると思います。この実験は、cifar10 モデルをトレーニングするのではなく、69 のタスクを共同で解決するマルチタスク モデルをトレーニングすることです。下の表 7 に示すように、使用される計算は TPUv3 コアと TPUv4 コアの組み合わせであり、価格が異なるため、単純にコア時間を計算することはできません。

実際、特に緊急のタスクがあり、cifar10+68 タスクを迅速にトレーニングする必要がある場合を除き、この種の研究では、プリエンプティブ価格のリソース、つまり TPUv4 では 0.97 ドル/時間、TPUv3 では 0.60 ドル/時間 (オンデマンドで 3.22 ドル/時間を支払う必要があるとされている金額ではありません) を簡単に使用できます。これらの前提に基づくと、表 7 で説明した計算のパブリック クラウド コストは約 13,960 ドル (プリエンプティブ価格で 12,861 TPUv4 チップ時間と 2,474.5 TPUv3 チップ時間を使用)、つまりタスクあたり約 202 ドルになります。

疎なアクティベーションを持つモデルを持つことは重要であり、表現を共有し(適切な場合)、壊滅的な忘却を回避できる既存のシステムに新しいタスクを動的に導入できることは、少なくとも検討する価値があると思います。このシステムには、新しいタスクを特別に作成する必要がなく、自動的にシステムに組み込むことができるという利点もあります (これは進化的検索プロセスで行われることです)。これは、継続的学習システムの便利な特性であると思われます。

この論文のコードはオープンソースなので、自分で確認することができます。

コードアドレス: https://github.com/google-research/google-research/tree/master/muNet

元の投稿者はJeff Deanに返信しました

Jeff Dean の返信を見た後、元の投稿者は次のようにコメントしました: 明確に言うと、Jeff Dean のこの論文 (各タスクでモデル拡張を生成するための進化パターン) は本当に興味深いと思います。別の論文を思い出させますが、タイトルは思い出せません。この論文は、新しいタスクごとにアーキテクチャ全体に新しいモジュールを追加し、他のモジュールの隠れ状態を各レイヤーの入力の一部として使用しますが、既存のコンポーネントの重みは更新しません。

また、各タスクごとにモデル内にモジュールを構築するというアイデアもありました。子鹿は生まれて数分以内に歩き始めることができることをご存知ですか?対照的に、その時点では、生まれたばかりの子鹿には、動きを知覚したり世界をモデル化したりすることを学ぶための「トレーニング データ」が本質的になく、代わりに、子鹿に基本的なスキルを与えるために受け継がれなければならない脳内の特殊な構造を利用しなければなりません。これらの構造は、新しいが関連する制御タスクにすぐに一般化されるという意味で、非常に役立ちます。

そこで、この論文を読んで、新しいタスクをより効果的に学習するために使用できる既存の継承可能な構造の開発について考えるようになりました。

別の研究室の研究者も同じ考えを持っているかもしれませんが、既存の設定から大規模なクラウド プラットフォームに移行する余裕がないため、はるかに悪い結果になる可能性があります。また、コミュニティが現在 SOTA の結果に重点を置きすぎているため、彼らの研究は公開できません。コストはタスクあたり「たった」202 ドルでしたが、適切な結果を得るには複数回の反復が必要でした。

したがって、大規模なコンピューティング予算を利用できない人にとって、選択肢は基本的に 2 つに限られます。 1 つは、Google が既存のモデルを公開配布してくれることを祈り、それを自分のニーズに合わせて微調整することです。しかし、その結果、モデルは排除できない偏見や敵対的な弱点を学習してしまう可能性があります。 2つ目は何もせずにただ横になることです。

ですから、私の問題はこの研究だけにあるのではありません。 OpenAI が GPT-4 に 1 兆ドル (比喩的に言えば) を費やしたいのであれば、それはそれで結構です。人々が実際の仕事をより良くこなせるように支援するよりも、派手さ、大きな数字、贅沢さを過度に評価する科学・出版文化です。私のお気に入りの論文は、van der Oord (2019) による「Representation Learning with Contrastive Predictive Coding」です。この論文では、教師なしの事前トレーニング タスクを使用し、その後、ラベル付けされた小さなサブセットで教師ありトレーニングを行って、すべてのラベル付けされたデータの精度結果を再現し、データ効率の観点からこの改善について説明しています。私はこれらの結果を自分の仕事に再現して使用し、時間と費用を節約しました。この論文だけに基づいて、私は彼の博士課程の学生になりたいと思っています。

しかし、OpenAIは論文「Language Models are Few-Shot Learners」でより大規模なトランスフォーマーモデルGPT-3を提案し、約4000件の引用とNeurIPS 2020 Best Paper Awardを獲得し、メディア全体から注目を集めました。​

<<:  10年後には自動運転車が普及するでしょうか?

>>:  クロスモーダルメタトランスファーに基づく、Meituと大連理工大学の参照ビデオオブジェクトセグメンテーション方法は、1つのステージのみを必要とする。

ブログ    
ブログ    

推薦する

...

「ブラックミラー」が登場!ボストン・ダイナミクスのロボット犬がニューヨーク市警に加わり、街中を飛び回って法を執行する

私たちはサイバーパンクの世界に生きているのでしょうか?最近、「ブラックミラー」のようなシーンが登場し...

5Gは医療業界に革命を起こす

[[377987]]画像ソース: https://pixabay.com/images/id-149...

...

人工知能が生き残るために頼りにしているビッグデータは、独占企業の手に渡ると本当に恐ろしいものになる

わずか5年で、人工知能は急速に発展しました。最近、GPT-3が再び白熱した議論を巻き起こしています。...

AI技術がピカソの隠された絵画の発見を助ける

[[429170]]最近、外国メディアの報道によると、有名になる前のパブロ・ピカソは、必ずしも画材を...

ジャック・マー:私は人工知能を恐れていない。今後30年間で私がやることは1つだけだ

[[223784]]ジャック・マー氏は以前、世界経済フォーラムでこう語った。「将来、多くの仕事が人工...

...

スタンフォード大学がトランスフォーマー代替モデルを訓練:1億7000万のパラメータ、バイアスを除去可能、制御可能、解釈可能

GPT に代表される大規模言語モデルは、これまでも、そしてこれからも、並外れた成果を達成し続けますが...

...

...

人工知能を迷わせない

[[438551]]人工知能技術の急速な発展に伴い、世界各国は兵器や装備の研究開発にインテリジェント...

ニューヨーク大学のチームは、自然言語を使ってチャットボットChatGPTを使ってマイクロプロセッサをゼロから設計した。

6月19日、生成型人工知能がハードウェア設計などの分野に参入し始めました。最近、ニューヨーク大学の...

キロメートル認識誤差5%未満の世界最先端の超長距離精密3Dセンシング技術をリリース。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

大きな AI 問題の解決: AI 操作のエネルギー消費を削減するにはどうすればよいでしょうか?

現在、AI分野で画期的な進歩を遂げているディープラーニングモデルの規模が大きくなるほど、エネルギー消...