ジェフ・ディーン氏は自身の研究に対する批判に答える。「我々は新しいSOTAを取得しようとしているわけではなく、コスト計算は間違っている」

ジェフ・ディーン氏は自身の研究に対する批判に答える。「我々は新しいSOTAを取得しようとしているわけではなく、コスト計算は間違っている」

昨日、コミュニティ全体で最もホットな話題となったのは、reddit の機械学習研究者が、Google AI の責任者であるジェフ・ディーンの論文への関与を疑問視したことでした。論文「大規模マルチタスク学習システムにおけるタスクの動的導入への進化的アプローチ」は、木曜日にプレプリントプラットフォームarXivに提出された。

この論文では、ジェフ・ディーンらが、新しいタスクの動的かつ継続的な追加をサポートしながら、大規模なマルチタスクモデルを生成できる進化的アルゴリズムを提案しました。生成されたマルチタスクモデルは、スパースにアクティブ化され、タスクベースのルーティングを統合します。この新しい方法は、69 の画像分類タスクで競争力のある結果を達成し、たとえば、公開データのみでトレーニングされたモデルで CIFAR-10 の認識精度 99.43% という業界トップクラスの新しい認識精度を達成しました。

以前の SOTA は 99.40 であったため、CIFAR-10 で達成されたこの新しい SOTA が疑問視されています。彼女は、「この結果を出すのに合計 17,810 TPU コア時間かかりました。つまり、Google で働いていない場合は、1 時間あたり 3.22 ドルのオンデマンド料金を支払う必要があり、トレーニング済みモデルのコストは 57,348 ドルになります」と述べました。

そこで彼女は、魂を見つめる質問をしました。「ジェフ・ディーンは、CIFAR-10 を 0.03% 改善し、新しい SOTA を作成するために、4 人家族を 5 年間養えるほどのお金を費やしました。それだけの価値はあったのでしょうか?」

この質問は多くの分野の人々から共感を得ました。研究者の中には、「ディープラーニングへの興味はほとんど失せてしまった。小規模な研究室の実践者として、コンピューティング予算の面でテクノロジー大手と競争するのは基本的に不可能だ。たとえ優れた理論的なアイデアを持っていたとしても、主流の環境では偏りがあり、日の目を見るのが難しいかもしれない。これにより、不公平な競争環境が生まれてしまう」と悲観的な見方を示す者もいた。

話題がさらに広がる中、ジェフ・ディーンがRedditで個人的に反応した。同氏は「我々の研究の目的は、より高品質のcifar10モデルを得ることではなく、元の投稿者のコスト計算方法にも問題がある」と述べた。

ジェフ・ディーンの完全な回答

この論文は、Andrea Gesmundo と私によって完成されました。Andrea Gesmundo がほとんどの作業を行いました。

論文アドレス: https://arxiv.org/pdf/2205.12755.pdf

私が言いたいのは、この研究の目的は高品質の cifar10 モデルを取得することではないということです。代わりに、この研究では、実行中のシステムに新しいタスクを動的に導入し、既存のモデルからの表現を再利用し、新しいパラメータをまばらに導入する新しいタスクの高品質モデルを正常に取得し、同時に、壊滅的な忘却や負の転移などのマルチタスク システムの問題を回避できる設定を調査します。

私たちの実験では、いくつかの独立した視覚化タスク ベンチマークから 69 の異なるタスク ストリームを動的に導入でき、最終的にはこれらすべてのタスクに対して高品質のソリューションを共同で生成できるマルチタスク システムが実現できることが示されています。結果として得られるモデルは、特定のタスクに対してまばらにアクティブ化され、システムは新しいタスクに対してますます少ない新しいパラメータを導入します (下の図 2 を参照)。マルチタスク システムでは、このタスク ストリームの最後に増分タスクに対して 1.4% の新しいパラメーターのみが導入され、各タスクはモデル パラメーターの合計の平均 2.3% をアクティブ化します。タスク間でかなりの表現の共有が行われており、進化プロセスは、いつそれが意味をなすか、新しいタスクにいつ新しいトレーニング可能なパラメータを導入する必要があるかを判断するのに役立ちます。

また、元の投稿者のコスト計算は間違っていると思います。この実験は、cifar10 モデルをトレーニングするのではなく、69 のタスクを共同で解決するマルチタスク モデルをトレーニングすることです。下の表 7 に示すように、使用される計算は TPUv3 コアと TPUv4 コアの組み合わせであり、価格が異なるため、単純にコア時間を計算することはできません。

実際、特に緊急のタスクがあり、cifar10+68 タスクを迅速にトレーニングする必要がある場合を除き、この種の研究では、プリエンプティブ価格のリソース、つまり TPUv4 では 0.97 ドル/時間、TPUv3 では 0.60 ドル/時間 (オンデマンドで 3.22 ドル/時間を支払う必要があるとされている金額ではありません) を簡単に使用できます。これらの前提に基づくと、表 7 で説明した計算のパブリック クラウド コストは約 13,960 ドル (プリエンプティブ価格で 12,861 TPUv4 チップ時間と 2,474.5 TPUv3 チップ時間を使用)、つまりタスクあたり約 202 ドルになります。

疎なアクティベーションを持つモデルを持つことは重要であり、表現を共有し(適切な場合)、壊滅的な忘却を回避できる既存のシステムに新しいタスクを動的に導入できることは、少なくとも検討する価値があると思います。このシステムには、新しいタスクを特別に作成する必要がなく、自動的にシステムに組み込むことができるという利点もあります (これは進化的検索プロセスで行われることです)。これは、継続的学習システムの便利な特性であると思われます。

この論文のコードはオープンソースなので、自分で確認することができます。

コードアドレス: https://github.com/google-research/google-research/tree/master/muNet

元の投稿者はJeff Deanに返信しました

Jeff Dean の返信を見た後、元の投稿者は次のようにコメントしました: 明確に言うと、Jeff Dean のこの論文 (各タスクでモデル拡張を生成するための進化パターン) は本当に興味深いと思います。別の論文を思い出させますが、タイトルは思い出せません。この論文は、新しいタスクごとにアーキテクチャ全体に新しいモジュールを追加し、他のモジュールの隠れ状態を各レイヤーの入力の一部として使用しますが、既存のコンポーネントの重みは更新しません。

また、各タスクごとにモデル内にモジュールを構築するというアイデアもありました。子鹿は生まれて数分以内に歩き始めることができることをご存知ですか?対照的に、その時点では、生まれたばかりの子鹿には、動きを知覚したり世界をモデル化したりすることを学ぶための「トレーニング データ」が本質的になく、代わりに、子鹿に基本的なスキルを与えるために受け継がれなければならない脳内の特殊な構造を利用しなければなりません。これらの構造は、新しいが関連する制御タスクにすぐに一般化されるという意味で、非常に役立ちます。

そこで、この論文を読んで、新しいタスクをより効果的に学習するために使用できる既存の継承可能な構造の開発について考えるようになりました。

別の研究室の研究者も同じ考えを持っているかもしれませんが、既存の設定から大規模なクラウド プラットフォームに移行する余裕がないため、はるかに悪い結果になる可能性があります。また、コミュニティが現在 SOTA の結果に重点を置きすぎているため、彼らの研究は公開できません。コストはタスクあたり「たった」202 ドルでしたが、適切な結果を得るには複数回の反復が必要でした。

したがって、大規模なコンピューティング予算を利用できない人にとって、選択肢は基本的に 2 つに限られます。 1 つは、Google が既存のモデルを公開配布してくれることを祈り、それを自分のニーズに合わせて微調整することです。しかし、その結果、モデルは排除できない偏見や敵対的な弱点を学習してしまう可能性があります。 2つ目は何もせずにただ横になることです。

ですから、私の問題はこの研究だけにあるのではありません。 OpenAI が GPT-4 に 1 兆ドル (比喩的に言えば) を費やしたいのであれば、それはそれで結構です。人々が実際の仕事をより良くこなせるように支援するよりも、派手さ、大きな数字、贅沢さを過度に評価する科学・出版文化です。私のお気に入りの論文は、van der Oord (2019) による「Representation Learning with Contrastive Predictive Coding」です。この論文では、教師なしの事前トレーニング タスクを使用し、その後、ラベル付けされた小さなサブセットで教師ありトレーニングを行って、すべてのラベル付けされたデータの精度結果を再現し、データ効率の観点からこの改善について説明しています。私はこれらの結果を自分の仕事に再現して使用し、時間と費用を節約しました。この論文だけに基づいて、私は彼の博士課程の学生になりたいと思っています。

しかし、OpenAIは論文「Language Models are Few-Shot Learners」でより大規模なトランスフォーマーモデルGPT-3を提案し、約4000件の引用とNeurIPS 2020 Best Paper Awardを獲得し、メディア全体から注目を集めました。​

<<:  10年後には自動運転車が普及するでしょうか?

>>:  クロスモーダルメタトランスファーに基づく、Meituと大連理工大学の参照ビデオオブジェクトセグメンテーション方法は、1つのステージのみを必要とする。

ブログ    
ブログ    
ブログ    

推薦する

インテリジェントエッジがモノのインターネット (IoT) の変革を推進

2025年までに、世界中に約750億個のIoTデバイスが存在すると予想されています。スマートデバイス...

ICLR 2022|スピードこそすべて!完全なバイナリ化 BiBERT による超圧縮

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ビデオ管理システム (VMS) を使用して複数ブランドのデバイス管理を強化するにはどうすればよいですか?

今日の環境では、インテグレーターとインストーラーは、古いセキュリティ プログラムをアップグレードし...

伝染病警報!人工知能は何をするのでしょうか?

中国で新型コロナウイルスの感染が初めて確認されたのは2019年12月19日。感染源については、これま...

企業は機械学習の運用を活用してビジネス上の利益を得ています

企業が初めて AI を導入し、機械学習プロジェクトを開始するときは、理論的なレベルに焦点が当てられる...

...

【ビッグコーヒーがやってくるエピソード5】ビッグデータミドルプラットフォームの構築方法

今回、「ビッグネームがやってくる」のライブ放送にゲストとして参加したのは、iResearch CTO...

ハイテク:米国は1キロメートル以内のターゲット認識を実現する長距離顔認識システムを開発

海外メディアの報道によると、最近「ニューサイエンス」誌に次のような記事が掲載された。 「米軍は1キロ...

チューリング賞受賞者たちは口論。ルカン氏:ベンジオ氏、ヒントン氏らのAI絶滅理論はばかげている

AIのリスクの問題に関しては、さまざまな有力者がさまざまな意見を持っています。 AI研究室に研究を即...

なんと6600個以上の星!この学習ロードマップはGithubで人気があります

あなたも、周りの同僚やオンライン情報で AI 人工知能や Python プログラミングについて話題に...

速報、劉強東が核爆弾を投げる!宅配便は早く消えます!

本当に信じられません、この時代の変化のスピードは想像を絶します!革新!革新!再びイノベーション!次か...

TransformerがCNNバックボーンネットワークを活性化、HKUとTencentの視覚的自己教師あり表現学習CARE

自己教師あり表現学習は、過去 2 年間で非常に人気が高まっています。機械学習分野のリーダーであるジェ...

...

科学者らがドローンを使って南極のペンギンの「国勢調査」を実施

最近、南極で初めて金色のペンギンが発見されました。このペンギンは「黄色いダイヤモンドを帯びている」と...