ジェフ・ディーンの大規模マルチタスク学習SOTAは苦情を受け、再現には6万ドルかかる

2021 年 10 月、Jeff Dean が新しい機械学習アーキテクチャである Pathways を紹介する記事を個人的に執筆しました。

目的はシンプルです。AI が数万のタスクに対応し、さまざまな種類のデータを理解し、極めて高い効率で次のことを実現できるようにすることです。

半年以上経った2022年3月、ジェフ・ディーン氏はついにPathways論文を発表しました。

論文リンク: https://arxiv.org/abs/2203.12533

その中には、最も基本的なシステムアーキテクチャなど、多くの技術的な詳細が追加されています。

2022年4月、Pathwaysを使用したGoogleのPaLM言語モデルが突如登場し、多くの自然言語処理タスクのSOTAを次々と破りました。5,400億のパラメータを持つこのTransformer言語モデルは、「大きな力は奇跡をもたらすことができる」ことを改めて証明しました。

この論文では、強力な Pathways システムの使用に加えて、PaLM のトレーニングには 6144 個の TPU v4 と、一定の割合の英語以外の多言語コーパスを含む 7800 億トークンの高品質データセットが使用されたことが紹介されています。

論文アドレス: https://arxiv.org/abs/2204.02311

最近、ジェフ・ディーンによる新しい記事が、Pathways についての憶測を巻き起こしました。

Pathways パズルのもう 1 つのピースが完成しましたか?

この論文の著者は、有名なジェフ・ディーン氏とイタリアのエンジニアであるアンドレア・ジェスムンド氏の 2 人だけです。

興味深いことに、ゲスムンドが目立たなかっただけでなく、2日前に自身のイマジェンを賞賛したばかりのジェフ・ディーンも、この件についてTwitterで一切言及しなかった。

これを読んだネットユーザーの中には、これが次世代の AI アーキテクチャ経路の一部である可能性があると推測する人もいました。

論文アドレス: https://arxiv.org/abs/2205.12755

この記事のアイディアは次のとおりです。

大規模なオペレーティングシステムに新しいタスクを動的に組み込むことで、スパースマルチタスク機械学習モデルのフラグメントを使用して新しいタスクの品質を向上させることができ、モデルのフラグメントを関連するタスク間で自動的に共有できます。

このアプローチにより、各タスクの品質が向上し、収束時間、トレーニング例の数、エネルギー消費などの点でモデルの効率が向上します。この論文で提案されている機械学習の問題フレームワークは、標準的なマルチタスクと継続学習の形式論の一般化と統合として見ることができます。

このフレームワークでは、最大規模のタスクセットでも共同で解決できます。

さらに、時間の経過とともに、新しいタスクを継続的に追加することで、タスクセットを拡張できます。事前トレーニングタスクとダウンストリームタスクの区別もなくなります。

新しいタスクが追加されると、システムは既存の知識と表現を新しいモデル機能と組み合わせて、新しいタスクごとに高い品質レベルを達成する方法を探します。新しいタスクを解決するときに得られた知識と学習した表現は、将来のタスクにも使用でき、既存のタスクの学習を継続するためにも使用できます。

この方法は、Mutational Multi-Task Network (µ2Net) と呼ばれます。（μ＝突然変異）

大規模継続学習実験のための2種類の突然変異モデル

簡単に言えば、複数のタスクを共同で解決するための大規模なマルチタスクネットワークを生成することです。各タスクの品質と効率が向上するだけでなく、新しいタスクを動的に追加することでモデルを拡張することもできます。

以前のタスクからの学習を通じてシステムに組み込まれる知識が増えるほど、後続のタスクに対するソリューションの品質が高まります。

さらに、各タスクに新たに追加されたパラメータを削減することで、新しいタスクを解決する効率を継続的に向上させることができます。生成されたマルチタスクモデルはまばらにアクティブ化され、タスクベースのルーティングメカニズムを統合して、モデルが拡張されても各タスクの計算コストの増加が制限されるようにします。

マルチタスクシステムパラメータの総数に対する各タスクのアクティブ化および増加パラメータの割合

各タスクから学習された知識は、複数のタスクで再利用できる部分に分割されます。実験では、このチャンキング手法により、壊滅的な忘却、勾配摂動、負の転移など、マルチタスクおよび継続学習モデルに共通する問題を回避できることが示されています。

タスクルート空間の探索と各タスクに最も関連性の高い事前知識のサブセットの識別は、メタパラメータを手動で調整する必要なく、探索/活用のバランスを動的に調整することを目的とした進化アルゴリズムによって行われます。同じ進化ロジックを使用して、マルチタスクモデルコンポーネントのハイパーパラメータを動的に調整します。

「突然変異ネットワーク」と呼ばれていますが、この突然変異をどのように説明するのでしょうか?

ディープニューラルネットワークは通常、アーキテクチャとハイパーパラメータによって定義されます。この記事のアーキテクチャは、一連のニューラルネットワークレイヤーで構成されています。各レイヤーは入力ベクトルを可変次元の出力ベクトルにマッピングし、オプティマイザーの構成やデータの前処理などのネットワークインスタンス化の詳細はハイパーパラメータによって決定されます。

したがって、ここで説明する突然変異も、レイヤークローン突然変異とハイパーパラメータ突然変異の 2 つのカテゴリに分類されます。

レイヤーのクローン化ミューテーションは、子モデルによってトレーニングできる親モデルレイヤーのコピーを作成します。親モデルのレイヤーが複製用に選択されていない場合、現在の状態が固定され、子モデルと共有され、既存のモデルの不変性が確保されます。

ハイパーパラメータの変異は、子レイヤーが親レイヤーから継承した構成を変更するために使用されます。各ハイパーパラメータの新しい値は、有効な値のセットから抽出できます。数値ハイパーパラメータの場合、有効な値のセットがリストに分類され、サンプリングは隣接する値に制限され、増分変更制約が適用されます。

実際にどのように機能するか見てみましょう:

ImageNet 2012、cifar100、cifar10 の 3 つのデータセットでは、5 回と 10 回のタスク反復後に、µ2Net が最も一般的で最も優れたパフォーマンスを発揮する ViT 事前トレーニング済み微調整モデルよりも優れたパフォーマンスを発揮しました。

タスク拡張の面では、VTAB-full および VDD 連続学習タスクを追加した後、µ2Net のパフォーマンスがさらに向上し、cifar10 データセットでの VDD 連続学習タスクのパフォーマンスは 99.43% という最高スコアに達しました。

マルチタスク文字分類ベンチマークタスクでは、2 回のタスク反復の後、µ2Net は、データセットのサイズが 2.5k から 240k のサンプルサイズに及ぶほとんどのデータセットで SOTA レベルを更新しました。

簡単に言えば、このアーキテクチャでは、モデルが学習するタスクが増えるほど、システムが学習する知識が増え、新しいタスクを解決しやすくなります。

たとえば、ViT-L アーキテクチャ (3 億 700 万パラメータ) は、1,308.7 億パラメータを持つマルチタスクシステムに進化し、69 のタスクを解決できます。

さらに、パラメータのアクティベーションがスパースであるため、システムが成長しても各タスクの計算とメモリ使用量は一定に保たれます。実験では、各タスクの平均追加パラメータが 38% 削減されるのに対し、マルチタスクシステムでは各タスクの合計パラメータの 2.3% しかアクティブにならないことが示されました。

もちろん、現時点では、これは単なるフレームワークと予備実験にすぎません。

ネットユーザー：論文はとても良いのですが…

素晴らしい論文なのに、買わない人もいるようです。

皇帝の新しい服を暴露するのが大好きな一部のネットユーザーは、もはや愛を信じていないとredditに投稿しました...ああ、それは「トップクラスの実験室/研究機関」によって作成されたAI論文です。

ID「Acurite氏」のネットユーザーは、これらの論文のデータとモデルの動作結果を当然信じていると述べた。

しかし、ジェフ・ディーン教授のこの論文を例に挙げてみましょう。18 ページのこの論文では、非常に複雑な進化的畳み込みとマルチタスク学習アルゴリズムについて説明しています。これは驚くべき、優れた、そして非常に賞賛に値する論文です。

ただし、言及しなければならない点が 2 つあります。

まず、ジェフ・ディーン氏らが論文で競合他社より優れていることを証明するために提案したベンチマーク結果は、CIFAR-10 ベンチマークで 99.43 であり、これは現在の SOTA の 99.40 よりも優れていました…

これは詐欺だとは言えませんが、言葉で説明するのは本当に難しいです。

次に、論文の最後には、TPU を使用してアルゴリズムを実行し、最終結果を取得するのに費やされた時間 (合計 17,810 時間) を示す表があります。

Google で働いていない人が論文の結果を再現したい場合、市場価格 3.22 ドル/時間で TPU をレンタルして再度実行できますが、その場合の費用は 57,348 ドルになります。

何がポイントですか?日刊紙でも現金能力の基準を設ける必要があるということでしょうか?

もちろん、このアプローチは、Google や OpenAI などの大手企業に限らず、業界の標準となっています。誰もが現状を改善するために少しの創造性を発揮し、多くの前処理済みデータとベンチマークをモデルに組み込みます。

そして、パーセンテージポイントの後の小数点以下 2 桁でも、実行結果が対戦相手の結果よりも数値的に高ければ、研究者は自信を持って履歴書に新しい論文タイトルの行を追加できます。

これは学界や産業界に実際にどのような影響を与えるのでしょうか?普通の大学院生にはあなたの結論を検証する余裕はありませんし、普通の企業はそのような退屈なベンチマークをプロジェクトで使用することはできません。

もう一度言いますが、何がポイントですか?

これは AI の世界で許容される快適ゾーンなのでしょうか?少数の大企業や、たまにトップクラスの学校が、自分たちにはお金があり、やりたいことは何でもできると毎日自慢しているのに、あなたにはお金がなく、ただ後についていくことしかできないのですか?

このままだと、消費者向けスタンドアロングラフィックカードで 8 時間で結果を再現できる論文を集めるために、新しいコンピューターサイエンスジャーナルを立ち上げたほうがよいかもしれません。

続報では、論文課題を抱える大学院生らが次々に不満を漏らした。

「Support Vector Machine」というIDを持つネットユーザーは、自分は小さな研究室の実践者であり、この勢いのせいでディープラーニングに取り組み続ける意欲をほぼ完全に失ってしまったと語った。

なぜなら、私自身の研究室の予算では、これらの大手企業とは全く競争できず、私の経済力に基づいた実行スコアを作成することができないからです。

理論的には新しいアイデアがあっても、査読に合格できる論文を書くのは難しいです。なぜなら、今日では、大企業の富のせいで、多くの論文査読者が「美化バイアス」を身につけているからです。論文のテストに使用された画像が見栄えが良くなければ、すべての作業が無駄になってしまいます。

巨大企業が役に立たないと言っているわけではありません。GPTやDALL-Eのようなプロジェクトはまさに画期的です。しかし、自分のマシンが動作しないのなら、なぜ興奮する必要があるのでしょうか?

別の博士課程の学生ネットユーザーが声を上げ、「サポートベクターマシン」を支持するコメントを投稿した。

2 年前、私の博士課程の学生がフローモデルに関する論文を提出しましたが、この論文は主にサンプリングされたデータの潜在空間の発見に焦点を当てており、モデルの画像生成品質にはまったく影響がありませんでした。

その結果、論文の採点者からは「生成された画像は GAN によって生成された画像ほど良くない」という批判が寄せられました。

IDが「Uday」の別の大学院生も、2021年に提出した会議論文の採点者から受けた批判は「データが十分に洗練されていない」というものだったと語った。

人間の力はお金の力にはかなわないようです。これはまさに、東洋と西洋の心理学が似ており、中国と外国の道教がまだ分離されていないという世界的な傾向です。

しかし、状況は時とともに変化するかもしれません。おそらく、草の根レベルでアルゴリズムを採用し、誰もが大文字コーディングを使用することで、2番目のガレージスタートアップがIBMに勝つという奇跡が起こるかもしれません。

<<: 機械学習がインドのヘルスケア分野に変化をもたらす

>>: 顔だけで下着を全部剥ぎ取られる：マスクは役に立たない、この顔検査は国民を怒らせている

IT ワーカーの皆さん、AI が再びあなたの仕事を奪いに来ます。今度はデータセンターから

ジェフ・ディーンの大規模マルチタスク学習SOTAは苦情を受け、再現には6万ドルかかる

IT ワーカーの皆さん、AI が再びあなたの仕事を奪いに来ます。今度はデータセンターから

教師あり学習に匹敵する、より優れた一般化性能を備えた自己教師あり学習深度推定アルゴリズム

Photonics 3DバーチャルアンカーチームがJD.comと提携し、11.11の最新の戦闘レポートをリアルタイムで放送

自律走行車の障害物回避、経路計画、制御技術の詳細な説明

2020年に注目すべき10のAIトレンド

ディープラーニングの概要: パーセプトロンからディープネットワークまで

キロメートル認識誤差5%未満の世界最先端の超長距離精密3Dセンシング技術をリリース。

ChatGPT がアジャイル専門家向けに用意した面接の質問は役に立ちますか?

推薦する

マスク氏の非嫡出双子が初めて暴露される！ニューラリンクの女性幹部に付き添われ、AIの終焉を憂いながら赤ちゃんを散歩させていた

OpenAIがSoraを発表: 現実を再定義する画期的なビデオ生成モデル

自動運転車の実現はAIと人間のゲームである

ファーウェイ、AI人材育成と科学研究の革新を促進する2つのAscendプロジェクトを開始

Nature: 室温超伝導体はなぜ持続できないのか?

TensorFlow を使用してロボットに音楽を作曲する方法を教えるにはどうすればよいでしょうか?秘密はこれです

IoTミツバチ：私たちの未来を救う技術

行列分解はディープラーニングに勝る！ MIT が時系列データベース tspDB をリリース: 機械学習に SQL を使用

流行は収まったが、学校の開始は何度も延期されている。プログラムシミュレーションでその理由がわかる

Google は一連の大きな動きを発表しました: Gemini Pro は中国語をサポートし、Bard は描画を学習し、新しいモデルが利用可能になりました

ビデオ会議に最適な AI アプリケーション

2021年に予測される6つのテクノロジートレンド