ジェフ・ディーンの大規模マルチタスク学習SOTAは苦情を受け、再現には6万ドルかかる

ジェフ・ディーンの大規模マルチタスク学習SOTAは苦情を受け、再現には6万ドルかかる

2021 年 10 月、Jeff Dean が新しい機械学習アーキテクチャである Pathways を紹介する記事を個人的に執筆しました。

目的はシンプルです。AI が数万のタスクに対応し、さまざまな種類のデータを理解し、極めて高い効率で次のことを実現できるようにすることです。

半年以上経った2022年3月、ジェフ・ディーン氏はついにPathways論文を発表しました。

論文リンク: https://arxiv.org/abs/2203.12533

その中には、最も基本的なシステムアーキテクチャなど、多くの技術的な詳細が追加されています。

2022年4月、Pathwaysを使用したGoogleのPaLM言語モデルが突如登場し、多くの自然言語処理タスクのSOTAを次々と破りました。5,400億のパラメータを持つこのTransformer言語モデルは、「大きな力は奇跡をもたらすことができる」ことを改めて証明しました。

この論文では、強力な Pathways システムの使用に加えて、PaLM のトレーニングには 6144 個の TPU v4 と、一定の割合の英語以外の多言語コーパスを含む 7800 億トークンの高品質データセットが使用されたことが紹介されています。

論文アドレス: https://arxiv.org/abs/2204.02311

最近、ジェフ・ディーンによる新しい記事が、Pathways についての憶測を巻き起こしました。

Pathways パズルのもう 1 つのピースが完成しましたか?

この論文の著者は、有名なジェフ・ディーン氏とイタリアのエンジニアであるアンドレア・ジェスムンド氏の 2 人だけです。

興味深いことに、ゲスムンドが目立たなかっただけでなく、2日前に自身のイマジェンを賞賛したばかりのジェフ・ディーンも、この件についてTwitterで一切言及しなかった。

これを読んだネットユーザーの中には、これが次世代の AI アーキテクチャ経路の一部である可能性があると推測する人もいました。

論文アドレス: https://arxiv.org/abs/2205.12755

この記事のアイディアは次のとおりです。

大規模なオペレーティング システムに新しいタスクを動的に組み込むことで、スパース マルチタスク機械学習モデルのフラグメントを使用して新しいタスクの品質を向上させることができ、モデルのフラグメントを関連するタスク間で自動的に共有できます。

このアプローチにより、各タスクの品質が向上し、収束時間、トレーニング例の数、エネルギー消費などの点でモデルの効率が向上します。この論文で提案されている機械学習の問題フレームワークは、標準的なマルチタスクと継続学習の形式論の一般化と統合として見ることができます。

このフレームワークでは、最大規模のタスク セットでも共同で解決できます。

さらに、時間の経過とともに、新しいタスクを継続的に追加することで、タスク セットを拡張できます。事前トレーニング タスクとダウンストリーム タスクの区別もなくなります。

新しいタスクが追加されると、システムは既存の知識と表現を新しいモデル機能と組み合わせて、新しいタスクごとに高い品質レベルを達成する方法を探します。新しいタスクを解決するときに得られた知識と学習した表現は、将来のタスクにも使用でき、既存のタスクの学習を継続するためにも使用できます。

この方法は、Mutational Multi-Task Network (µ2Net) と呼ばれます。 (μ=突然変異)

大規模継続学習実験のための2種類の突然変異モデル

簡単に言えば、複数のタスクを共同で解決するための大規模なマルチタスク ネットワークを生成することです。各タスクの品質と効率が向上するだけでなく、新しいタスクを動的に追加することでモデルを拡張することもできます。

以前のタスクからの学習を通じてシステムに組み込まれる知識が増えるほど、後続のタスクに対するソリューションの品質が高まります。

さらに、各タスクに新たに追加されたパラメータを削減することで、新しいタスクを解決する効率を継続的に向上させることができます。生成されたマルチタスク モデルはまばらにアクティブ化され、タスクベースのルーティング メカニズムを統合して、モデルが拡張されても各タスクの計算コストの増加が制限されるようにします。

マルチタスクシステムパラメータの総数に対する各タスクのアクティブ化および増加パラメータの割合

各タスクから学習された知識は、複数のタスクで再利用できる部分に分割されます。実験では、このチャンキング手法により、壊滅的な忘却、勾配摂動、負の転移など、マルチタスクおよび継続学習モデルに共通する問題を回避できることが示されています。

タスク ルート空間の探索と各タスクに最も関連性の高い事前知識のサブセットの識別は、メタ パラメータを手動で調整する必要なく、探索/活用のバランスを動的に調整することを目的とした進化アルゴリズムによって行われます。同じ進化ロジックを使用して、マルチタスク モデル コンポーネントのハイパーパラメータを動的に調整します。

「突然変異ネットワーク」と呼ばれていますが、この突然変異をどのように説明するのでしょうか?

ディープ ニューラル ネットワークは通常、アーキテクチャとハイパーパラメータによって定義されます。この記事のアーキテクチャは、一連のニューラル ネットワーク レイヤーで構成されています。各レイヤーは入力ベクトルを可変次元の出力ベクトルにマッピングし、オプティマイザーの構成やデータの前処理などのネットワークインスタンス化の詳細はハイパーパラメータによって決定されます。

したがって、ここで説明する突然変異も、レイヤークローン突然変異とハイパーパラメータ突然変異の 2 つのカテゴリに分類されます。

レイヤーのクローン化ミューテーションは、子モデルによってトレーニングできる親モデル レイヤーのコピーを作成します。親モデルのレイヤーが複製用に選択されていない場合、現在の状態が固定され、子モデルと共有され、既存のモデルの不変性が確保されます。

ハイパーパラメータの変異は、子レイヤーが親レイヤーから継承した構成を変更するために使用されます。各ハイパーパラメータの新しい値は、有効な値のセットから抽出できます。数値ハイパーパラメータの場合、有効な値のセットがリストに分類され、サンプリングは隣接する値に制限され、増分変更制約が適用されます。

実際にどのように機能するか見てみましょう:

ImageNet 2012、cifar100、cifar10 の 3 つのデータセットでは、5 回と 10 回のタスク反復後に、µ2Net が最も一般的で最も優れたパフォーマンスを発揮する ViT 事前トレーニング済み微調整モデルよりも優れたパフォーマンスを発揮しました。

タスク拡張の面では、VTAB-full および VDD 連続学習タスクを追加した後、µ2Net のパフォーマンスがさらに向上し、cifar10 データセットでの VDD 連続学習タスクのパフォーマンスは 99.43% という最高スコアに達しました。

マルチタスク文字分類ベンチマークタスクでは、2 回のタスク反復の後、µ2Net は、データセットのサイズが 2.5k から 240k のサンプルサイズに及ぶほとんどのデータセットで SOTA レベルを更新しました。

簡単に言えば、このアーキテクチャでは、モデルが学習するタスクが増えるほど、システムが学習する知識が増え、新しいタスクを解決しやすくなります。

たとえば、ViT-L アーキテクチャ (3 億 700 万パラメータ) は、1,308.7 億パラメータを持つマルチタスク システムに進化し、69 のタスクを解決できます。

さらに、パラメータのアクティベーションがスパースであるため、システムが成長しても各タスクの計算とメモリ使用量は一定に保たれます。実験では、各タスクの平均追加パラメータが 38% 削減されるのに対し、マルチタスク システムでは各タスクの合計パラメータの 2.3% しかアクティブにならないことが示されました。

もちろん、現時点では、これは単なるフレームワークと予備実験にすぎません。

ネットユーザー:論文はとても良いのですが…

素晴らしい論文なのに、買わない人もいるようです。

皇帝の新しい服を暴露するのが大好きな一部のネットユーザーは、もはや愛を信じていないとredditに投稿しました...ああ、それは「トップクラスの実験室/研究機関」によって作成されたAI論文です。

ID「Acurite氏」のネットユーザーは、これらの論文のデータとモデルの動作結果を当然信じていると述べた。

しかし、ジェフ・ディーン教授のこの論文を例に挙げてみましょう。18 ページのこの論文では、非常に複雑な進化的畳み込みとマルチタスク学習アルゴリズムについて説明しています。これは驚くべき、優れた、そして非常に賞賛に値する論文です。

ただし、言及しなければならない点が 2 つあります。

まず、ジェフ・ディーン氏らが論文で競合他社より優れていることを証明するために提案したベンチマーク結果は、CIFAR-10 ベンチマークで 99.43 であり、これは現在の SOTA の 99.40 よりも優れていました…

これは詐欺だとは言えませんが、言葉で説明するのは本当に難しいです。

次に、論文の最後には、TPU を使用してアルゴリズムを実行し、最終結果を取得するのに費やされた時間 (合計 17,810 時間) を示す表があります。

Google で働いていない人が論文の結果を再現したい場合、市場価格 3.22 ドル/時間で TPU をレンタルして再度実行できますが、その場合の費用は 57,348 ドルになります。

何がポイントですか?日刊紙でも現金能力の基準を設ける必要があるということでしょうか?

もちろん、このアプローチは、Google や OpenAI などの大手企業に限らず、業界の標準となっています。誰もが現状を改善するために少しの創造性を発揮し、多くの前処理済みデータとベンチマークをモデルに組み込みます。

そして、パーセンテージポイントの後の小数点以下 2 桁でも、実行結果が対戦相手の結果よりも数値的に高ければ、研究者は自信を持って履歴書に新しい論文タイトルの行を追加できます。

これは学界や産業界に実際にどのような影響を与えるのでしょうか?普通の大学院生にはあなたの結論を検証する余裕はありませんし、普通の企業はそのような退屈なベンチマークをプロジェクトで使用することはできません。

もう一度言いますが、何がポイントですか?

これは AI の世界で許容される快適ゾーンなのでしょうか?少数の大企業や、たまにトップクラスの学校が、自分たちにはお金があり、やりたいことは何でもできると毎日自慢しているのに、あなたにはお金がなく、ただ後についていくことしかできないのですか?

このままだと、消費者向けスタンドアロン グラフィック カードで 8 時間で結果を再現できる論文を集めるために、新しいコンピューター サイエンス ジャーナルを立ち上げたほうがよいかもしれません。

続報では、論文課題を抱える大学院生らが次々に不満を漏らした。

「Support Vector Machine」というIDを持つネットユーザーは、自分は小さな研究室の実践者であり、この勢いのせいでディープラーニングに取り組み続ける意欲をほぼ完全に失ってしまったと語った。

なぜなら、私自身の研究室の予算では、これらの大手企業とは全く競争できず、私の経済力に基づいた実行スコアを作成することができないからです。

理論的には新しいアイデアがあっても、査読に合格できる論文を書くのは難しいです。なぜなら、今日では、大企業の富のせいで、多くの論文査読者が「美化バイアス」を身につけているからです。論文のテストに使用された画像が見栄えが良くなければ、すべての作業が無駄になってしまいます。

巨大企業が役に立たないと言っているわけではありません。GPTやDALL-Eのようなプロジェクトはまさに画期的です。しかし、自分のマシンが動作しないのなら、なぜ興奮する必要があるのでしょうか?

別の博士課程の学生ネットユーザーが声を上げ、「サポートベクターマシン」を支持するコメントを投稿した。

2 年前、私の博士課程の学生がフロー モデルに関する論文を提出しましたが、この論文は主にサンプリングされたデータの潜在空間の発見に焦点を当てており、モデルの画像生成品質にはまったく影響がありませんでした。

その結果、論文の採点者からは「生成された画像は GAN によって生成された画像ほど良くない」という批判が寄せられました。

IDが「Uday」の別の大学院生も、2021年に提出した会議論文の採点者から受けた批判は「データが十分に洗練されていない」というものだったと語った。

人間の力はお金の力にはかなわないようです。これはまさに、東洋と西洋の心理学が似ており、中国と外国の道教がまだ分離されていないという世界的な傾向です。

しかし、状況は時とともに変化するかもしれません。おそらく、草の根レベルでアルゴリズムを採用し、誰もが大文字コーディングを使用することで、2番目のガレージスタートアップがIBMに勝つという奇跡が起こるかもしれません。

<<:  機械学習がインドのヘルスケア分野に変化をもたらす

>>:  顔だけで下着を全部剥ぎ取られる:マスクは役に立たない、この顔検査は国民を怒らせている

ブログ    

推薦する

アイデアから実装まで、2018 年の 13 の驚くべき新しい NLP 研究

2018 年には、自然言語処理の分野で多くの刺激的なアイデアやツールが生まれました。概念的な視点から...

ベースライン モデルから始めます。最初はモデルが醜く見えるかもしれませんが、心配しないでください。

[[229439]]ビッグデータ概要編纂者:張南星、静哲、荊浩南1. 機械学習製品を効率的に開発す...

...

人工知能の技術的・経済的特徴とその「活性化効果」

人工知能(AI)とは、人間の知能をシミュレート、拡張、拡大するための理論、方法、技術、アプリケーショ...

シリコンバレーの天才たちの没落: 才能から始まり、利益に転落し、「賢さ」のせいで失敗した

若い才能、輝かしい経歴、上司からの評価、順調なキャリア、明るい未来...これらは、2016 年初頭に...

...

テキストマイニング前処理におけるベクトル化とハッシュトリック

[[201071]]序文「テキスト マイニングにおける単語分割の原理」では、テキスト マイニングの前...

長さ 0.3 メートルのロボットが 99 フィートの高さまでジャンプできます。ネイチャー誌が、将来月面に着陸できるジャンプロボットを発表

世の中に不思議なことは何もありません。 「ボリューム」という言葉が最も重要視されるこの時代に、これま...

Golang と OpenCV ライブラリ: 顔認識を実装するには?

Go 言語で顔認識を実装するには、通常、OpenCV ライブラリを使用する必要があります。 Go ...

...

人工知能研究は行き詰まりに陥っているかもしれない

[51CTO.com クイック翻訳]フィリップ・K・ディックの1968年の小説『アンドロイドは電気羊...

北京大学とテンセントは、デザイナーと同じくらいクリエイティブなテキストロゴ生成モデルを提案した。

テキスト ロゴのデザインはデザイナーの創造性と経験に大きく依存しますが、その中でも各テキスト要素のレ...

「乾物」テイクアウト注文に8大AI配送・配分内部機構搭載、元気いっぱい!

過去2年間、テイクアウトの市場規模は驚異的なペースで成長を続けています。美団の最近のフードデリバリー...

デューク大学は、低品質のモザイクを数秒で高解像度の画像に変換するAIアルゴリズムを提案

高画質を追求する時代において、低画質に対する許容度はますます低くなっています。 Zhihuで「低解像...