ジェフ・ディーンの大規模マルチタスク学習SOTAは苦情を受け、再現には6万ドルかかる

ジェフ・ディーンの大規模マルチタスク学習SOTAは苦情を受け、再現には6万ドルかかる

2021 年 10 月、Jeff Dean が新しい機械学習アーキテクチャである Pathways を紹介する記事を個人的に執筆しました。

目的はシンプルです。AI が数万のタスクに対応し、さまざまな種類のデータを理解し、極めて高い効率で次のことを実現できるようにすることです。

半年以上経った2022年3月、ジェフ・ディーン氏はついにPathways論文を発表しました。

論文リンク: https://arxiv.org/abs/2203.12533

その中には、最も基本的なシステムアーキテクチャなど、多くの技術的な詳細が追加されています。

2022年4月、Pathwaysを使用したGoogleのPaLM言語モデルが突如登場し、多くの自然言語処理タスクのSOTAを次々と破りました。5,400億のパラメータを持つこのTransformer言語モデルは、「大きな力は奇跡をもたらすことができる」ことを改めて証明しました。

この論文では、強力な Pathways システムの使用に加えて、PaLM のトレーニングには 6144 個の TPU v4 と、一定の割合の英語以外の多言語コーパスを含む 7800 億トークンの高品質データセットが使用されたことが紹介されています。

論文アドレス: https://arxiv.org/abs/2204.02311

最近、ジェフ・ディーンによる新しい記事が、Pathways についての憶測を巻き起こしました。

Pathways パズルのもう 1 つのピースが完成しましたか?

この論文の著者は、有名なジェフ・ディーン氏とイタリアのエンジニアであるアンドレア・ジェスムンド氏の 2 人だけです。

興味深いことに、ゲスムンドが目立たなかっただけでなく、2日前に自身のイマジェンを賞賛したばかりのジェフ・ディーンも、この件についてTwitterで一切言及しなかった。

これを読んだネットユーザーの中には、これが次世代の AI アーキテクチャ経路の一部である可能性があると推測する人もいました。

論文アドレス: https://arxiv.org/abs/2205.12755

この記事のアイディアは次のとおりです。

大規模なオペレーティング システムに新しいタスクを動的に組み込むことで、スパース マルチタスク機械学習モデルのフラグメントを使用して新しいタスクの品質を向上させることができ、モデルのフラグメントを関連するタスク間で自動的に共有できます。

このアプローチにより、各タスクの品質が向上し、収束時間、トレーニング例の数、エネルギー消費などの点でモデルの効率が向上します。この論文で提案されている機械学習の問題フレームワークは、標準的なマルチタスクと継続学習の形式論の一般化と統合として見ることができます。

このフレームワークでは、最大規模のタスク セットでも共同で解決できます。

さらに、時間の経過とともに、新しいタスクを継続的に追加することで、タスク セットを拡張できます。事前トレーニング タスクとダウンストリーム タスクの区別もなくなります。

新しいタスクが追加されると、システムは既存の知識と表現を新しいモデル機能と組み合わせて、新しいタスクごとに高い品質レベルを達成する方法を探します。新しいタスクを解決するときに得られた知識と学習した表現は、将来のタスクにも使用でき、既存のタスクの学習を継続するためにも使用できます。

この方法は、Mutational Multi-Task Network (µ2Net) と呼ばれます。 (μ=突然変異)

大規模継続学習実験のための2種類の突然変異モデル

簡単に言えば、複数のタスクを共同で解決するための大規模なマルチタスク ネットワークを生成することです。各タスクの品質と効率が向上するだけでなく、新しいタスクを動的に追加することでモデルを拡張することもできます。

以前のタスクからの学習を通じてシステムに組み込まれる知識が増えるほど、後続のタスクに対するソリューションの品質が高まります。

さらに、各タスクに新たに追加されたパラメータを削減することで、新しいタスクを解決する効率を継続的に向上させることができます。生成されたマルチタスク モデルはまばらにアクティブ化され、タスクベースのルーティング メカニズムを統合して、モデルが拡張されても各タスクの計算コストの増加が制限されるようにします。

マルチタスクシステムパラメータの総数に対する各タスクのアクティブ化および増加パラメータの割合

各タスクから学習された知識は、複数のタスクで再利用できる部分に分割されます。実験では、このチャンキング手法により、壊滅的な忘却、勾配摂動、負の転移など、マルチタスクおよび継続学習モデルに共通する問題を回避できることが示されています。

タスク ルート空間の探索と各タスクに最も関連性の高い事前知識のサブセットの識別は、メタ パラメータを手動で調整する必要なく、探索/活用のバランスを動的に調整することを目的とした進化アルゴリズムによって行われます。同じ進化ロジックを使用して、マルチタスク モデル コンポーネントのハイパーパラメータを動的に調整します。

「突然変異ネットワーク」と呼ばれていますが、この突然変異をどのように説明するのでしょうか?

ディープ ニューラル ネットワークは通常、アーキテクチャとハイパーパラメータによって定義されます。この記事のアーキテクチャは、一連のニューラル ネットワーク レイヤーで構成されています。各レイヤーは入力ベクトルを可変次元の出力ベクトルにマッピングし、オプティマイザーの構成やデータの前処理などのネットワークインスタンス化の詳細はハイパーパラメータによって決定されます。

したがって、ここで説明する突然変異も、レイヤークローン突然変異とハイパーパラメータ突然変異の 2 つのカテゴリに分類されます。

レイヤーのクローン化ミューテーションは、子モデルによってトレーニングできる親モデル レイヤーのコピーを作成します。親モデルのレイヤーが複製用に選択されていない場合、現在の状態が固定され、子モデルと共有され、既存のモデルの不変性が確保されます。

ハイパーパラメータの変異は、子レイヤーが親レイヤーから継承した構成を変更するために使用されます。各ハイパーパラメータの新しい値は、有効な値のセットから抽出できます。数値ハイパーパラメータの場合、有効な値のセットがリストに分類され、サンプリングは隣接する値に制限され、増分変更制約が適用されます。

実際にどのように機能するか見てみましょう:

ImageNet 2012、cifar100、cifar10 の 3 つのデータセットでは、5 回と 10 回のタスク反復後に、µ2Net が最も一般的で最も優れたパフォーマンスを発揮する ViT 事前トレーニング済み微調整モデルよりも優れたパフォーマンスを発揮しました。

タスク拡張の面では、VTAB-full および VDD 連続学習タスクを追加した後、µ2Net のパフォーマンスがさらに向上し、cifar10 データセットでの VDD 連続学習タスクのパフォーマンスは 99.43% という最高スコアに達しました。

マルチタスク文字分類ベンチマークタスクでは、2 回のタスク反復の後、µ2Net は、データセットのサイズが 2.5k から 240k のサンプルサイズに及ぶほとんどのデータセットで SOTA レベルを更新しました。

簡単に言えば、このアーキテクチャでは、モデルが学習するタスクが増えるほど、システムが学習する知識が増え、新しいタスクを解決しやすくなります。

たとえば、ViT-L アーキテクチャ (3 億 700 万パラメータ) は、1,308.7 億パラメータを持つマルチタスク システムに進化し、69 のタスクを解決できます。

さらに、パラメータのアクティベーションがスパースであるため、システムが成長しても各タスクの計算とメモリ使用量は一定に保たれます。実験では、各タスクの平均追加パラメータが 38% 削減されるのに対し、マルチタスク システムでは各タスクの合計パラメータの 2.3% しかアクティブにならないことが示されました。

もちろん、現時点では、これは単なるフレームワークと予備実験にすぎません。

ネットユーザー:論文はとても良いのですが…

素晴らしい論文なのに、買わない人もいるようです。

皇帝の新しい服を暴露するのが大好きな一部のネットユーザーは、もはや愛を信じていないとredditに投稿しました...ああ、それは「トップクラスの実験室/研究機関」によって作成されたAI論文です。

ID「Acurite氏」のネットユーザーは、これらの論文のデータとモデルの動作結果を当然信じていると述べた。

しかし、ジェフ・ディーン教授のこの論文を例に挙げてみましょう。18 ページのこの論文では、非常に複雑な進化的畳み込みとマルチタスク学習アルゴリズムについて説明しています。これは驚くべき、優れた、そして非常に賞賛に値する論文です。

ただし、言及しなければならない点が 2 つあります。

まず、ジェフ・ディーン氏らが論文で競合他社より優れていることを証明するために提案したベンチマーク結果は、CIFAR-10 ベンチマークで 99.43 であり、これは現在の SOTA の 99.40 よりも優れていました…

これは詐欺だとは言えませんが、言葉で説明するのは本当に難しいです。

次に、論文の最後には、TPU を使用してアルゴリズムを実行し、最終結果を取得するのに費やされた時間 (合計 17,810 時間) を示す表があります。

Google で働いていない人が論文の結果を再現したい場合、市場価格 3.22 ドル/時間で TPU をレンタルして再度実行できますが、その場合の費用は 57,348 ドルになります。

何がポイントですか?日刊紙でも現金能力の基準を設ける必要があるということでしょうか?

もちろん、このアプローチは、Google や OpenAI などの大手企業に限らず、業界の標準となっています。誰もが現状を改善するために少しの創造性を発揮し、多くの前処理済みデータとベンチマークをモデルに組み込みます。

そして、パーセンテージポイントの後の小数点以下 2 桁でも、実行結果が対戦相手の結果よりも数値的に高ければ、研究者は自信を持って履歴書に新しい論文タイトルの行を追加できます。

これは学界や産業界に実際にどのような影響を与えるのでしょうか?普通の大学院生にはあなたの結論を検証する余裕はありませんし、普通の企業はそのような退屈なベンチマークをプロジェクトで使用することはできません。

もう一度言いますが、何がポイントですか?

これは AI の世界で許容される快適ゾーンなのでしょうか?少数の大企業や、たまにトップクラスの学校が、自分たちにはお金があり、やりたいことは何でもできると毎日自慢しているのに、あなたにはお金がなく、ただ後についていくことしかできないのですか?

このままだと、消費者向けスタンドアロン グラフィック カードで 8 時間で結果を再現できる論文を集めるために、新しいコンピューター サイエンス ジャーナルを立ち上げたほうがよいかもしれません。

続報では、論文課題を抱える大学院生らが次々に不満を漏らした。

「Support Vector Machine」というIDを持つネットユーザーは、自分は小さな研究室の実践者であり、この勢いのせいでディープラーニングに取り組み続ける意欲をほぼ完全に失ってしまったと語った。

なぜなら、私自身の研究室の予算では、これらの大手企業とは全く競争できず、私の経済力に基づいた実行スコアを作成することができないからです。

理論的には新しいアイデアがあっても、査読に合格できる論文を書くのは難しいです。なぜなら、今日では、大企業の富のせいで、多くの論文査読者が「美化バイアス」を身につけているからです。論文のテストに使用された画像が見栄えが良くなければ、すべての作業が無駄になってしまいます。

巨大企業が役に立たないと言っているわけではありません。GPTやDALL-Eのようなプロジェクトはまさに画期的です。しかし、自分のマシンが動作しないのなら、なぜ興奮する必要があるのでしょうか?

別の博士課程の学生ネットユーザーが声を上げ、「サポートベクターマシン」を支持するコメントを投稿した。

2 年前、私の博士課程の学生がフロー モデルに関する論文を提出しましたが、この論文は主にサンプリングされたデータの潜在空間の発見に焦点を当てており、モデルの画像生成品質にはまったく影響がありませんでした。

その結果、論文の採点者からは「生成された画像は GAN によって生成された画像ほど良くない」という批判が寄せられました。

IDが「Uday」の別の大学院生も、2021年に提出した会議論文の採点者から受けた批判は「データが十分に洗練されていない」というものだったと語った。

人間の力はお金の力にはかなわないようです。これはまさに、東洋と西洋の心理学が似ており、中国と外国の道教がまだ分離されていないという世界的な傾向です。

しかし、状況は時とともに変化するかもしれません。おそらく、草の根レベルでアルゴリズムを採用し、誰もが大文字コーディングを使用することで、2番目のガレージスタートアップがIBMに勝つという奇跡が起こるかもしれません。

<<:  機械学習がインドのヘルスケア分野に変化をもたらす

>>:  顔だけで下着を全部剥ぎ取られる:マスクは役に立たない、この顔検査は国民を怒らせている

推薦する

...

ビジネスアナリストにとってAIが意味するもの

[[275322]]今日では、人工知能はもはや流行語ではなく、多くの環境ビジネスアナリストやその他の...

ロボットが密かに出産してみんなを驚かせている?

[[439390]]中国国営ラジオの12月7日の北京での「ニュースハイパーリンク」によると、米国の...

スマートテクノロジーを組み合わせて、地震災害を予防・軽減する新しい方法を生み出します!

再び5月12日。13年前の今日、マグニチュード8.0の地震が四川省汶川市を襲いました。この地震は地元...

世の中には、ほとんどコードを必要としない強力で古典的なアルゴリズムやプロジェクト事例にはどのようなものがありますか?

今日は、コードが非常に少ないけれども、非常にクールでクラシックな 4 つのアルゴリズムまたはプロジェ...

顔認識技術の倫理原則は何ですか?

顔認識技術がさまざまな分野で持つ大きな可能性は、ほとんど想像できないほどです。ただし、最も洗練された...

中国、米国、欧州における人工知能開発の現状の比較分析

1. 背景と比較方法[[393581]]人工知能は、経済、安全保障、社会の発展を促進する基礎技術です...

...

フロンティアモデルフォーラムは責任あるAIの創造を目指している

政府や社会からの監視が強まる中、人工知能(AI)の責任ある開発を促進し、業界標準を確立することを目的...

...

玩具におけるIoTとAIの統合が世界のスマート玩具市場の成長を促進

IoT が広く普及したことにより、さまざまな目的のためのスマートな接続型ガジェットの開発が促進され...

中国は、インターネット、ビッグデータ、人工知能などの分野における知的財産保護に関する研究と実践を実施します。

[[432777]]中国新聞社、北京、11月1日(記者:孫子発)中国国家知識産権局の沈長宇局長は1...

YouTube、有名歌手の真似をしたり、テキストやハミングで曲を作曲できるAIツールをリリース

YouTube は 11 月 16 日に、ユーザーがテキストを入力したりメロディーをハミングしたりす...

マインクラフトがAIの街に変身、NPC住民が本物の人間のようにロールプレイ

この立方体の男が、目の前にいる「招かれざる客」の正体について素早く考えている様子を、注意深く見てくだ...