Google Research の最新の発見: トレーニング結果が不正確になるのは、データ規模が巨大すぎることが原因です。

Google Research の最新の発見: トレーニング結果が不正確になるのは、データ規模が巨大すぎることが原因です。

[[428092]]

現在、AI の大きなトレンドは何ですか?そうです、データセットのサイズを拡大します。しかし、Geogle Research の最近の論文では、非常に大規模なデータセットを整理する傾向が、実際には人工知能システムの効果的な開発を妨げる可能性があると主張しています。

データサイズが大きいほど良いのでしょうか?

計算能力とデータは、人工知能の 2 つの主な原動力です。コンピュータービジョンであれ、自然言語処理であれ、AI システムはデータ セットと切り離せないものと思われます。

超大規模データの時代において、データと学習結果の関係は次のようになります。

データ規模が大きくなればなるほど、AI モデルの精度と効率が高まります。ほとんどの人の目には、これは議論の余地のない事実のように思えます。

データ サイズとモデルの精度は正の相関関係にあるというのは本当ですか?

最近、Geogle Research に掲載された論文は、この広く信じられている見解に疑問を投げかけています。

[[428094]]

規模が大きくなれば、どこにでも「飽和」が起こります!

「事前トレーニング モデルの限界の検証」と題されたこの論文は、機械学習の効果とデータの関係についての既存の仮定に疑問を投げかけています。実験から得られた結論は、データ規模やハイパーパラメータを増やすことで上流のパフォーマンスをどれだけ向上させても、下流で「飽和」が発生する可能性があるということです。

いわゆる飽和とは、ご想像のとおり、ニューロンに勾配信号が伝達されず、重みやデータに到達できないため、ネットワークが学習することが困難になることを意味します。

飽和効果についての主張を証明するために、著者らは、ImageNet21K や Google 独自の JFT-300M など、それぞれの分野で利用可能な最高容量のデータセットでトレーニングされた、1,000 万から 100 億までの異なる数のパラメータを持つビジュアル デフォーマー、ResNet、MLP ミキサーで 4,800 件の実験を実行しました。

この記事では、アップストリームとダウンストリームのパフォーマンスが矛盾する極端な状況についても言及しています。つまり、ダウンストリームのパフォーマンスを向上させるには、アップストリーム タスクの精度を犠牲にしなければならない可能性があるということです。

この仮説が検証されれば、最近リリースされた LAION-400M (4 億のテキスト/画像ペアを含む) や GPT-3 ニューラル言語エンジンのデータ (1,750 億のパラメータを含む) などの「超大規模」データセットは、従来の機械学習のアーキテクチャと方法によって制限される可能性が高いことを意味します。膨大な量のデータにより、下流のタスクが飽和状態になり、一般化能力が低下する可能性があります。

実際、これまでの仮定は完全に「ナンセンス」というわけではありません。条件を追加するだけで済みます。つまり、特定のデータ スケールのハイパーパラメータは、比較的単純な線形関数の関係にあり、固定値を持つ必要があります。

限られたコンピューティング リソースや経済的コストなどの問題を考慮すると、これまでの研究は範囲が狭く、データセットと効果的な AI システムの関係についての理解が不十分でした。一般化はよくある問題であることがわかりました。

実際にそんなに簡単なのでしょうか?

さらに記事では、「データ規模の有効性に関するこれまでの研究は、限られた規模でのみ実施された。したがって、結論を導き出すことはできない」と反論している。

違う意見を言うには根拠があるはずだ!なぜ記事はそのような結論に達するのか?真実は私たちの目の前にあったのです!

[[428095]]

上流と下流の関係は単純ではありません!

これまでの研究では、線形関数の仮定に基づいて対数関係が示されています。

しかし、研究によりこれが事実であることが判明した。

図から、下流のタスクはいくつかの時点で飽和状態になることがわかります。しかし、これらの「飽和点」は固定されていません。したがって、この記事では上流と下流の関係は非線形であると推測しています。

データとモデルのスケールを拡大することで、上流のパフォーマンスを向上させることができます。しかし、この非線形関係が存在するため、上流の精度は向上しても、下流の精度は保証されません。

事前にトレーニングされたモデルでは、「問題を一度で解決する」ことはできません。

この記事では、コンピューティング リソースを節約し、大量のデータを最初からトレーニングするために必要な時間を短縮することを目的とした「事前トレーニング」の実践について説明します。

事前トレーニングにより、モデルの堅牢性と精度が大幅に向上します。しかし、新しい論文では、事前トレーニング済みのテンプレートが比較的短い場合でも、特徴の複雑さを考慮すると、事前トレーニング済みのモデルがすべてのケースに適しているわけではないことが示されています。研究者が事前にトレーニングされたモデルに依存し続けると、最終結果の精度に影響する可能性があります。

この論文は、「すべての下流タスクに適した事前トレーニング済みモデルが見つかるとは期待できない」と結論づけています。

[[428097]]

スケールが大きいほど、正確性が増すのでしょうか?

Geogle Research の調査結果は、この結論に対して勇敢に「ノー」と言い、人々の目を開かせました。 AI研究分野全体に画期的な進歩をもたらすのでしょうか?おそらく、これはさらなる関連研究につながり、知らないうちに別の「波」を引き起こすことになるのでしょうか?待って見ましょう!

<<:  ドローンは「緊急産業」がインテリジェンスの時代に移行するのに大いに役立つ

>>:  TCP輻輳制御とGoogleのBBRアルゴリズムとは何か

ブログ    
ブログ    

推薦する

自動運転、論文採点のための人工知能…インテリジェントテクノロジーにはどのような破壊的可能性が秘められているのでしょうか?

[[216050]]教育が人工知能の発展と時代の変化に追いつかなければ、15年後には大学の半数が苦...

百度は「ニューラル条件付きランダムフィールド」病理スライス分析アルゴリズムをオープンソース化、専門病理学者よりも高い精度を実現

最近、百度研究所は論文で「ニューラル条件付きランダムフィールド」病理スライス分析アルゴリズムを提案し...

AI導入において、テクノロジーは最大の課題ではないが、人材は

[[427056]]写真: ゲッティ従来型企業の経営幹部が人工知能 (AI) や機械学習 (ML) ...

この記事では、ニューラルネットワークBPアルゴリズムの原理とPythonでの実装について説明します。

私は最近、BP アルゴリズムを体系的に研究し、この研究ノートを書きました。私の能力が限られているため...

アストラゼネカはPyTorchベースのアルゴリズムを使用して新薬を発見

[51CTO.com クイック翻訳] Facebookの機械学習フレームワークPyTorchは、20...

世界一のAIサーバーになるための勇気と戦略

現在、人工知能はますます産業に統合されつつあります。アプリケーション側では、顔認識決済、自動運転車、...

Omdia の観察: 配車サービスの大手企業が自動運転から撤退するのは幸運か、それとも災いか?

市場調査会社オムディアの最新レポートによると、北米第2位の配車プラットフォームプロバイダーであるLy...

ロボット工学と自動化が建築の未来を形作る

建設分野では、ロボット工学は効率性と労働安全を向上させる能力があるため、注目すべきイノベーションであ...

ボストン・ダイナミクスの二足歩行ロボット「アトラス」が驚異的な体操ショーを披露、ネットユーザー「恐ろしい」

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Googleの研究ディレクターはスタンフォード大学で教鞭をとり、「人工知能:現代的アプローチ」の著者でもある。

スタンフォード大学は10月11日、Googleリサーチディレクターのピーター・ノーヴィグ氏がスタンフ...

...

...

「機械が人間に取って代わる」時代が到来。人類はこれからどう生き残っていくのか?

今年の春節祝賀会には、有名人よりも人気のある特別な俳優たちがいます。書道をしたり、ダンスをしたり、腕...

Facebookの詐欺行為と戦う方法を学び、CopyCatchアルゴリズムがLockstepをどのように解決するかを見てみましょう

[51CTO.com クイック翻訳] インターネットが誕生して以来、あらゆる種類のジャンク情報や悪意...

ポストパンデミックの時代に、伝統的なオフィスビルは時代遅れになるのでしょうか?

新型コロナウイルスの世界的大流行が続く中、従業員にリモートワークを奨励する企業が増えています。従来の...