442人の著者による100ページの論文！ Googleは2年かけて大規模モデル向けの新しいベンチマーク「BIG-Bench」をリリースした。

1 件の AI 論文、442 人の著者。

著者の貢献のために特別な章も設けられています。

100ページのうち半分以上が参考文献です。

いや、最近こういう紙が流行ってるんじゃないの？

こちらが Google の最新の論文です – 模倣ゲームを超えて: 言語モデルの機能を定量化し推定する。

すると著者欄はこうなります…

132 の機関の研究者が 2 年間をかけて、大規模言語モデルの新しいベンチマークであるBIG-bench を提案しました。

これを基に、モデル規模が 6 桁に及ぶ OpenAI の GPT モデル、Google 内部の高密度トランスフォーマーアーキテクチャなどを評価しました。

最終結果は、規模の拡大とともにモデルのパフォーマンスは向上するものの、依然として人間のパフォーマンスには程遠いことを示しています。

この作品に対して、ジェフ・ディーンさんは「素晴らしい作品だ」とリツイートして「いいね」しました。

大規模言語モデルの新しいベンチマーク

この論文に何が書いてあるか見てみましょう。

規模が大きくなるにつれて、モデルのパフォーマンスと品質はある程度向上し、変革的な影響が出る可能性があります。しかし、これらの特性はこれまで十分に説明されていませんでした。

既存のベンチマークの中には、評価範囲が狭い、パフォーマンススコアがすぐに飽和状態になるなどの制限があるものもあります。

たとえば、SuperGLUE では、ベンチマークの開始から 18 か月以内に、モデルは「超人的な」パフォーマンスを達成しました。

このような背景から、BIG-benchは誕生しました。

現在、言語学、子どもの発達、数学、常識的推論、生物学、物理学、社会的偏見、ソフトウェア開発などの問題をカバーする 204 のタスクで構成されています。

さらに、人間の専門家審査員団もすべてのタスクを実行し、ベースラインレベルを提供しました。

より多くの機関での使用を促進するために、研究者らは、より迅速な評価のための小規模ながら代表的なタスクのサブセットである BIG-bench Lite も提供しました。

また、ベンチマーク API を実装するコードもオープンソース化しており、公開されているモデルでのタスク評価と新しいタスクの軽量作成をサポートしています。

最終的な評価結果では、スケールが 6 桁に及び、モデルサイズとトレーニングサンプル数の増加に伴い、BIG-bench の全体的なパフォーマンスが向上することが示されています。

しかし、人間のベースラインレベルと比較すると、パフォーマンスはまだ低いです。

特に一部のタスクでは、規模が大きくなるにつれてモデルのパフォーマンスが着実に向上します。しかし、時には、特定の規模で突然、ブレイクアウトパフォーマンスが発生することもあります。

さらに、社会的偏見のモデルを評価することもできます。

さらに、彼らは予想外に、モデルがいくつかの隠れたスキルを獲得できることも発見しました。たとえば、チェスで合法的な動きをする方法などです。

著者の寄稿: 14 ページ

著者が多すぎるためか、論文の最後に著者の貢献を記録するための特別な章が用意されていることは言及する価値がある。

これは 14 ページにわたる記事で、主要な貢献者、レビュー担当者、タスク提供者などが含まれています...

残りは50ページの参考文献です。

さて、興味のある方は下のリンクをクリックして論文を読んでみてください。

論文リンク:

https://arxiv.org/abs/2206.04615

GitHub リンク:

https://github.com/google/BIG-bench

参考リンク:

https://twitter.com/jaschasd/status/1535055886913220608

<<: 合成データは AI/ML トレーニングの未来を推進するでしょうか?

>>: Google の研究者が発狂: AI に人格があると信じ、有給休暇を取得し、チャットログが恐ろしい

ペンシルバニア大学の最新研究：AI はアイデア生成において人間よりも 7 倍効率的であり、GPT の創造力は人間の 99% を上回ります。

ブログ

インダストリー4.0におけるインテリジェントロボットの影響

ブログ

クラウドコンピューティングを超えて考える: インテリジェントエッジはコンピューティングと AI の未来です

ブログ

脳コンピューターインターフェースが人間とコンピューターの共生を実現専門家：ハッカーにハイジャックされ記憶を消去される可能性も

ブログ

MITは、Natureの表紙に掲載され、非コード領域のDNA変異を予測するディープラーニングフレームワークを設計した。

ブログ

グラフィックで説明する 10 個のグラフアルゴリズム

ブログ

BingチャットAIの品質に問題があるとユーザーが報告、マイクロソフトはエクスペリエンスの改善を約束

ブログ

市場規模は約16.8億元に達しました！物流と配送がドローンと出会う

ブログ

フラッシュは廃止されるが、5G時代の新技術は過去を思い出す暇を与えないだろう

ブログ

442人の著者による100ページの論文！ Googleは2年かけて大規模モデル向けの新しいベンチマーク「BIG-Bench」をリリースした。

大規模言語モデルの新しいベンチマーク

著者の寄稿: 14 ページ

ペンシルバニア大学の最新研究：AI はアイデア生成において人間よりも 7 倍効率的であり、GPT の創造力は人間の 99% を上回ります。

インダストリー4.0におけるインテリジェントロボットの影響

クラウドコンピューティングを超えて考える: インテリジェントエッジはコンピューティングと AI の未来です

脳コンピューターインターフェースが人間とコンピューターの共生を実現専門家：ハッカーにハイジャックされ記憶を消去される可能性も

MITは、Natureの表紙に掲載され、非コード領域のDNA変異を予測するディープラーニングフレームワークを設計した。

グラフィックで説明する 10 個のグラフアルゴリズム

BingチャットAIの品質に問題があるとユーザーが報告、マイクロソフトはエクスペリエンスの改善を約束

市場規模は約16.8億元に達しました！物流と配送がドローンと出会う

フラッシュは廃止されるが、5G時代の新技術は過去を思い出す暇を与えないだろう

推薦する

Agora.io がモバイルゲーム向けリアルタイム音声サービス「AMG Voice」を開始

Transformer ニューラルネットワークモデルを 1 つの記事で理解する

人工知能が新たな領域を切り開く：バーチャルクリエイターの背後にある戦い

将来のモバイル通信ネットワーク、6Gと人工知能の統合

動きながら描くと、2次元の人物になります：リアルタイムインタラクティブビデオスタイル化

人工知能の継続的な発展により、ロボットが人間に取って代わり、あらゆる労働を行うようになるのでしょうか?

GMIC 2018: DataVisor が成長中の企業に AI 不正防止機能を導入する方法

スマートオフィス管理におけるAIの役割

まだ分からない？約20以上の自動運転データセット、ランキング、ベンチマークのコレクション

AI バイブル PRML「パターン認識と機械学習」が Microsoft によって正式にオープンソース化されました。

ビジネスオートメーション、斗山の市場成功の鍵