1 件の AI 論文、442 人の著者。 著者の貢献のために特別な章も設けられています。 100ページのうち半分以上が参考文献です。 いや、最近こういう紙が流行ってるんじゃないの? こちらが Google の最新の論文です – 模倣ゲームを超えて: 言語モデルの機能を定量化し推定する。 すると著者欄はこうなります… 132 の機関の研究者が 2 年間をかけて、大規模言語モデルの新しいベンチマークであるBIG-bench を提案しました。 これを基に、モデル規模が 6 桁に及ぶ OpenAI の GPT モデル、Google 内部の高密度トランスフォーマー アーキテクチャなどを評価しました。 最終結果は、規模の拡大とともにモデルのパフォーマンスは向上するものの、依然として人間のパフォーマンスには程遠いことを示しています。 この作品に対して、ジェフ・ディーンさんは「素晴らしい作品だ」とリツイートして「いいね」しました。 大規模言語モデルの新しいベンチマークこの論文に何が書いてあるか見てみましょう。 規模が大きくなるにつれて、モデルのパフォーマンスと品質はある程度向上し、変革的な影響が出る可能性があります。しかし、これらの特性はこれまで十分に説明されていませんでした。 既存のベンチマークの中には、評価範囲が狭い、パフォーマンス スコアがすぐに飽和状態になるなどの制限があるものもあります。 たとえば、SuperGLUE では、ベンチマークの開始から 18 か月以内に、モデルは「超人的な」パフォーマンスを達成しました。 このような背景から、BIG-benchは誕生しました。 現在、言語学、子どもの発達、数学、常識的推論、生物学、物理学、社会的偏見、ソフトウェア開発などの問題をカバーする 204 のタスクで構成されています。 さらに、人間の専門家審査員団もすべてのタスクを実行し、ベースライン レベルを提供しました。 より多くの機関での使用を促進するために、研究者らは、より迅速な評価のための小規模ながら代表的なタスクのサブセットである BIG-bench Lite も提供しました。 また、ベンチマーク API を実装するコードもオープンソース化しており、公開されているモデルでのタスク評価と新しいタスクの軽量作成をサポートしています。 最終的な評価結果では、スケールが 6 桁に及び、モデル サイズとトレーニング サンプル数の増加に伴い、BIG-bench の全体的なパフォーマンスが向上することが示されています。 しかし、人間のベースラインレベルと比較すると、パフォーマンスはまだ低いです。 特に一部のタスクでは、規模が大きくなるにつれてモデルのパフォーマンスが着実に向上します。しかし、時には、特定の規模で突然、ブレイクアウトパフォーマンスが発生することもあります。 さらに、社会的偏見のモデルを評価することもできます。 さらに、彼らは予想外に、モデルがいくつかの隠れたスキルを獲得できることも発見しました。たとえば、チェスで合法的な動きをする方法などです。 著者の寄稿: 14 ページ著者が多すぎるためか、論文の最後に著者の貢献を記録するための特別な章が用意されていることは言及する価値がある。 これは 14 ページにわたる記事で、主要な貢献者、レビュー担当者、タスク提供者などが含まれています... 残りは50ページの参考文献です。 さて、興味のある方は下のリンクをクリックして論文を読んでみてください。 論文リンク: https://arxiv.org/abs/2206.04615 GitHub リンク: https://github.com/google/BIG-bench 参考リンク: https://twitter.com/jaschasd/status/1535055886913220608 |
<<: 合成データは AI/ML トレーニングの未来を推進するでしょうか?
>>: Google の研究者が発狂: AI に人格があると信じ、有給休暇を取得し、チャットログが恐ろしい
[[415365]]画像ソース: https://pixabay.com/images/id-358...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
地球外文明が存在するかどうかという疑問は、常に科学者たちを深く悩ませてきました。現在に至るまで、私た...
[[407147]]画像認識といえば、皆さんすでによくご存知だと思います。この技術は、顔認証、決済...
機械学習は、データセットに基づいて予測モデルを構築し、重要な意思決定に使用できる有用な回答を提供する...
導入生成画像の評価に関する既存の研究では、主に生成された画像の分布に基づいてモデルの「全体的な」生成...
[[250218]]ヨシュア・ベンジオ氏は、間違いなく現代の人工知能技術分野の第一人者です。ベンジ...
[[349907]]あらゆる業界に嵐のように広がっている流行語があるとすれば、それは「人工知能」に違...
ちょうど今、タイム誌が2023年にAI分野で最も影響力のある100人のリストを発表しました。このリス...
携帯電話のバスアプリでバス路線 112 の残りの停留所の数を確認するとき、バスに GPS をインスト...
最近、大規模マルチモーダルモデル (LMM) は、視覚言語タスクにおいて優れた能力を発揮することが実...
研究者たちは、特定の昆虫の神経系の機能が、決定論的、確率的、揮発性、不揮発性メモリの機能とどのように...