北京大学のコンピュータサイエンス博士課程の学生が、OpenAIに先駆けて数学の問題を解くための事前学習済み言語モデルに関する論文を発表した。

北京大学のコンピュータサイエンス博士課程の学生が、OpenAIに先駆けて数学の問題を解くための事前学習済み言語モデルに関する論文を発表した。

[[433838]]

先日、EMNLP 2021 アワードが発表されました!最優秀長編論文と最優秀短編論文は中国の著者が受賞した。

しかし、幸せな人もいれば、悲しい人もいます。

北京大学の博士課程学生 Jianhao Shen 氏が率いる EMNLP に提出された「Generate & rank: A multi-task framework for math word issues」と題された論文は、包括的なレビュー中に重要性が不十分であると判断され、最終的に Findings に含まれたものの、メインの会議では受け入れられませんでした。

「査読者は概ねこの論文を好意的に受け止めましたが、限界論文のようです。これは数学の問題に対する BART の応用であり、数学の問題解決は NLP にとってそれほど重要なタスクではないことを考えると、このタスクに対する高度に設計されたソリューションの価値には疑問を感じます。」

[[433839]]

公式文書によると、「調査結果」としてリストされている論文は、一般的に低いスコアが付けられるか、または「新規性」が低いとみなされます。

特定のタスクの SOTA は改善されましたが、EMNLP コミュニティへの新しい洞察やより広範な適用性はありませんでした。

優れた斬新な実験があり、包括的な分析と結論が提示されていますが、使用されている方法は十分に「斬新」ではありません。

OpenAIはこの論文が非常に重要であると考えているが

興味深いことに、OpenAIは10月29日に「検証」と呼ばれる新しい方法を提案し、小学校の算数の問題を解くことができると主張した。

論文アドレス: https://arxiv.org/pdf/2110.14168.pdf

GSM8Kデータセットのアドレス: https://github.com/openai/grade-school-math

OpenAI が解決したい数学の問題は次のようになります。

OpenAI の GSM8K データセットからの問題の例 3 つ。計算注釈は赤で表示されています。

さらに、OpenAIは、「検証」により、60億のパラメータを持つGPT-3が数学の文章問題を解く際の精度が2倍になり、1750億のパラメータと微調整法を備えたGPT-3モデルに追いつくことさえできることを発見しました。

さらに重要なのは、9〜12歳の子供がテストで60点を獲得したのに対し、OpenAIの方法では同じ質問で55点しか獲得できなかったことです。これは人間の小学生のレベルの約90%に相当します。

どちらの記事も数学の文章問題を解くことについて書かれているので、これら 2 つの記事の目的は同じなのでしょうか?

偶然ですね、本当です!

それだけでなく、OpenAIの最新作「数学の文章問題を解くための検証者のトレーニング」では、北京大学の博士課程の学生であるShen Jianhao氏が9月7日に提出した論文「生成とランク付け:数学の文章問題のためのマルチタスクフレームワーク」も引用されている。

Jianhao Shen、Yichun Yin、Lin Li、Lifeng Shang、Xin Jiang、Ming Zhang、Qun Liu。生成と並べ替え: 数学の文章問題のためのマルチタスク フレームワーク。EMNLP 2020 の調査結果。この研究は、北京大学コンピュータサイエンス学院とファーウェイ・ノアの箱舟研究所の共同研究によって完了しました。

論文アドレス: https://arxiv.org/abs/2109.03034

シェンが論文で解かなければならない数学の文章題がどのようなものか見てみましょう。

確かにこの2つは非常に似ています!

OpenAI の論文の「はじめに」セクションをさらに詳しく見ると、次の文章が見つかります。

OpenAIは論文の中で、そのアイデアはShen Jianhaoの論文に似ていると述べた。

「関連方法」では、次の文も確認できます。

私たちの仕事は彼らのアプローチと多くの基本的な類似点を共有していますが、いくつかの重要な点では異なります。

OpenAIは記事の最後で、シェン博士の記事も引用した。

つまり、OpenAI は Shen の論文の手法の価値を認識し、Shen Jianhao の論文は実際には OpenAI より 1 か月早く発表されたのです。

特筆すべきは、この論文の第一著者である沈建豪氏が、2014年に浙江省の大学入学試験でトップの成績を収めた人物だということです。彼は北京大学数学学院のデータ分野でもトップでした。彼は現在、北京大学コンピュータサイエンス学院の博士課程の学生であり、指導教官は張明教授です。

[[433840]]

言語モデルは数学の問題を解決できますか?

OpenAIのGPT-3は「優れた文学的才能」を持ち、天文学から地理学まであらゆることを知っています。有名作家の文体を真似して、幅広い知識を披露しても問題ありません。

しかし、「言語」モデルGPT-3は、文学は得意だが科学は苦手という典型的な「偏った生徒」であり、小学校の算数の文章問題を解くなど、正確な多段階の推論を完了することができません。

問題は、言語モデルは正解のルールを模倣することしかできず、「論理」を理解していないことです。

したがって、人間が大規模な言語モデルに複雑なロジックを理解させるには、モデルに間違いを識別し、問題解決の手順を慎重に選択することを学習させる必要があります。

この観点から、OpenAIと博士課程の学生Jianhao Shenはともに、言語モデルが数学的推論スキルを習得し、その推論が間違っているかどうかを判断できるようにするために、「最初に生成してからソートする」方法を提案した。

2つのコンテンツの比較

コアフレームワークは、ジェネレーター + リオーダラー/バリデーターです。

北京大学とファーウェイのノアの世代と再編成フレームワーク

Shen 氏の論文のモデルはジェネレーターとランク付け装置で構成されており、生成タスクとランク付けタスクを通じて共同でトレーニングされます。

ジェネレーターの目的は、与えられた数学の文章問題の解式を生成することです。次に、ソーターは候補セットから正しい表現を選択する必要があります。

どちらもエンコードとデコードに同じ BART モデルを共有し、ソーターは式にスコアを付けるスコアリング関数を追加します。

さらに、シーケンサーのトレーニング例を提供するための表現ライブラリを構築しました。モデルベースの生成とツリーベースの摂動という 2 つの異なる戦略が使用されます。

モデルベースの生成では、ハーネス検索メソッドを通じてジェネレーターを使用して上位 K 個の式を取得し、それらを式ライブラリに追加します。

ツリーベースの干渉法では、まず正しい表現をバイナリ ツリーに変換し、次に拡張、編集、削除、交換の 4 つの操作を使用して、前の方法を補足する新しい表現を取得します。

ツリーベースの干渉

トレーニング プロセスには、マルチタスク トレーニングとオンラインでの表現の更新が含まれます。まず、事前トレーニング済みの BART を生成タスクに合わせて微調整します。その後、微調整された BART とツリーベースの摂動を使用して、ランク付けツールのトレーニング サンプルとして表現を生成します。次に、生成とソートの共同トレーニングを実行します。

このプロセスは反復的に実行され、2 つのモジュール (ジェネレーターとソーター) は互いにブーストし続けます。同時に、ランカーに使用されるトレーニング インスタンスは、各反復後に更新されます。

トレーニングプロセスの生成とランク付け

OpenAI のアプローチには、ジェネレーターと検証者が関与します。

OpenAIのバリデータ

検証者は、モデルによって生成されたソリューションが正しいかどうかを判断できるため、テスト中に、検証者は質問と候補ソリューションを入力として受け取り、各ソリューションが正しい確率を出力します。検証者がトレーニングされると、ソリューションが正しい最終回答に到達したかどうかのみがトレーニングされ、正解か不正解かがマークされます。

検証者の具体的なトレーニング方法は、次の 3 つのステップに分かれています。

  1. まず、トレーニング セットでモデルの「ジェネレーター」を 2 エポックにわたって微調整します。
  2. 各トレーニング問題に対してジェネレーターから 100 個のソリューションをサンプリングし、各ソリューションに正解または不正解のラベルを付けます。
  3. 次に、バリデーターはデータセット上で 1 つのエポックにわたってトレーニングされます。

テスト中、新しい問題を解決するために、まず 100 個の候補ソリューションが生成され、次に「検証者」によってスコアが付けられ、最終的に最もランクの高いソリューションが選択されます。

確かにアイデアは似ていますが、細かい点が少し異なります。

1. OpenAIは記事の中で、ジェネレーターのトレーニングを制限し、過剰適合を防ぐためにジェネレーターと検証器を別々にトレーニングしていると述べていますが、原則的にはこれらのモデルを組み合わせて共同トレーニングを行うべきだと考えており、Shenは共同トレーニング法を使用しました。実験結果も、共同トレーニングによって最終的な効果が向上することを示しています。

2. シェン氏は、再配置者のトレーニングを支援する方法として、ツリーベースの撹乱という手法を提案しました。これは、正しい表現に基づいて、一連のより難しいネガティブサンプルを設計し、少しの撹乱を新しいネガティブサンプルとして追加するというものです。 OpenAIは同様のプロセスについては言及しなかった。

3. 「検証者」の性能を評価するために、OpenAI は新しい「GSM8K データセット」を収集し、研究用にオープンソース化しました。

GSM8K は、高品質、多様性に富み、中程度の難易度の小学校数学の問題 8,500 問で構成されています。データセット内の各質問では、最終的な答えを得るために「加算、減算、乗算、除算」の 4 つの算術演算を含む 2 ~ 8 の計算ステップが必要です。

最後に、Shen 氏は、よく使用される 2 つのデータセット、Math23K と MAWPS で実験を行いました。

そのうち、Math23K は 23,162 個の数学の文章題とそれに対応する数式解を含む大規模な中国語データセットです。 MAWPS は 2373 の質問を含む英語のデータセットで、そのすべてが 1 つの未知変数を持つ線形問題であり、式で解くことができます。

もちろん、最も明白なことは、使用される言語モデルが異なることです。 Shen は事前トレーニング済みのモデル BART を使用し、OpenAI は 60 億と 1750 億のパラメータを持つ GPT-3 を使用しました。

<<:  コビオニクス、針を使わずにワクチンを投与する新しいロボットを開発

>>:  マジックGPTは、1秒あたり1クロスの速度でオンライン記事を自動的に書き込み、宦官の作品に無制限の更新を提供することもできます。

ブログ    
ブログ    

推薦する

C++開発におけるデータ構造とアルゴリズムの分離についての簡単な説明

Windows でプログラムを書いたことがある人なら、誰でも多かれ少なかれビットマップを使ったことが...

人工知能による雇用促進

近年、人工知能は急速に発展し、新たな科学技術革命と産業変革を主導する中核的な原動力となり、人類の生産...

CIO が AI を活用して地位を向上させる 3 つの方法

組織内の利害関係者の視点から IT の役割を理解することは、IT がどのように変革する必要があるかを...

データセキュリティの向上と人工知能の信頼性の向上

JD Discovery Research InstituteのTao Dacheng所長はかつて、...

OpenAI の「地震」の中心人物である Ilya を見てみましょう。彼は AI についてどう考えているのでしょうか?

OpenAIのCEOサム・アルトマン氏は先週金曜日に解雇され、もはや同社を率いていない。投資家たち...

「顔認証」の隆盛を振り返る

[[391752]]昨年、ある短い動画が話題になりました。ヘルメットをかぶって家を内覧するお客さん。...

...

...

スキルマップは、自動運転技術の開発経路が非常にシンプルであることを示しています

2015年8月から現在までに、人工知能、フロントエンド開発、モバイル開発、クラウドコンピューティング...

...

人工知能を扱うなら必ず知っておくべき音声認識技術の原理

人工知能の急速な発展に伴い、音声認識は多くのデバイスの標準機能になり始めています。音声認識はますます...

機械学習を学ぶには? Alibaba のプログラマーが、わずか 7 つのステップで Python 機械学習を習得できるようお手伝いします。

概要: 現在、インターネット上の Python 機械学習リソースは非常に複雑で、初心者にとっては混乱...

ビッグデータと人工知能が戦略的な新興分野となる

最近、教育部は「教育部の高等大学教育の建設を加速し、人材育成能力を全面的に向上させることに関する意見...

段階的な自動運転は後から追いつくことができるか?

自動運転の何十億ドルもの利益の一部を欲しがらない人はいないだろう。最近、SAIC傘下のXiangda...

AI「コスプレ」の鍵はキャラクター設定にあり!復旦大学、人民大学などがビッグファイブ性格特性+MBTIテストを発表:特性回復率は82.8%に達し、OOCを否定

好きなアニメ小説のキャラクターとチャットしてみませんか?バーチャルコンパニオンが欲しいですか?あなた...