北京大学のコンピュータサイエンス博士課程の学生が、OpenAIに先駆けて数学の問題を解くための事前学習済み言語モデルに関する論文を発表した。

北京大学のコンピュータサイエンス博士課程の学生が、OpenAIに先駆けて数学の問題を解くための事前学習済み言語モデルに関する論文を発表した。

[[433838]]

先日、EMNLP 2021 アワードが発表されました!最優秀長編論文と最優秀短編論文は中国の著者が受賞した。

しかし、幸せな人もいれば、悲しい人もいます。

北京大学の博士課程学生 Jianhao Shen 氏が率いる EMNLP に提出された「Generate & rank: A multi-task framework for math word issues」と題された論文は、包括的なレビュー中に重要性が不十分であると判断され、最終的に Findings に含まれたものの、メインの会議では受け入れられませんでした。

「査読者は概ねこの論文を好意的に受け止めましたが、限界論文のようです。これは数学の問題に対する BART の応用であり、数学の問題解決は NLP にとってそれほど重要なタスクではないことを考えると、このタスクに対する高度に設計されたソリューションの価値には疑問を感じます。」

[[433839]]

公式文書によると、「調査結果」としてリストされている論文は、一般的に低いスコアが付けられるか、または「新規性」が低いとみなされます。

特定のタスクの SOTA は改善されましたが、EMNLP コミュニティへの新しい洞察やより広範な適用性はありませんでした。

優れた斬新な実験があり、包括的な分析と結論が提示されていますが、使用されている方法は十分に「斬新」ではありません。

OpenAIはこの論文が非常に重要であると考えているが

興味深いことに、OpenAIは10月29日に「検証」と呼ばれる新しい方法を提案し、小学校の算数の問題を解くことができると主張した。

論文アドレス: https://arxiv.org/pdf/2110.14168.pdf

GSM8Kデータセットのアドレス: https://github.com/openai/grade-school-math

OpenAI が解決したい数学の問題は次のようになります。

OpenAI の GSM8K データセットからの問題の例 3 つ。計算注釈は赤で表示されています。

さらに、OpenAIは、「検証」により、60億のパラメータを持つGPT-3が数学の文章問題を解く際の精度が2倍になり、1750億のパラメータと微調整法を備えたGPT-3モデルに追いつくことさえできることを発見しました。

さらに重要なのは、9〜12歳の子供がテストで60点を獲得したのに対し、OpenAIの方法では同じ質問で55点しか獲得できなかったことです。これは人間の小学生のレベルの約90%に相当します。

どちらの記事も数学の文章問題を解くことについて書かれているので、これら 2 つの記事の目的は同じなのでしょうか?

偶然ですね、本当です!

それだけでなく、OpenAIの最新作「数学の文章問題を解くための検証者のトレーニング」では、北京大学の博士課程の学生であるShen Jianhao氏が9月7日に提出した論文「生成とランク付け:数学の文章問題のためのマルチタスクフレームワーク」も引用されている。

Jianhao Shen、Yichun Yin、Lin Li、Lifeng Shang、Xin Jiang、Ming Zhang、Qun Liu。生成と並べ替え: 数学の文章問題のためのマルチタスク フレームワーク。EMNLP 2020 の調査結果。この研究は、北京大学コンピュータサイエンス学院とファーウェイ・ノアの箱舟研究所の共同研究によって完了しました。

論文アドレス: https://arxiv.org/abs/2109.03034

シェンが論文で解かなければならない数学の文章題がどのようなものか見てみましょう。

確かにこの2つは非常に似ています!

OpenAI の論文の「はじめに」セクションをさらに詳しく見ると、次の文章が見つかります。

OpenAIは論文の中で、そのアイデアはShen Jianhaoの論文に似ていると述べた。

「関連方法」では、次の文も確認できます。

私たちの仕事は彼らのアプローチと多くの基本的な類似点を共有していますが、いくつかの重要な点では異なります。

OpenAIは記事の最後で、シェン博士の記事も引用した。

つまり、OpenAI は Shen の論文の手法の価値を認識し、Shen Jianhao の論文は実際には OpenAI より 1 か月早く発表されたのです。

特筆すべきは、この論文の第一著者である沈建豪氏が、2014年に浙江省の大学入学試験でトップの成績を収めた人物だということです。彼は北京大学数学学院のデータ分野でもトップでした。彼は現在、北京大学コンピュータサイエンス学院の博士課程の学生であり、指導教官は張明教授です。

[[433840]]

言語モデルは数学の問題を解決できますか?

OpenAIのGPT-3は「優れた文学的才能」を持ち、天文学から地理学まであらゆることを知っています。有名作家の文体を真似して、幅広い知識を披露しても問題ありません。

しかし、「言語」モデルGPT-3は、文学は得意だが科学は苦手という典型的な「偏った生徒」であり、小学校の算数の文章問題を解くなど、正確な多段階の推論を完了することができません。

問題は、言語モデルは正解のルールを模倣することしかできず、「論理」を理解していないことです。

したがって、人間が大規模な言語モデルに複雑なロジックを理解させるには、モデルに間違いを識別し、問題解決の手順を慎重に選択することを学習させる必要があります。

この観点から、OpenAIと博士課程の学生Jianhao Shenはともに、言語モデルが数学的推論スキルを習得し、その推論が間違っているかどうかを判断できるようにするために、「最初に生成してからソートする」方法を提案した。

2つのコンテンツの比較

コアフレームワークは、ジェネレーター + リオーダラー/バリデーターです。

北京大学とファーウェイのノアの世代と再編成フレームワーク

Shen 氏の論文のモデルはジェネレーターとランク付け装置で構成されており、生成タスクとランク付けタスクを通じて共同でトレーニングされます。

ジェネレーターの目的は、与えられた数学の文章問題の解式を生成することです。次に、ソーターは候補セットから正しい表現を選択する必要があります。

どちらもエンコードとデコードに同じ BART モデルを共有し、ソーターは式にスコアを付けるスコアリング関数を追加します。

さらに、シーケンサーのトレーニング例を提供するための表現ライブラリを構築しました。モデルベースの生成とツリーベースの摂動という 2 つの異なる戦略が使用されます。

モデルベースの生成では、ハーネス検索メソッドを通じてジェネレーターを使用して上位 K 個の式を取得し、それらを式ライブラリに追加します。

ツリーベースの干渉法では、まず正しい表現をバイナリ ツリーに変換し、次に拡張、編集、削除、交換の 4 つの操作を使用して、前の方法を補足する新しい表現を取得します。

ツリーベースの干渉

トレーニング プロセスには、マルチタスク トレーニングとオンラインでの表現の更新が含まれます。まず、事前トレーニング済みの BART を生成タスクに合わせて微調整します。その後、微調整された BART とツリーベースの摂動を使用して、ランク付けツールのトレーニング サンプルとして表現を生成します。次に、生成とソートの共同トレーニングを実行します。

このプロセスは反復的に実行され、2 つのモジュール (ジェネレーターとソーター) は互いにブーストし続けます。同時に、ランカーに使用されるトレーニング インスタンスは、各反復後に更新されます。

トレーニングプロセスの生成とランク付け

OpenAI のアプローチには、ジェネレーターと検証者が関与します。

OpenAIのバリデータ

検証者は、モデルによって生成されたソリューションが正しいかどうかを判断できるため、テスト中に、検証者は質問と候補ソリューションを入力として受け取り、各ソリューションが正しい確率を出力します。検証者がトレーニングされると、ソリューションが正しい最終回答に到達したかどうかのみがトレーニングされ、正解か不正解かがマークされます。

検証者の具体的なトレーニング方法は、次の 3 つのステップに分かれています。

  1. まず、トレーニング セットでモデルの「ジェネレーター」を 2 エポックにわたって微調整します。
  2. 各トレーニング問題に対してジェネレーターから 100 個のソリューションをサンプリングし、各ソリューションに正解または不正解のラベルを付けます。
  3. 次に、バリデーターはデータセット上で 1 つのエポックにわたってトレーニングされます。

テスト中、新しい問題を解決するために、まず 100 個の候補ソリューションが生成され、次に「検証者」によってスコアが付けられ、最終的に最もランクの高いソリューションが選択されます。

確かにアイデアは似ていますが、細かい点が少し異なります。

1. OpenAIは記事の中で、ジェネレーターのトレーニングを制限し、過剰適合を防ぐためにジェネレーターと検証器を別々にトレーニングしていると述べていますが、原則的にはこれらのモデルを組み合わせて共同トレーニングを行うべきだと考えており、Shenは共同トレーニング法を使用しました。実験結果も、共同トレーニングによって最終的な効果が向上することを示しています。

2. シェン氏は、再配置者のトレーニングを支援する方法として、ツリーベースの撹乱という手法を提案しました。これは、正しい表現に基づいて、一連のより難しいネガティブサンプルを設計し、少しの撹乱を新しいネガティブサンプルとして追加するというものです。 OpenAIは同様のプロセスについては言及しなかった。

3. 「検証者」の性能を評価するために、OpenAI は新しい「GSM8K データセット」を収集し、研究用にオープンソース化しました。

GSM8K は、高品質、多様性に富み、中程度の難易度の小学校数学の問題 8,500 問で構成されています。データセット内の各質問では、最終的な答えを得るために「加算、減算、乗算、除算」の 4 つの算術演算を含む 2 ~ 8 の計算ステップが必要です。

最後に、Shen 氏は、よく使用される 2 つのデータセット、Math23K と MAWPS で実験を行いました。

そのうち、Math23K は 23,162 個の数学の文章題とそれに対応する数式解を含む大規模な中国語データセットです。 MAWPS は 2373 の質問を含む英語のデータセットで、そのすべてが 1 つの未知変数を持つ線形問題であり、式で解くことができます。

もちろん、最も明白なことは、使用される言語モデルが異なることです。 Shen は事前トレーニング済みのモデル BART を使用し、OpenAI は 60 億と 1750 億のパラメータを持つ GPT-3 を使用しました。

<<:  コビオニクス、針を使わずにワクチンを投与する新しいロボットを開発

>>:  マジックGPTは、1秒あたり1クロスの速度でオンライン記事を自動的に書き込み、宦官の作品に無制限の更新を提供することもできます。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能とモノのインターネット – 5つの新たなユースケース

AI(人工知能)とIoT(モノのインターネット)の融合により、世界中の企業に大きな可能性がもたらされ...

中国の人工知能コンピューティングパワーレポート:インターネット産業への投資が最も多く、都市ランキングでは杭州が1位

「中国の人工知能の応用と商業化の探究は世界と同レベルだが、コンピューティングパワー、アルゴリズム技術...

「黄金の3月と銀の4月」が到来し、AIはすでに人材採用の分野に浸透しています。あなたにはどのような影響があるでしょうか?

2017年と比べると、最近の人工知能分野のニュースは人々を怒らせることはほとんどないようだ。おそら...

...

FBIが警告:AIを使ってサイバー攻撃を仕掛けるハッカーの数が驚くべき速度で増加している

PCMagによると、7月31日のニュースでは、金曜日の記者との電話会議で、FBIは人工知能プログラム...

ChatGPT を使用すると、開発と学習の効率が向上するだけでなく、奥さんとの関係にも役立ちますか?

2024年初頭にChatGPTが人気を博して以来、コーディングを支援するさまざまなAIGCツールに...

フォーカス分析: 動画向けAIと画像向けAIの違い

[51CTO.com クイック翻訳] 画像処理と比較すると、ビデオから洞察を抽出したり、AI 技術を...

...

人工知能を活用して会社のウェブサイトをより良く作成する方法

ここでは、テクノロジーの進歩に合わせて AI を使用して、より発展し、より強力になる Web サイト...

ソラの影に隠れ、不安を抱える中国AI

「ついていけない人は排除されるかもしれない」ソラのデモ動画を見て、10年以上の経験を持つアニメプロ...

人工知能は「馴染みのものを殺す」ツールになるのでしょうか?

長い間、私の携帯電話のパッケージには主に 400 分の通話時間 + 500M のネットワーク トラフ...

...

人間とAIの初の討論会:観客が「メロンを食べていた」ため、AI討論者が勝利

[[234490]] 「ニュース速報、ニュース速報、人間と AI の最初の討論会は敗北しました......

画像内のオブジェクト検出のための ML データを探索および視覚化する方法

近年、機械学習データ(MLデータ)を深く理解する必要性に対する認識が高まっています。しかし、大規模な...

我が国はすでに「人工知能」でトップを走っています!なぜ米国は5日後にようやく強く否定し始めたのか?

[[429481]]最近、元国防総省の最高ソフトウェア責任者は、人工知能に関して、米国は今後15年...