少し手を加えるだけで、GPT-3 の精度が 61% 向上します。グーグルと東京大学の研究は皆を驚かせた

私たちが目を覚ましたとき、機械学習コミュニティは大騒ぎしていました。

最新の研究により、GPT-3 に「ステップごとに考えてみましょう」と言うだけで、GPT-3 はこれまで知らなかった質問に正しく答えられることがわかったからです。

たとえば、次の例をご覧ください。

16 個のボールのうち半分はゴルフボールで、残りの半分は青色です。青色のゴルフボールはいくつありますか?

（問題は難しくありませんが、これはゼロショット学習であり、AI がトレーニング段階で同様の問題を見たことがないことを意味していることに注意してください。）

GPT-3 に「答えは何ですか」と直接書くように指示すると、間違った答えが返されます: 8。

しかし、この「マントラ」について段階的に考えるように求めた後、GPT-3 はまず思考のステップを出力し、最終的に正しい答え「4」を出します。

これは偶然ではなく、研究チームは論文の中でそれを完全に検証しました。

上記の質問は、言語モデルが数学の問題を解く能力を特にテストする、古典的な MutiArith データセットから取られています。ゼロサンプルのシナリオでの GPT-3 の精度率はわずか 17% でした。

この論文では、最も効果的な 9 つのプロンプトワードをまとめています。そのうち、GPT-3 の思考方法を段階的に変更する最初の 6 つは、精度を 70% 以上に向上させました。

最も簡単なフレーズ「考えてみましょう」でも 57.5% まで増加します。

まるで幼稚園の先生が子供をなだめているような感じです...

この手法では、GPT-3 を変更する必要はないようです。OpenAI の公式デモで、中国語でも再現に成功した人がいます。

英語の質問には中国語のヒントがあり、GPT-3 は正しい中国語の回答を出します。

この論文を最初にソーシャルネットワークに転送した Google の研究者は、新しい「必要なものすべて」が追加されたと述べました。

これを見て、大物たちは皆想像力を働かせてミームで遊び始めました。

AIに「あなたならできる、私はあなたを信じている」と励ましたらどうなるでしょうか?

「時間が迫っている」とか「頭に銃が突きつけられている」などと言って AI を脅すのはどうでしょうか?

AIに「もっと安定して運転しなさい」と指示することが自動運転の解決策になるのでしょうか？

他の人たちは、これはまさにSF小説『銀河ヒッチハイク・ガイド』の筋書きと同じであり、汎用人工知能を実現するための鍵はAIに適切な質問をする方法を知ることだと示唆している。

それで、この奇跡的な現象は一体何なのでしょうか?

大規模言語モデルはゼロショット推論器である

この現象は、Google Brain と東京大学の共同研究で発見され、ゼロサンプルのシナリオにおける大規模言語モデルのパフォーマンスを調査しました。

論文のタイトル「大規模言語モデルはゼロショット推論器である」も、GPT-3 の「言語モデルは少数ショット学習器である」に敬意を表しています。

使用される手法は、今年 1 月に Google Brain チームによって提案された Chain of Thought Prompting (CoT) に属します。

最も初期の CoT は、質問をしながら AI をガイドするために段階的な回答例が提供される、少数ショット学習に適用されました。

この最新の研究ではゼロサンプル CoT を提案しており、主な変更点は例の部分を簡素化することです。

最初のステップは、質問を「Q: xxx、A: xxx」という形式に書き直すことです。ここで、トリガー文Aは、言語モデルの思考プロセスを抽出できます。
2 番目のステップは、言語モデルに最終的な答えを出すよう促すプロンプト「答えは...」を追加する追加の実験です。

これを実行する最大の利点は、それが普遍的であり、さまざまな問題タイプごとに専用の例を提供する必要がないことです。

この論文では、12 のテストを含むさまざまな問題について広範な実験が行われました。

6 つの数学問題テストセット、SingleEq、AddSub、SVAMP、さらに難しい MultiArith、AQUA-RAT、GSM8K。
2 つの常識推論テストセット、CommonsenseQA と StrategyQA。
2 つの記号推論テストセット、最後の文字の連結とコイン投げ。
また、BIG-bench での日付理解問題や順序外オブジェクト追跡タスクも同様です。

通常のゼロショット学習と比較して、ゼロショット CoT は 10 の項目で優れた結果を達成しました。

右の値は追加の実験結果です

より難しい MultiArith と GSM8K の数学テストでは、GPT-3 の最新バージョンである Text-davinci-002 (175B) を使用して、より詳細な実験が行われました。

8 回試行して最良の結果が得られた場合、精度率はさらに 93% まで向上します。

研究者らは、誤った結果の分析において、AI の推論プロセスは実際には正しい場合が多いものの、答えが単一の明確な答えに収束しない場合は、複数の選択肢を提示するということを発見した。

論文の最後で、研究チームは、この研究がゼロショット CoT のベースラインとして機能するだけでなく、微調整データセットと少数ショットのプロンプトテンプレートを構築する前に、大規模言語モデルのゼロショット機能を十分に調査することの重要性を学術コミュニティに認識させることを望んでいると提案しました。

研究チームは東京大学松尾研究室のメンバーです。

担当者の松尾豊教授はソフトバンクの取締役初の人工知能専門家でもある。

チームメンバーのうち、顧世祥客員教授はGoogle Brainチームから来ている。顧世祥教授は3人の巨人の一人であるヒントンのもとで学部を学び、ケンブリッジ大学で博士号を取得した。

魔法を加えることはAI界の新たなトレンドとなっている

ゼロショット CoT がなぜ機能するのかは、まだ解明されていません。

しかし、誰かが実験を通して、この方法は GPT-3 (text-davinci-002) にのみ効果があるようだということを発見しました。彼はバージョン 001 を試しましたが、ほとんど効果はありませんでした。

彼は自身の仕事の例を挙げた。

質問: 機械学習の各単語の最後の文字をつなげてください。

プロンプトが表示されたときに GPT-3 が返す答えは、2 つの単語のすべての文字をつなげることです。

これに対して、著者の一人である顧世祥氏は、実際には「呪文」はGPT-3の初期バージョンと改良バージョンの両方に影響を与えており、これらの結果は論文にも反映されていると返答した。

ディープラーニングは「魔法の呪文」を見つけるゲームになってしまったのではないか、と疑問を呈する人もいます。

同時に、苦情を言うチームの中にマーカスが再び現れました。

彼はまた、GPT-3 が「呪文」を使ってもサリーの牛が生き返るかどうかを判断できなかったという失敗した例も挙げました...

しかし、AI にちょっとした魔法を加えるだけですぐに改善が見られるというこのような例は珍しくないことは注目に値します。

一部のネットユーザーは、GPT-3 を使用する際にいくつかの中間コマンドを追加したところ、確かにより満足のいく結果が得られたと述べています。

以前、Google と MIT の研究者は、基盤となるアーキテクチャを変更する必要がないことを発見しました。プログラマーがデバッグ時に行うように、言語モデルを「ブレークポイント」でトレーニングする限り、モデルのコード読み取り能力と演算能力は急速に向上します。

原理も非常にシンプルです。計算ステップが多数あるプログラムでは、モデルが各ステップをテキストにエンコードし、「ノート」と呼ばれる一時レジスタに記録します。

その結果、モデルの計算プロセスがより明確かつ秩序立ったものとなり、パフォーマンスも自然に大幅に向上します。

今回の実験でテストに使用したInstruct GPT-3もその代表例です。

GPT-3 が人間からのフィードバックからの学習を強化できるようにするだけで、質問に関連しない質問への回答が大幅に改善されます。

具体的には、まず人間のデモンストレーション回答を使用してモデルを微調整し、次に特定の質問に対する異なる出力データのセットをいくつか収集し、回答セットを手動で並べ替えて、このデータセットで報酬モデルをトレーニングします。

最後に、RM を報酬関数として使用し、近似ポリシー最適化 (PPO) アルゴリズムは強化学習アプローチを使用して報酬を最大化するように GPT-3 ポリシーを微調整します。

この話題の火付け役となった Twitter ブロガーの Aran 氏は、「Unreal Engine」という単語を追加すると AI 生成画像の品質が大幅に向上することを発見した人物です。

元 Google ロボット部門責任者の Eric Jang 氏は、強化学習でも同様の考え方を使ってコンピューティング効率を向上できることを以前に発見しています。

AIで使われるこの技術は、私たちが普段脳を使うときに使うものではないと言う人もいます。

実際、ベンジオ氏は以前から脳科学から出発し、AIの動作モードは人間の脳モードと同じであるべきだと提唱していた。

人間の認知タスクは、システム 1 認知とシステム 2 認知に分けられます。

システム 1 の認知タスクは、無意識に実行されるタスクです。たとえば、手に持っているものが何であるかをすぐに特定できますが、そのプロセスをどのように完了したかを他の人に説明することはできません。

システム 2 認知タスクとは、人間の脳が特定のステップで完了する必要がある認知を指します。たとえば、足し算や引き算の問題を解くときに、最終的な答えがどのようにして得られたかを明確に説明できます。

今回追加された「呪文」は、AIがさらに一歩進んで段階的に考えることを学習できるようにすることです。

この傾向に直面して、一部の学者は「プロンプトエンジニアリングが機能エンジニアリングに取って代わっている」と考えています。

では、「キューワードハンター」は次世代の NLP 研究者のニックネームになるのでしょうか?

論文アドレス: https://arxiv.org/abs/2205.11916

参考リンク:

[1] https://twitter.com/arankomatsuzaki/status/1529278580189908993

[2] https://evjang.com/2021/10/23/generalization.html

<<: 強風にも耐えられるドローン？カリフォルニア工科大学は12分間の飛行データを使い、ドローンに風の中での飛行を教える

>>: AIは数学データベースの問題の82%を証明でき、Transformerをベースにした新しいSOTAが達成されました。

少し手を加えるだけで、GPT-3 の精度が 61% 向上します。グーグルと東京大学の研究は皆を驚かせた

大規模言語モデルはゼロショット推論器である

魔法を加えることはAI界の新たなトレンドとなっている

モノのインターネットにおける機械学習の役割は何ですか?

AI人材の確保をめぐる秘密の戦い：中国が勝利する可能性は？

ブロックチェーンは人工知能の技術力を大幅に強化する

最近 IT 業界で起こったいくつかの大きな出来事についてお話ししましょう。

データサイエンスと機械学習のためのツールと言語の最新情報

女性が自動車事故後に自分自身を「変身」させ始める：左手のチップでドアが開き、右手でNFCをスキャンできる、「バイオハッカー」はどれほど狂っているのか？

推薦する

人工知能オンライン機能システムのデータアクセス技術

負荷分散スケジューリングアルゴリズムを見てみましょう

機械が壁の建設を手伝うことがなぜそんなに難しいのでしょうか?これは人類の100年にわたる闘争の歴史である

ディープラーニングにおける8種類の畳み込みを視覚的に理解する

IoTとAIの相乗効果：予知保全の可能性を解き放つ

重要なお知らせです！顔認識のために服を着用する必要があります!

無料の機械学習ベンチマークツール：主要なデータセットを統合し、GitHubに接続して使用する