Google といくつかの大学による最近の研究により、大規模なモデルが人間の「心」を持ち始めることが可能になった。 新しいプロンプト戦略では、大規模モデルは人間が直面する問題を推測できるだけでなく、推測された結論を使用して自身の動作を調整することも学習できます。 この成果により、GPT-4 の「精神」レベルは人間の 71% にまで向上しました。 具体的には、研究者らは、今日の大規模モデルには、会話中に人間が何を考えているのかを推測する能力がすでに備わっていることを発見した。しかし、この推論に基づいてアクションを推奨するように要求すると、大規模なモデルでは解決するのが難しい問題になります。 例えば、シャオミンは学校から帰ってきた後、ランドセルをソファーに放り投げて遊びに出かけました。それを見た母親は、シャオミンがランドセルを寝室に置くのを手伝いました。 もし、大モデルが人間のように、シャオミンが帰ってきたらバッグが寝室にあると伝えることができれば、それはその大モデルが「心の理論」を持っていることを意味します。 研究者たちはこのアプローチを「Thinking for Doing(T4D)」と呼び、対応するタスクを設計しました。 T4Dタスクにおけるモデルのパフォーマンスを向上させるために、チームはさらに、予測と反映(FaR)プロンプト戦略を提案し、その結果、大規模モデルの「心」に大きな進歩がもたらされました。 論文のタイトルには「どこまで…」という二重の意味も含まれています。これは、大規模モデルに対する FaR フレームワークの有用性を反映しているだけでなく、大規模モデルと人間の「心」との間の距離も暗示しています。 では、FaR の大きなモデルには、どのような「心」があるのでしょうか? ビッグモデルは「心」を持つことに一歩近づいた例から始めましょう。下の図に示すように、緑と青の 2 つのキャビネットがあります。トムは緑のキャビネットにチョコレートを 1 枚入れました。 トムが去った後、エラはチョコレートを青いキャビネットに移しました。 それで、トムが戻ってきたら、どの戸棚からチョコレートを探すのでしょうか? (もちろん緑です) これは「推論」タスクであり、心理学における有名な「サリー・アン」実験のバリエーションです。 T4D タスクは次のとおりです。 もしあなたがそこにいたら(そして何が起こっているか知っていたら)、どうしますか? 人間であればトムにチョコレートが取り除かれたことを伝えるでしょうが、(訓練されていない)大きなモデルはそうしないかもしれません。 調整前後の大規模モデルのパフォーマンスをよりマクロ的にテストするために、研究チームはToMiデータセットを選択し、それをT4D-Tomデータセットに適合させました。 ToMi は、多数の「サリー・アン」タイプのシナリオで構成されるテスト データセットであり、大規模モデルの「精神的推論」能力をテストするために使用されます。 推論の面では、最高のパフォーマンスを発揮する GPT-4 は人間とほぼ同じですが、T4D タスクでは人間のレベルの半分にしか達していないことがわかります。 そこで、研究チームが提案したFaR法が役立ちました。 FaR フレームワークの中心的なアイデアは、人間の合理的思考モードを模倣することであり、これは A* 検索アルゴリズム (最短経路の検索に使用) に多少似ています。 具体的には、FaR には「予見」と「反映」という 2 つのステップが含まれます。 予測プロセスでは、モデルは次に何が起こるかを予測し、人々が直面する「困難」を分析するように求められます。 Reflect は Foresee の後に実行され、モデルは次の動作が対応する「困難」を解決できるかどうかを予測します。 FaR フレームワークを使用すると、効果はすぐに現れます。 Chain of Thought (CoT)、Tree of Thought (ToT)、自己質問と比較して、FaR は「Sally-Anne」タイプの T4D 問題における大規模モデルの精度を大幅に向上させます。 特にGPT-4の精度は人間の50%から71%に向上しました。GPT-3.5やGoogle独自のPaLMのパフォーマンスも向上しています。 アブレーション実験の結果は、Foresee と Reflect の両方が FaR の重要なステップであり、どちらも欠落してはならないことを示しています。 FaR法の汎用性と堅牢性を検証するために、研究チームは一連の一般化テストも実施しました。 最初のステップは、「サリー・アン」のシナリオに基づいてストーリーの構造を変更することでした。研究チームは次の 3 つの方法を試しました。
その結果、FaR は依然として大規模モデルのタスクの精度向上に成功しました。3 番目のモードでは、GPT-4 は人間に匹敵する結果を達成しました。 意図的なノイズがあっても、FaR は大規模モデルのパフォーマンスを向上させることができます。 研究チームは、紛らわしい情報を含んだ「Faux Pas」データセットを特別に構築し、GPT-4 のパフォーマンスは 31% から 76% に向上しました。 著者についてFaR 論文の第一著者は、南カリフォルニア大学の NLP 研究所の中国人博士課程学生、Pei Zhou 氏です。 この成果は、Google でのインターンシップ中に達成されました。 さらに、Google(DeepMindを含む)、カーネギーメロン大学、シカゴ大学の学者もこのプロジェクトに参加しました。 では、ビッグモデルの「心」についてどう思いますか? 論文アドレス: http://arxiv.org/abs/2310.03051 |
>>: 一時停止トークンを使用して大規模モデルを再トレーニングすると、AIは行動する前によく考えることを学ぶ
今年5月に発表され、国内の有力者である馬怡氏と沈向陽氏が主導する、まったく新しい初のAI学術会議CP...
[[432805]]金融業界の企業は、人工知能 (AI) を使用して複数のソースからのデータを分析お...
[51CTO.com からのオリジナル記事] Singularity University の CE...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
翻訳者 | 崔昊レビュー | ChonglouまとめGoogle Research の研究科学者であ...
[[269874]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
危機に対処する最善の方法は常に変化を求めることです。 国連は5月18日、最新の世界経済情勢予測を発表...
教育部はこのほど記者会見を開き、「高等学校一般教育課程計画及び中国語等教科教育課程基準(2017年版...
まとめ: EdgeBoard は Baidu が開発した FPGA ベースの組み込み AI ソリュー...
新型コロナウイルス感染者数がほぼ指数関数的に増加し、世界は機能停止状態に陥っている。世界保健機関によ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...