OpenAI の謎の Q* は人類を滅ぼすのか?人気の「Q*仮説」は実際には世界モデルにつながり、インターネット上のAI専門家は長い記事で熱く議論してきました。

OpenAI の謎の Q* プロジェクトが AI コミュニティ全体を騒がせています。

膨大な計算リソースにより特定の数学的問題を解決できるため、AGI に近いと疑われています。サム・アルトマンを取締役会から追い出したきっかけは、このシステムでした。人類を破滅させるリスクがあります... これらの要素のどれか 1 つでも爆発するには十分です。

Q* プロジェクトが公開されてから 3 日経っても、その人気は高まり続け、インターネット上の AI 界の巨人たちの間で議論を巻き起こしているのも不思議ではありません。

AI2 の研究科学者 Nathan は、Q 仮説は思考ツリー + プロセス報酬モデルに関するものであるはずだと推測し、興奮しながら長い記事を書きました。

さらに、Q*仮説は世界モデルに関連している可能性が高いです。

数時間後、Nvidia の上級科学者 Jim Fan 氏も長文の分析を発表したが、これは Nathan 氏の見解と一致していた。若干の違いは、Jim Fan 氏が AlphaGo との類似性に焦点を当てていたことだ。

Jim Fan 氏は Q* に対する賞賛の意を表しました。「人工知能の分野に携わってきた 10 年間で、これほど多くの人がアルゴリズムについてこれほど想像力を働かせているのを見たことはありません。」たとえ名前だけがあって、論文やデータや製品がなくても。

対照的に、チューリング三頭政治の一人である LeCun は、大規模な LLM の信頼性を向上させる上での大きな課題は、自己回帰トークン予測を計画戦略に置き換えることであると考えています。

ほぼすべてのトップ研究室がこの分野で研究を行っており、Q* はおそらく OpenAI の計画分野における試みです。

また、Q* に関する根拠のない議論は無視してください。

Jim Fan 氏はこれに強く同意しています。「Q* を通じて AGI を達成する」という懸念は根拠のないものです。

「AlphaGo スタイルの検索と LLM の組み合わせは、数学やコーディングなどの特定の領域を解決するための効果的な方法であり、同時にグラウンドトゥルースのシグナルも提供します。しかし、AGI について正式に議論する前に、まず世界モデルと具現化されたエージェントの機能を統合する新しい方法を開発する必要があります。」

Q学習が突然人気に

2日前、海外メディアは、OpenAIの謎のQ*プロジェクトがすでにAGIのプロトタイプを公開していることを明らかにした。

突然、1992 年の技術である Q 学習が、すべての人の追求の焦点となりました。

簡単に言えば、Q 学習は、特定の状態におけるアクションの価値を学習することを目的とした、モデルフリーの強化学習アルゴリズムです。その最終的な目標は、最適なポリシー、つまり、時間の経過とともに蓄積される報酬を最大化するために各状態で実行する最善のアクションを見つけることです。

人工知能の分野、特に強化学習において、Q 学習は重要な方法論を表しています。

すぐに、この話題はネットユーザーの間で白熱した議論を巻き起こした。

スタンフォード大学の博士、サイラス・アルベルティ氏は、これはおそらくアルファ碁風のモンテカルロ木探索トークン軌道に基づいていると推測した。次の論理的なステップは、より原則的な方法でトークンツリーを検索することです。これは特にコーディングや数学などの分野で当てはまります。

その後、Q* は A* アルゴリズムと Q 学習の組み合わせを指すのではないかと推測する人が増えました。

Q 学習が RLHF と密接に関連していることを発見した人もいました。これが ChatGPT の成功の秘訣の 1 つです。

いくつかの AI 大手が消滅したことで、皆の見解はますます一貫したものになってきています。

AI専門家による1000語の記事の分析

一般の人々の間で大きな好奇心をかき立てている Q* 仮説に関して、AI2 の研究科学者 Nathan Lambert は次のような長い分析を書きました - 「Q* 仮説: マインドツリー推論、プロセス報酬モデル、および強化された合成データ」。

記事URL: https://www.interconnects.ai/p/q-star

ランバートは、Q* (Q-Star) が真実であれば、それは明らかに RL 文献の 2 つの中核トピック、Q 値と A* (古典的なグラフ検索アルゴリズム) の統合であると推測しました。

A*アルゴリズムの例

Qについては、何日もの間、さまざまな憶測が飛び交ってきました。Qは最適戦略の価値関数を指しているという見方もありますが、Lambert氏は、OpenAIがほぼすべてを漏らしているため、これはありそうにないと考えています。

ランバートは彼の仮説を「ブリキ帽子理論」と呼び、Q学習とA*探索を曖昧に融合させたものである。

それで、何が検索されているのでしょうか?ランバート氏は、OpenAI は思考ツリー推論を通じて言語/推論のステップを検索することで、何か強力なことをするべきだと考えています。

もしそれがすべてなら、なぜそのような衝撃とパニックを引き起こすのでしょうか?

彼は、Q* が過大評価されている理由は、大規模な言語モデルのトレーニングと使用を、AlphaGo の機能である自己プレイと将来計画をうまく実装する Deep RL のコアコンポーネントにリンクしているからだと感じています。

その中で、セルフプレイの理論は、エージェントが遭遇する状況がますます困難になるため、エージェントが自分とは少し異なる別のエージェントと対戦してゲームプレイを改善できることを意味します。

LLM の世界では、自己ゲーム理論は AI フィードバックのように見えます。

先見的な計画とは、世界のモデルを使用して将来を推測し、より良い行動や結果を生み出すことを指します。

この理論は、通常連続状態に使用されるモデル予測制御 (MPC) と、離散アクションと状態に適用できるモンテカルロツリーサーチ (MCTS) に基づいています。

https://www.researchgate.net/publication/320003615_MCTSUCT_in_solving_real-life_problems

ランバート氏は、OpenAIや他の企業が最近発表した研究に基づいてこの推測を行った。これらの作品は次の 2 つの質問に答えます。

1. 自分自身で検索できる言語表現をどのように構築するか?
2. 言語の全体ではなく、区切られ意味のある言語の塊に基づいて価値の概念を構築するにはどうすればよいでしょうか。

これら 2 つの問題を理解していれば、RLHF に RL メソッドを使用する方法が明確になります。RL オプティマイザーを使用して言語モデルを微調整し、モジュール報酬 (現在の完全なシーケンスではなく) を通じてより高品質な生成を実現します。

LLM によるモジュール推論: 思考のツリー (ToT) のヒント

現在、モデルに「深呼吸」や「段階的に考える」といったアプローチは、並列コンピューティングやヒューリスティックを推論に活用する高度な方法にまで拡張されています。

思考ツリーは、言語モデルに、正しい答えに収束するかどうかわからない推論パスのツリーを作成するように指示する方法です。

マインドツリーを実装する際の重要な革新は、推論ステップをチャンク化し、モデルに新しい推論ステップを作成するように促すことです。

マインドツリーは、おそらく推論パフォーマンスを向上させるための最初の「再帰的」ヒント手法であり、AI の安全性が懸念している再帰的自己改善モデルに非常に近いものと思われます。

https://arxiv.org/abs/2305.10601

推論ツリーを使用すると、さまざまな方法を適用して各頂点またはノードにスコアを付けたり、最終パスをサンプリングしたりできます。

これは、最も一貫性のある回答の最小の長さに基づく場合もあれば、外部からのフィードバックを必要とするより複雑なものに基づく場合もあります。これはまさに RLHF の方向につながります。

Mind Treeで24ポイントゲームをプレイ

生成におけるきめ細かな報酬ラベル: プロセス報酬モデル (PRM)

これまでのほとんどの RLHF 研究は、モデルの応答全体をスコアリングすることによって実行されてきました。

しかし、RL のバックグラウンドを持つ人にとって、このアプローチは、テキストの各サブコンポーネントの値についての接続を作成する RL 手法の能力を制限するため、期待外れになる可能性があります。

将来的には、この複数ステップの最適化が複数の会話ターンのレベルで実行されることが示唆されていますが、ループ内に人間または何らかのプロンプトのソースが必要であるため、プロセス全体が実現するのはまだ困難です。

これはセルフプレイスタイルの会話に簡単に拡張できますが、LLM に継続的な改善のセルフプレイのダイナミクスに変える目標を与えることは困難です。

結局のところ、LLM で実行したいことのほとんどは反復的なタスクであり、Go のようにほぼ無限のパフォーマンス上限に到達する必要があるものではありません。

ただし、LLM には、含まれるテキストブロックに自然に抽象化できる使用例が 1 つあります。それは、ステップごとの推論です。そして最も良い例は数学の問題を解くことです。

プロセス報酬モデル (PRM) は、過去 6 か月間、RLHF スタッフの間で熱い議論の的となってきました。

PRM に関する論文は多数ありますが、それらを RL と組み合わせて使用する方法について言及している論文はほとんどありません。

PRM の中心的な考え方は、完全なメッセージではなく、各推論ステップにスコアを割り当てることです。

OpenAIの論文「Let's Verify Step by Step」には、次のような例があります。

このプロセス中に、彼らが使用したフィードバックインターフェースは次のようになり、非常に刺激的でした。

これにより、単一のスコアのみに頼るのではなく、最大平均報酬やその他のメトリックをサンプリングすることで、より細かく調整された推論問題の生成が可能になります。

一連の時間を生成し、最も高い報酬モデルスコアを持つ時間を使用する Best-of-N サンプリングを使用すると、PRM は推論タスクにおいて標準 RM よりも優れたパフォーマンスを発揮します。

(これは Llama 2 の Rejection Sampling の類似機能であることに注意してください。)

そしてこれまでのところ、ほとんどの PRM は推論段階でのみその優れた有用性を実証してきました。しかし、その真の力はトレーニング用に最適化されたときに発揮されます。

最も豊富な最適化設定を作成するには、スコアリングと学習のための複数の推論パスを生成できる必要があります。

ここで思考ツリーが登場します。

人気の数学モデル Wizard-LM-Math は PRM を使用してトレーニングされます: https://arxiv.org/abs/2308.09583

では、Q* とは何でしょうか?

Nathan Lambert 氏は、Q* が PRM を使用して ToT 推論データをスコアリングし、それを Offline RL を使用して最適化しているようだと推測しています。

これは、トレーニング中に LLM から生成する必要のない DPO や ILQL などのオフラインアルゴリズムを使用する既存の RLHF ツールとほとんど変わりません。

RL アルゴリズムが見る「軌跡」は推論ステップのシーケンスであるため、コンテキストではなく複数のステップで RLHF を実行できます。

既存の噂によると、OpenAI は RLHF にオフライン RL を使用することに取り組んでいるようですが、これは大きな飛躍ではないようです。

複雑なのは、適切なプロンプトを収集し、モデルに適切な推論を生成させ、そして最も重要なことに、何万もの応答を正確に採点することです。

噂されている膨大なコンピューティングリソースでは、各ステップのスコア付けに人間ではなく AI が使用されています。

確かに、合成データは王様です。単一幅のパス (思考チェーン) の代わりにツリーを使用すると、将来的にはより多くの選択肢に対して正しい答えが得られます。

噂が本当なら、OpenAI と他のモデルとのギャップは間違いなく恐ろしいものとなるでしょう。

結局のところ、Google、Anthropic、Cohere など、今日のほとんどのテクノロジー企業は、事前トレーニングデータセットを作成するためにプロセス監視または RLAIF のような方法を使用しており、簡単に数千の GPU 時間を消費する可能性があります。

超大規模AIフィードバックによるデータの未来

海外メディアThe Informationの噂によると、イリヤ・スツケヴェル氏の画期的な発見により、OpenAIはデータ不足の問題を解決し、次世代の新モデルをトレーニングするのに十分な高品質データを確保できるようになったという。

そして、これらのデータはコンピューターによって生成されたデータであり、現実世界のデータではありません。

さらに、イリヤは長年にわたり、GPT-4 などの言語モデルを利用して数学や科学の問題などの推論を伴うタスクを解決できるようにする方法を研究してきました。

ネイサン・ランバート氏は、彼の推測が正しければ、Q* が生成された合成推論データであると述べました。

最良のサンプルは、排除サンプリング（RM スコアに基づくスクリーニング）と同様の方法で選択できます。オフライン RL を使用すると、生成された推論をモデル内で改善できます。

これは、高品質の大規模モデルと豊富なコンピューティングリソースを備えた機関にとって好循環となります。

GPT-4 がすべての人に与える印象を考慮すると、数学、コード、推論が Q* テクノロジーから最も恩恵を受けるトピックであるはずです。

最も価値のある推論トークンは何ですか?

多くの AI 研究者の頭の中にある永遠の疑問は、「推論コンピューティングにさらに投資する価値のあるアプリケーションはどれか?」ということです。

結局のところ、ほとんどのタスク（記事を読む、電子メールを要約するなど）では、Q* によってもたらされる改善はおそらくごくわずかです。

しかし、コード生成の場合、最適なモデルを使用する価値は明らかにあります。

ランバート氏は、夕食の席で周囲の人々と話し合ったことから、RLHF を使用して拡張推論をトレーニングすると、モデルに段階的に考えさせることなく下流のパフォーマンスを向上できるという深い直感が心に浮かんだと語った。

これが Q* で達成されれば、OpenAI のモデルは間違いなく大きな飛躍を示すことになるでしょう。

ジム・ファン: Q* の可能性の 4 つの中核要素

Nathan は私より数時間前にブログを投稿し、非常によく似たアイデアである「Thought Tree + Process Reward Model」について説明しました。彼のブログにはさらに多くの参考文献がリストされていますが、私は AlphaGo との類似点の方が好きです。

ジム・ファン氏は、検索と学習の組み合わせの威力を理解するには、人工知能の歴史における輝かしい瞬間である 2016 年まで遡る必要があると述べました。

AlphaGo を再検討すると、次の 4 つの重要な要素が含まれていることがわかります。

1. ポリシーNN（学習部分）：各移動の勝利確率を評価し、良い移動を選択します。

2. 価値 NN (学習部分):チェスゲームを評価し、任意の合理的なレイアウトから結果を予測するために使用されます。

3. モンテカルロ木探索 (MCTS、探索部分):ポリシーニューラルネットワークを使用して、現在の位置から複数の可能な動きをシミュレートし、これらのシミュレーションの結果を要約して、最も有望な動きを決定します。これは、大規模言語モデル (LLM) での高速トークンサンプリングとはまったく対照的に、「ゆっくり考える」フェーズです。

4. システム全体を駆動する実際のシグナル:囲碁では、このシグナルは「誰が勝つか」のようなバイナリラベルと同じくらい単純で、固定された一連のゲームルールによって決定されます。それは学習プロセスを継続的に推進するエネルギー源と考えることができます。

では、これらのコンポーネントはどのように相互作用するのでしょうか?

AlphaGo は自己対戦、つまり自分自身の以前のバージョンと対戦することで学習します。

自己ゲームが続くと、戦略ニューラルネットワークと価値ニューラルネットワークの両方が継続的な反復を通じて改善されます。戦略が動きを選択する際の精度が向上すると、価値ニューラルネットワークも学習用の高品質なデータを取得できるようになり、戦略に対してより効果的なフィードバックを提供できるようになります。より強力な戦略は、MCTS がより優れた戦略を模索するのにも役立ちます。

これらが最終的に巧妙な「永久機関」を形成します。このようにして、AlphaGoは自己改善を遂げ、最終的に2016年に人間の世界チャンピオンであるイ・セドルを4対1で破りました。人工知能は、人間のデータを模倣するだけでは、人間を超えるレベルに到達することはできません。

Q* の 4 つのコアコンポーネントは何ですか?

1. ポリシー NN:これは OpenAI 内で最も強力な GPT となり、数学の問題を解決するための思考プロセスの実装を担当します。

2. 値 NN:これは、各中間推論ステップの正確性を評価するために使用される別の GPT です。

OpenAIは2023年5月に「Let's Verify Step by Step」と題した論文を発表した。その著者にはイリヤ・スツケヴァー氏、ジョン・シュルマン氏、ヤン・ライケ氏などの著名な専門家が含まれている。 DALL-E や Whisper ほど有名ではありませんが、多くの手がかりを与えてくれます。

この論文では、著者らは思考連鎖の各ステップにフィードバックを提供する「プロセス監視報酬モデル」(PRM) を提案した。対照的に、結果教師あり報酬モデル (ORM) は最終的な全体的な出力のみを評価します。

ORM は RLHF のオリジナルの報酬モデルですが、長い応答の個々の部分を適切に評価するには粒度が粗すぎます。言い換えれば、ORM はクレジットの分配が非常に苦手です。強化学習の文献では、ORM を「スパース報酬」（最後に一度だけ与えられる）と呼び、PRM は LLM を望ましい動作にスムーズに導く「密な報酬」と呼びます。

3. 検索: AlphaGo の個別の状態とアクションとは異なり、LLM ははるかに複雑な空間 (すべて合理的な文字列) で動作します。したがって、新しい検索方法を開発する必要があります。

研究コミュニティは、思考の連鎖 (CoT) に基づいて、いくつかの非線形バリアントを開発しました。

- 思考のツリー: 思考連鎖とツリー検索を組み合わせたもの

- 思考のグラフ: 思考の連鎖とグラフを組み合わせることで、より複雑な検索演算子が得られます

4. 真の信号: (いくつかの可能性)

(a) すべての数学の問題には既知の答えがあり、OpenAI は既存の数学の試験やコンテストから大量のデータを収集している可能性があります。

(b) ORM 自体は真実のシグナルとして機能する可能性がありますが、これが悪用され、「学習を継続するために必要なエネルギーが失われる」可能性があります。

AlphaGo と同様に、ポリシー LLM と値 LLM は反復を通じて相互に改善し、可能な場合は人間の専門家による注釈から学習することができます。より優れた戦略 LLM は、MindTree Search がより優れた戦略を発見するのに役立ち、次の反復ラウンドでより優れたデータを収集できるようになります。

デミス・ハサビス氏は以前、ディープマインドのジェミニは推論能力を強化するために「AlphaGoスタイルのアルゴリズム」を使用するだろうと述べていた。 Q* が私たちが想像していたものと違っていたとしても、Google は独自のアルゴリズムで必ず追いつくでしょう。

ジム・ファン氏は、上記は単なる推論に過ぎないと述べた。 Q* が詩を書いたり、ジョークを言ったり、ロールプレイングをしたりといった点でより創造的になる兆候はありません。本質的に創造性は人間のものなので、自然データは依然として合成データよりも優れています。

最終章に挑む時が来た

ディープラーニングの専門家であるセバスチャン・ラシュカ氏は次のように述べています。

何らかの理由で今週末に Q 学習を学ばなければならず、本棚に『Machine Learning with PyTorch and Scikit-Learn』のコピーがある場合は、最後の章に取り組むのが今です。

<<: 視覚的なプロンプトを使用してください。シュム氏は、トレーニングや微調整なしですぐに使用できるIDEAリサーチインスティテュートの新しいモデルを実演します。

>>: 予測トークンの速度が2倍になりました！ Transformerの新しいデコードアルゴリズムは人気がある、Alpacaチームより