ティアン・ユアンドンがOpenAIの謎のQ*プロジェクトに冷水を浴びせる: 合成データはAGIの救世主ではなく、その能力は単純な数学の問題に限られている

Q*予想はAIコミュニティで引き続き人気があります。

誰もがQ*が「Q学習+A*」であるかどうか疑問に思っています。

AI専門家の田元東氏も、「Q*=Q学習+A*」の仮説がどの程度あり得るのかを詳細に分析した。

同時に、合成データこそが LLM の未来であるという結論に達する人が増えています。

しかし、田元東氏はこの発言に冷水を浴びせた。

「AGI は合成データをスケールアップするだけで解決できる」という主張には部分的に同意しません。

検索が強力なのは、環境が適切に設計されていれば、モデルが学習して適応するための新しいパターンが無限に作成されるためです。

しかし、このような新しいパターンを学習するには何十億ものデータが必要かどうかは未解決の問題であり、これは私たちのアーキテクチャ/学習パラダイムに何らかの根本的な欠陥があることを示している可能性があります。

対照的に、人間は「なるほど！」という瞬間を通じて、新しいパラダイムをより簡単に発見する傾向があります。

Nvidia の上級科学者 Jim Fan 氏も同意し、合成データは重要な役割を果たすが、盲目的な拡張だけでは AGI を実現するには不十分だと述べた。

Q*=Q学習+A、それはどのくらいの確率ですか

Tian Yuandong 氏は、OpenGo (AlphaZero の再来) での過去の経験に基づいて、A* は値 (つまりヒューリスティック) 関数 Q のみを持つ決定論的な MCTS バージョンと見なすことができると述べました。

A* は、アクションが与えられた場合、状態を評価するのは簡単だが、状態が与えられた場合、アクションを予測するのは困難なタスクに適しています。この状況の典型的な例は数学の問題です。

対照的に、囲碁の場合は話が異なります。次の候補の動きは比較的簡単に予測できますが (局所的な形を調べるだけで)、盤面の状況を評価するのははるかに困難です。

そのため、かなり強力な囲碁ボットも存在しますが、それらはポリシーネットワークのみを活用します。

LLM の場合、Q(s,a) を使用すると、Q(s,a) の評価には事前入力のみが必要になる可能性がある一方で、ポリシー a = pi(s) を予測するには自己回帰サンプリングが必要になり、これははるかに低速になるため、追加の利点があります。さらに、デコーダーのみを使用する場合、s の KV キャッシュを複数の操作間で共有できます。

伝説の Q* が数学の問題解決に大きな飛躍をもたらした可能性はどれくらいでしょうか?

田元東氏は、初級レベルの数学の問題はすでに解決されているため、価値関数の設定は比較的容易であるはずだ（例えば、自然言語形式のターゲット仕様から予測できる）と推測したと述べた。

難しい数学の問題を解きたいのにやり方が分からない場合、このアプローチでは不十分かもしれません。

LeCun 氏は Tian Yuandong 氏の議論を転送し、彼の見解に同意しました。「彼は A* (グラフ内の最短経路の検索) と MCTS (指数関数的に成長するツリーの検索) の適用性の違いを説明しました。」

LeCun 氏の転送に応えて、Tian Yuandong 氏は、計画、Transformers/LLM の理解、効率的な最適化技術など、さまざまなことを行っており、これらすべての技術を組み合わせることを望んでいると述べました。

一部のネットユーザーは、「A* が効果的であるためには、証明可能で、受け入れ可能で、一貫性のあるヒューリスティック関数が必要です。しかし、部分列の値を決定するのは簡単ではないため、誰かがそのような関数を思いつくことができるかどうかは非常に疑わしい」と疑問を呈しました。

たとえ小学校レベルの算数の問題であっても、Q* は良い成績を収めると予想されます。

大きなモデルについて少しでも理解している人なら、基本的な数学の問題を解決する能力がモデルの機能の大きな進歩であることを知っています。

これは、大規模なモデルでは、トレーニングに使用したデータを超えて一般化することが困難であるためです。

AIトレーニングのスタートアップ企業Tromeroの共同創業者チャールズ・ヒギンズ氏は、現在大規模モデルを悩ませている主な問題は、抽象的な概念をどう推論するかであると述べた。このステップが達成されれば、間違いなく大きな前進となるだろう。

数学は、X が Y より大きく、Y が Z より大きい場合、X は Z より大きいなどの記号による推論の研究です。

Q* が実際に Q 学習 + A* である場合、これは OpenAI の新しいモデルが ChatGPT をサポートするディープラーニング技術と人間がプログラムしたルールを組み合わせることができることを示しています。この方法は、LLM 錯視問題を解決するのに役立ちます。

トロメロの共同創設者ソフィア・カラノフスカ氏は、象徴的には非常に重要だが、現実的に世界を終わらせる可能性は低いと述べた。

では、なぜ「Q* はすでに AGI のプロトタイプを示している」という噂があるのでしょうか?

カラノフスカ氏は、現在の報告に基づくと、Q* は脳の両側を組み合わせることができ、経験から何かを学び、同時に事実について推論することができるようだ、と考えている。

明らかに、これは私たちが一般的に知能として認識しているものに一歩近づきました。なぜなら、Q* は大規模なモデルに新しいアイデアを与える可能性が高いからです。これは ChatGPT では不可能です。

既存のモデルの最大の制限は、トレーニングデータから情報を繰り返すことしかできず、推論して新しいアイデアを開発することができないことです。

目に見えない問題を解決することが、AGI を作成するための重要なステップです。

サリー大学人間中心AI研究所所長アンドリュー・ロゴイスキー氏は、現在利用可能な大規模モデルは学部レベルの数学の問題は解けるが、より高度な数学の問題に直面すると、すべて失敗すると述べた。

しかし、LLM が本当にまったく新しい、これまでに見たことのない問題を解決できるのであれば、たとえ関連する数学が比較的単純だとしても、それは大きな意味を持つでしょう。

合成データは LLM の将来の鍵となるのでしょうか?

ということは、合成データが王様なのでしょうか?

Q* の突然の人気は、多くの専門家の間で憶測を呼び起こしました。噂されている「新しいモデルが特定の数学的問題を解決できるようにする膨大なコンピューティングリソース」に関しては、専門家は、この重要なステップは RLAIF (AI フィードバックからの強化学習) である可能性があると推測しました。

RLAIF は、人間のラベル付け設定を既製の LLM に置き換え、人間のフィードバックを自動化することで、LLM に対するアライメント操作をよりスケーラブルにする技術です。

これまで LLM トレーニングで非常に成功してきた RLHF (人間によるフィードバックによる強化学習) は、大規模な言語モデルを人間の好みに合わせて効果的に調整できますが、高品質の人間の好みのラベルを収集することが大きなボトルネックとなっています。

そのため、Anthropic や Google などの企業は、RLAIF に目を向け、AI を使用して人間に代わってフィードバックトレーニングプロセスを完了しようとしてきました。

これは、合成データが重要であり、ツリー構造を使用して、将来的に正しい答えに到達するためにより多くの選択肢を提供することを意味します。

少し前に、ジム・ファンは、合成データが次の 1 兆個の高品質なトレーニングデータを提供するだろうとツイートしました。

「ほとんどの真剣なLLMグループはこれを知っていると思います。重要な問題は、品質を維持し、早期の停滞を回避する方法です。」

ジム・ファン氏はまた、リチャード・S・サットン氏の記事「苦い教訓」を引用し、コンピューティングを通じて無限に拡張できる人工知能の開発には、学習と検索という 2 つのパラダイムしかないことを説明しました。

「この記事が書かれた2019年当時もそれは真実だったし、今日も真実だ。そして、AGIを解決する日までそれは真実であり続けるだろうと私は賭ける。」

カナダ王立協会および英国王立協会のフェローであるリチャード S. サットンは、現代の計算強化学習の創始者の一人とみなされており、時間差分学習やポリシー勾配法など、この分野にいくつかの大きな貢献をしてきました。

この記事でサットンは主に以下の点を述べました。

計算を活用する一般的なアプローチは、最終的には最も効果的で非常に効率的です。しかし、それが機能する理由は、ムーアの法則、より具体的には、コンピューティングの単位あたりのコストが指数関数的に低下し続けているからです。

当初、研究者たちは人間の知識やゲームの特別な機能を利用して検索を回避しようとしましたが、検索が大規模に効果的に適用されると、これらの努力はすべて無意味になりました。

統計的手法は再び人間の知識に基づく手法に勝利し、自然言語処理の分野全体に大きな変化をもたらし、過去数十年にわたって統計とコンピューティングが徐々に支配的になりました。

AI 研究者はシステムに知識を組み込もうとすることが多いが、これは短期的には役立つものの、長期的にはさらなる進歩を妨げる可能性がある。

画期的な進歩は、最終的には検索と学習に基づくアプローチを通じて達成されるでしょう。

心の実際の内容は極めて複雑であり、思考を表現するための単純な方法を見つけようとするのはやめて、代わりにこの恣意的な複雑さを見つけて捉えることができるメタメソッドを構築すべきです。

——Q* は問題の鍵（探索と学習）を掴んだようで、合成データによってさらにこれまでの限界を突破し、飛躍を遂げていくことになるのですね。

合成データに関しては、マスク氏は人間は機械に勝てないとも述べた。

「これまで人類が書いたすべての本のテキストをハードドライブに保存することもできますが（ため息）、合成データはそれをはるかに上回ります。」

この点に関して、ジム・ファンはマスク氏と交流し、次のように述べた。

「大規模にシミュレーションできれば、テスラオプティマスのような具現化されたエージェントから大量の合成データが得られるようになるでしょう。」

Jim Fan 氏は、RLAIF または Groundtruth フィードバックからの RLAIF は、適切に拡張されれば大いに役立つと考えています。さらに、合成データにはシミュレーターも含まれており、原理的には LLM が世界モデルを開発するのに役立ちます。

「理想的には無限です。しかし、自己改善サイクルが効果的でなければ、停滞してしまう可能性があるという懸念があります。」

二人が同じ曲を歌っていることに関して、ルカン氏は次のようにコメントしている。

LeCun 氏は、動物や人間はごくわずかなトレーニングデータですぐに非常に賢くなることができると考えています。

したがって、現在の方法には限界があるため、より多くのデータ（合成データであろうとなかろうと）を使用することは一時的な応急措置に過ぎません。

この点について、「ビッグデータ派」を支持するネットユーザーらは不満を表明した。

「何百万年にも及ぶ進化的適応は事前訓練に似たものであり、一方、私たちの生涯にわたる経験は継続的な微調整に似たものであるべきではないでしょうか？」

次にルカン氏は例を挙げて、人類が何百万年にも及ぶ進化の成果を受け継ぐ唯一の手段は遺伝子であり、ヒトゲノムのデータ量はわずか800MBと非常に少ないと説明した。

70 億の小さな LLM でも 14 GB のストレージスペースが必要です。比較すると、ヒトゲノムにはそれほど多くのデータはありません。

さらに、チンパンジーとヒトのゲノムの違いは約 1% (8MB) です。この小さな違いだけでは、人間とチンパンジーの能力の違いを説明するには不十分です。

生後学習するデータ量について言えば、2歳児が見る視覚データの総量は非常に少なく、学習時間はすべて約3200万秒（2x365x12x3600）です。

人間には 200 万本の視神経線維があり、それぞれが 1 秒あたり約 10 バイトを送信します。 ——合計は6E14バイトになります。

対照的に、LLM トレーニングのデータ量は通常 1E13 トークン、つまり約 2E13 バイトです。 ——2歳児が得るデータ量は、LLMの30倍に過ぎないわけですね。

大物たちの議論にかかわらず、Google、Anthropic、Cohere などの大手テクノロジー企業は、プロセス監視や RLAIF のような方法を通じて事前トレーニングサイズのデータセットを作成し、これに膨大なリソースを消費しています。

したがって、合成データがデータセットを拡張するための近道であることは誰もが知っています。短期的には、明らかにこれを使用して有用なデータを作成できます。

しかし、これが未来への道なのでしょうか?私たちにできるのは、時間が答えを教えてくれるのを待つことだけです。

<<:

>>: 私の目が支配者です！ 80億のパラメータを備えたOtterHDは、清明節のラクダを数えるのに役立ちます。南洋理工大学の中国チームによって作成されました

ティアン・ユアンドンがOpenAIの謎のQ*プロジェクトに冷水を浴びせる: 合成データはAGIの救世主ではなく、その能力は単純な数学の問題に限られている

Q*=Q学習+A、それはどのくらいの確率ですか

たとえ小学校レベルの算数の問題であっても、Q* は良い成績を収めると予想されます。

仕事再開時に間接接触を避けるには？顔認識アクセス制御で徹底した予防と管理を実現

AIプログラミングは原作者を打ち負かす。プログラマー：私が書いたプログラムのせいで失業した

WeChat AIがHPおよびIntelと提携し、PC向け人工知能音声アシスタントを開発

なぜ人工知能はテクノロジーの未来なのか?

全国人民代表大会代表劉清鋒氏：2019年は人工知能の大規模応用の年となる

スタンフォード大学がオープンソースのモーションキャプチャアプリケーションOpenCapを発表: 携帯電話を使用して従来のコストのわずか1%で迅速にデータを収集

例を見ればそれが分かります! MAXHUBはCOFCOとGuoqiaoyuanの小売業変革を支援します

世界人工知能会議の最高栄誉である2020年SAIL賞のトップ30プロジェクトが発表されました

推薦する

OpenAI従業員：エンジニアリングスキルは誇張されているが、人との付き合い方を学ぶことの方が重要

IT サービス管理における 3 つの主要な NLP 使用例

いくつかの単純な負荷分散アルゴリズムとそのJavaコード実装

コンテキストウィンドウ 16,000 トークン、30 億パラメータ、安定性 AI コード大規模モデルがここにあります

Gym Anytradingに基づく強化学習の簡単な例

データ構造とアルゴリズム: 最小全域木、数秒で理解できます!

宇宙全体が巨大なニューラルネットワークなのだろうか？科学者はこう説明する

AI+クラウドランディングBeifei Technology、Amazon Pollyの助けを借りて教育モードの変化を促進

中国初のバイオニックロボット産業総合レポートが発表されました！大型モデルが加速をもたらし、3つの主要指標が競争環境を決定する

高速微分ソートアルゴリズム、カスタムC++、CUDAのパッケージで、パフォーマンスが向上しました。

携帯電話が1秒で3Dホログラムを生成する、MITチームの新しい研究

ニューラルネットワークはどのように学習するのでしょうか?

Baidu UNITが小能科技を支援し、ハイアールグループと提携してインテリジェントクラウド顧客サービスをアップグレード

私たち全員が失業するかもしれない：今後10年間でほぼすべての仕事が変化する