ティアン・ユアンドンがOpenAIの謎のQ*プロジェクトに冷水を浴びせる: 合成データはAGIの救世主ではなく、その能力は単純な数学の問題に限られている

ティアン・ユアンドンがOpenAIの謎のQ*プロジェクトに冷水を浴びせる: 合成データはAGIの救世主ではなく、その能力は単純な数学の問題に限られている

Q*予想はAIコミュニティで引き続き人気があります。

誰もがQ*が「Q学習+A*」であるかどうか疑問に思っています。

AI専門家の田元東氏も、「Q*=Q学習+A*」の仮説がどの程度あり得るのかを詳細に分析した。

同時に、合成データこそが LLM の未来であるという結論に達する人が増えています。

しかし、田元東氏はこの発言に冷水を浴びせた。

「AGI は合成データをスケールアップするだけで解決できる」という主張には部分的に同意しません。

検索が強力なのは、環境が適切に設計されていれば、モデルが学習して適応するための新しいパターンが無限に作成されるためです。

しかし、このような新しいパターンを学習するには何十億ものデータが必要かどうかは未解決の問題であり、これは私たちのアーキテクチャ/学習パラダイムに何らかの根本的な欠陥があることを示している可能性があります。

対照的に、人間は「なるほど!」という瞬間を通じて、新しいパラダイムをより簡単に発見する傾向があります。

Nvidia の上級科学者 Jim Fan 氏も同意し、合成データは重要な役割を果たすが、盲目的な拡張だけでは AGI を実現するには不十分だと述べた。

Q*=Q学習+A、それはどのくらいの確率ですか

Tian Yuandong 氏は、OpenGo (AlphaZero の再来) での過去の経験に基づいて、A* は値 (つまりヒューリスティック) 関数 Q のみを持つ決定論的な MCTS バージョンと見なすことができると述べました。

A* は、アクションが与えられた場合、状態を評価するのは簡単だが、状態が与えられた場合、アクションを予測するのは困難なタスクに適しています。この状況の典型的な例は数学の問題です。

対照的に、囲碁の場合は話が異なります。次の候補の動きは比較的簡単に予測できますが (局所的な形を調べるだけで)、盤面の状況を評価するのははるかに困難です。

そのため、かなり強力な囲碁ボットも存在しますが、それらはポリシー ネットワークのみを活用します。

LLM の場合、Q(s,a) を使用すると、Q(s,a) の評価には事前入力のみが必要になる可能性がある一方で、ポリシー a = pi(s) を予測するには自己回帰サンプリングが必要になり、これははるかに低速になるため、追加の利点があります。さらに、デコーダーのみを使用する場合、s の KV キャッシュを複数の操作間で共有できます。

伝説の Q* が数学の問題解決に大きな飛躍をもたらした可能性はどれくらいでしょうか?

田元東氏は、初級レベルの数学の問題はすでに解決されているため、価値関数の設定は比較的容易であるはずだ(例えば、自然言語形式のターゲット仕様から予測できる)と推測したと述べた。

難しい数学の問題を解きたいのにやり方が分からない場合、このアプローチでは不十分かもしれません。

LeCun 氏は Tian Yuandong 氏の議論を転送し、彼の見解に同意しました。「彼は A* (グラフ内の最短経路の検索) と MCTS (指数関数的に成長するツリーの検索) の適用性の違いを説明しました。」

LeCun 氏の転送に応えて、Tian Yuandong 氏は、計画、Transformers/LLM の理解、効率的な最適化技術など、さまざまなことを行っており、これらすべての技術を組み合わせることを望んでいると述べました。

一部のネットユーザーは、「A* が効果的であるためには、証明可能で、受け入れ可能で、一貫性のあるヒューリスティック関数が必要です。しかし、部分列の値を決定するのは簡単ではないため、誰かがそのような関数を思いつくことができるかどうかは非常に疑わしい」と疑問を呈しました。

たとえ小学校レベルの算数の問題であっても、Q* は良い成績を収めると予想されます。

大きなモデルについて少しでも理解している人なら、基本的な数学の問題を解決する能力がモデルの機能の大きな進歩であることを知っています。

これは、大規模なモデルでは、トレーニングに使用したデータを超えて一般化することが困難であるためです。

AIトレーニングのスタートアップ企業Tromeroの共同創業者チャールズ・ヒギンズ氏は、現在大規模モデルを悩ませている主な問題は、抽象的な概念をどう推論するかであると述べた。このステップが達成されれば、間違いなく大きな前進となるだろう。

数学は、X が Y より大きく、Y が Z より大きい場合、X は Z より大きいなどの記号による推論の研究です。

Q* が実際に Q 学習 + A* である場合、これは OpenAI の新しいモデルが ChatGPT をサポートするディープラーニング技術と人間がプログラムしたルールを組み合わせることができることを示しています。この方法は、LLM 錯視問題を解決するのに役立ちます。

トロメロの共同創設者ソフィア・カラノフスカ氏は、象徴的には非常に重要だが、現実的に世界を終わらせる可能性は低いと述べた。

では、なぜ「Q* はすでに AGI のプロトタイプを示している」という噂があるのでしょうか?

カラノフスカ氏は、現在の報告に基づくと、Q* は脳の両側を組み合わせることができ、経験から何かを学び、同時に事実について推論することができるようだ、と考えている。

明らかに、これは私たちが一般的に知能として認識しているものに一歩近づきました。なぜなら、Q* は大規模なモデルに新しいアイデアを与える可能性が高いからです。これは ChatGPT では不可能です。

既存のモデルの最大の制限は、トレーニング データから情報を繰り返すことしかできず、推論して新しいアイデアを開発することができないことです。

目に見えない問題を解決することが、AGI を作成するための重要なステップです。

サリー大学人間中心AI研究所所長アンドリュー・ロゴイスキー氏は、現在利用可能な大規模モデルは学部レベルの数学の問題は解けるが、より高度な数学の問題に直面すると、すべて失敗すると述べた。

しかし、LLM が本当にまったく新しい、これまでに見たことのない問題を解決できるのであれば、たとえ関連する数学が比較的単純だとしても、それは大きな意味を持つでしょう。

合成データは LLM の将来の鍵となるのでしょうか?

ということは、合成データが王様なのでしょうか?

Q* の突然の人気は、多くの専門家の間で憶測を呼び起こしました。噂されている「新しいモデルが特定の数学的問題を解決できるようにする膨大なコンピューティング リソース」に関しては、専門家は、この重要なステップは RLAIF (AI フィードバックからの強化学習) である可能性があると推測しました。

RLAIF は、人間のラベル付け設定を既製の LLM に置き換え、人間のフィードバックを自動化することで、LLM に対するアライメント操作をよりスケーラブルにする技術です。

これまで LLM トレーニングで非常に成功してきた RLHF (人間によるフィードバックによる強化学習) は、大規模な言語モデルを人間の好みに合わせて効果的に調整できますが、高品質の人間の好みのラベルを収集することが大きなボトルネックとなっています。

そのため、Anthropic や Google などの企業は、RLAIF に目を向け、AI を使用して人間に代わってフィードバック トレーニング プロセスを完了しようとしてきました。

これは、合成データが重要であり、ツリー構造を使用して、将来的に正しい答えに到達するためにより多くの選択肢を提供することを意味します。

少し前に、ジム・ファンは、合成データが次の 1 兆個の高品質なトレーニング データを提供するだろうとツイートしました。

「ほとんどの真剣なLLMグループはこれを知っていると思います。重要な問題は、品質を維持し、早期の停滞を回避する方法です。」

ジム・ファン氏はまた、リチャード・S・サットン氏の記事「苦い教訓」を引用し、コンピューティングを通じて無限に拡張できる人工知能の開発には、学習と検索という 2 つのパラダイムしかないことを説明しました。

「この記事が書かれた2019年当時もそれは真実だったし、今日も真実だ。そして、AGIを解決する日までそれは真実であり続けるだろうと私は賭ける。」

カナダ王立協会および英国王立協会のフェローであるリチャード S. サットンは、現代の計算強化学習の創始者の一人とみなされており、時間差分学習やポリシー勾配法など、この分野にいくつかの大きな貢献をしてきました。

この記事でサットンは主に以下の点を述べました。

計算を活用する一般的なアプローチは、最終的には最も効果的で非常に効率的です。しかし、それが機能する理由は、ムーアの法則、より具体的には、コンピューティングの単位あたりのコストが指数関数的に低下し続けているからです。

当初、研究者たちは人間の知識やゲームの特別な機能を利用して検索を回避しようとしましたが、検索が大規模に効果的に適用されると、これらの努力はすべて無意味になりました。

統計的手法は再び人間の知識に基づく手法に勝利し、自然言語処理の分野全体に大きな変化をもたらし、過去数十年にわたって統計とコンピューティングが徐々に支配的になりました。

AI 研究者はシステムに知識を組み込もうとすることが多いが、これは短期的には役立つものの、長期的にはさらなる進歩を妨げる可能性がある。

画期的な進歩は、最終的には検索と学習に基づくアプローチを通じて達成されるでしょう。

心の実際の内容は極めて複雑であり、思考を表現するための単純な方法を見つけようとするのはやめて、代わりにこの恣意的な複雑さを見つけて捉えることができるメタメソッドを構築すべきです。

——Q* は問題の鍵(探索と学習)を掴んだようで、合成データによってさらにこれまでの限界を突破し、飛躍を遂げていくことになるのですね。

合成データに関しては、マスク氏は人間は機械に勝てないとも述べた。

「これまで人類が書いたすべての本のテキストをハードドライブに保存することもできますが(ため息)、合成データはそれをはるかに上回ります。」

この点に関して、ジム・ファンはマスク氏と交流し、次のように述べた。

「大規模にシミュレーションできれば、テスラ オプティマスのような具現化されたエージェントから大量の合成データが得られるようになるでしょう。」

Jim Fan 氏は、RLAIF または Groundtruth フィードバックからの RLAIF は、適切に拡張されれば大いに役立つと考えています。さらに、合成データにはシミュレーターも含まれており、原理的には LLM が世界モデルを開発するのに役立ちます。

「理想的には無限です。しかし、自己改善サイクルが効果的でなければ、停滞してしまう可能性があるという懸念があります。」

二人が同じ曲を歌っていることに関して、ルカン氏は次のようにコメントしている。

LeCun 氏は、動物や人間はごくわずかなトレーニングデータですぐに非常に賢くなることができると考えています。

したがって、現在の方法には限界があるため、より多くのデータ(合成データであろうとなかろうと)を使用することは一時的な応急措置に過ぎません。

この点について、「ビッグデータ派」を支持するネットユーザーらは不満を表明した。

「何百万年にも及ぶ進化的適応は事前訓練に似たものであり、一方、私たちの生涯にわたる経験は継続的な微調整に似たものであるべきではないでしょうか?」

次にルカン氏は例を挙げて、人類が何百万年にも及ぶ進化の成果を受け継ぐ唯一の手段は遺伝子であり、ヒトゲノムのデータ量はわずか800MBと非常に少ないと説明した。

70 億の小さな LLM でも 14 GB のストレージ スペースが必要です。比較すると、ヒトゲノムにはそれほど多くのデータはありません。

さらに、チンパンジーとヒトのゲノムの違いは約 1% (8MB) です。この小さな違いだけでは、人間とチンパンジーの能力の違いを説明するには不十分です。

生後学習するデータ量について言えば、2歳児が見る視覚データの総量は非常に少なく、学習時間はすべて約3200万秒(2x365x12x3600)です。

人間には 200 万本の視神経線維があり、それぞれが 1 秒あたり約 10 バイトを送信します。 ——合計は6E14バイトになります。

対照的に、LLM トレーニングのデータ量は通常 1E13 トークン、つまり約 2E13 バイトです。 ——2歳児が得るデータ量は、LLMの30倍に過ぎないわけですね。

大物たちの議論にかかわらず、Google、Anthropic、Cohere などの大手テクノロジー企業は、プロセス監視や RLAIF のような方法を通じて事前トレーニング サイズのデータ​​セットを作成し、これに膨大なリソースを消費しています。

したがって、合成データがデータセットを拡張するための近道であることは誰もが知っています。短期的には、明らかにこれを使用して有用なデータを作成できます。

しかし、これが未来への道なのでしょうか?私たちにできるのは、時間が答えを教えてくれるのを待つことだけです。

<<: 

>>:  私の目が支配者です! 80億のパラメータを備えたOtterHDは、清明節のラクダを数えるのに役立ちます。南洋理工大学の中国チームによって作成されました

ブログ    
ブログ    

推薦する

...

Ruan Yifeng: ガウスぼかしアルゴリズム

通常、画像処理ソフトウェアには、画像にぼかし効果を加えるための「ぼかし」フィルターが用意されています...

AIインテリジェンスを活用して企業の効率性を向上させる方法

人工知能はさまざまな分野から深い注目を集めており、人工知能分野のディープラーニングとインテリジェント...

...

...

人工知能は人間の臨床試験に取って代わることができるでしょうか?

2013年のノーベル化学賞受賞者であるアリエ・ワーシェル氏は、COVID-19パンデミックと製薬業...

マスク氏:人間の脳とAIコンピューターは10年以内に接続可能

11月26日の英国デイリーメール紙によると、スペースXとテスラのCEOであるマスク氏は、人間の知能の...

わかりやすい言葉で解説:人工知能(AI)とは何か?小学生でもわかる

昨今、人工知能(AI)という言葉は至るところで聞かれます。科学技術革新を支援する国や地方政府の政策か...

2023 年の人工知能エンジニアリングの 5 つの新しい方向性

LLMの大幅な増加に加え、AI開発ツールも拡大しています。今年の AI 開発における 5 つの主要な...

類似画像検索エンジンを効率的に開発するにはどうすればよいでしょうか?

翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟プロジェクト紹介類似画像検索とは、関連するあらゆる画像を検...

産業用AIが製造業に革命を起こす5つの方法

人工知能 (AI) は、製造業において総合設備効率 (OEE) と生産時の初回歩留まりを向上させるた...

2歳、1年半の教育経験:赤ちゃんAIトレーナーがサイエンスに登場

チューリング賞受賞者のヤン・ルカン氏は、公開インタビューで、現在のAIモデルの学習効率は人間の赤ちゃ...

AI モデルの「アウトソーシング」をやめましょう!新しい研究によると、機械学習モデルのセキュリティを弱める「バックドア」の一部は検出できないことが判明した。

悪意のある「バックドア」が埋め込まれたモデルが、何百万、何十億ものパラメータを持つモデルの中に、何者...

...

PyTorch と TensorFlow のベンチマーク: どちらのプラットフォームが NLP モデル推論をより速く実行しますか?

PyTorch と TensorFlow のどちらが優れているかという議論は、決して終わることはあ...