OpenAIの謎の新モデルQ*が暴露された。取締役会に警告するにはあまりにも強力だったため、ウルトラマン解任の導火線になるかもしれない

OpenAI 宮殿ドラマが終わったばかりですが、すぐにまた別の騒動が勃発しました。

ロイター通信は、アルトマン氏が解雇される前に、数人の研究者が取締役会に宛てて書いた警告書が、この事件全体の引き金になった可能性があることを明らかにした。

社内で Q (Q-Star と発音)* と名付けられている次世代 AI モデルは、非常に強力かつ先進的であるため、人類を脅かす可能性があります。

Q* は、この嵐の中心にいる人物、主任科学者イリヤ・スツケヴァーによって率いられています。

人々はすぐに、アルトマン氏のAPECサミットでの前回のスピーチを結び付けた。

OpenAI の歴史の中で、最近ではここ数週間で 4 回、私たちが無知のベールを押しのけて発見の最前線に到達するのを目の当たりにしてきました。これは私のキャリアで最高の栄誉です。 ”

写真

Q* には以下のコア特性があり、AGI または超知能への重要なステップであると考えられています。

人間のデータの限界を打ち破り、膨大な量のトレーニングデータを生成できる
自主的に学び、向上する能力

このニュースはすぐに大きな議論を巻き起こし、マスク氏もリンクを貼って質問した。

写真

最新のミームは、一夜にしてウルトラマンや OpenAI の取締役会の専門家だった人々が Q* の専門家になったというものです。

データの制限を突破する

The Information の最新ニュースによると、Q* の前身は GPT-Zero であり、これは Ilya Sutskever 氏が開始し、DeepMind の Alpha-Zero に敬意を表して名付けられたプロジェクトです。

Alpha-Zero は人間のチェスの記録を学ぶ必要はなく、自分自身と対戦することで囲碁の遊び方を学びます。

GPT-Zero を使用すると、インターネットからキャプチャしたテキストや画像などの現実世界のデータに依存するのではなく、合成データを使用して次世代の AI モデルをトレーニングできます。

2021年にGPT-Zeroが正式にプロジェクトとして立ち上げられましたが、それ以降は直接関連するニュースはあまり発表されていません。

しかし、ほんの数週間前、イリヤはインタビューでこう言いました。

あまり詳しく説明することはできませんが、データの制限は克服可能であり、進歩は続くだろうと言えば十分でしょう。

写真

Q* は GPT-Zero に基づいて、Jakub Pachocki と Szymon Sidor によって開発されました。

二人とも OpenAI の初期メンバーであり、ウルトラマンを追ってマイクロソフトに移籍することを最初に発表した人物の一人です。

写真

Jakub Pachocki 氏は先月、研究ディレクターに昇進しました。同氏は、Dota 2 プロジェクトや GPT-4 の事前トレーニングなど、これまで多くの画期的な成果に中核的な貢献をしてきました。

写真

Szymon Sidor 氏も Dota 2 プロジェクトに参加しました。彼の個人的なプロフィールは「コードを 1 行ずつ作成して AGI を構築する」です。

写真

ロイターの報道によると、Q* に膨大な計算リソースを提供することで、特定の数学的問題を解決できるようになるとのことです。現在の数学の能力は小学校レベルに過ぎないが、研究者たちは将来の成功について非常に楽観的である。

また、OpenAIは、初期の「Code Gen」チームと「Math Gen」チームを統合して「AI Scientists」という新しいチームを設立したことも言及されました。このチームは、AIの推論能力を最適化および改善し、最終的には科学的探究を行う方法を模索しています。

3つの推測

Q* が何であるかについてはこれ以上の具体的な情報はありませんが、名前に基づいて Q 学習に関連しているのではないかと推測する人もいます。

Q 学習は 1989 年にまで遡ります。これは、環境のモデリングを必要とせず、特別な変更を加えずにランダムな要素を持つ伝達関数や報酬関数に適応できる、モデルフリーの強化学習アルゴリズムです。

他の強化学習アルゴリズムと比較して、Q 学習は、アクションポリシー自体を直接学習するのではなく、各状態とアクションのペアの値を学習して、長期的にどのアクションが最大の報酬をもたらすかを決定することに重点を置いています。

2番目の推測は、OpenAIが5月に「結果の監視」ではなく「プロセスの監視」を通じて数学の問題を解くという発表に関連している。

写真

しかし、この研究成果への貢献者リストには、Jakub Pachocki 氏と Szymon Sidor 氏の名前は記載されていません。

写真

また、7月にOpenAIに加わった「テキサスポーカーAIの父」ノーム・ブラウン氏もこのプロジェクトに関係しているのではないかと推測する人もいる。

写真

入社した際、彼はこれまでゲームにしか適用できなかった手法を一般化したいと語った。推論は1,000倍遅くなり、コストもかかるかもしれないが、新薬の発見や数学的推測の証明につながるかもしれない。

これは、「膨大な計算リソースを必要とする」ことと「特定の数学的問題を解決できる」という噂の説明に当てはまります。

写真

まだほとんどが推測の域を出ませんが、合成データと強化学習が AI を次の段階に進めることができるかどうかは、業界で最も議論されているトピックの 1 つになっています。

NVIDIA の科学者 Linxi Fan 氏は、合成データによって何兆もの高品質なトレーニングトークンが提供されると考えています。重要な問題は、いかにして品質を維持し、ボトルネックに早く到達しないようにするかです。

写真

マスク氏もこれに同意し、これまで人間が書いたあらゆる本は1台のハードドライブに収まるが、合成データはその規模をはるかに超えるだろうと指摘した。

写真

しかし、チューリング賞の三大巨頭の一人であるルカン氏は、合成データの増加は一時的な対策に過ぎず、最終的には人間や動物のように非常に少ないデータでAIが学習できるようにする必要があると考えている。

写真

ライス大学の博士であるキャメロン・R・ウルフ氏は、Q学習はAGIを実現する秘密ではないかもしれないと語った。

しかし、「合成データ」と「データ効率の高い強化学習アルゴリズム」を組み合わせることが、AI研究の現在のパラダイムを前進させる鍵となるかもしれません。

強化学習による微調整が、高性能な大規模モデル（ChatGPT/GPT-4など）をトレーニングする秘訣であると彼は語った。しかし、強化学習は本質的にデータ効率が悪く、強化学習の微調整に手動で注釈を付けたデータセットを使用するとコストが非常に高くなります。これを念頭に置くと、AI 研究の進歩 (少なくとも現在のパラダイムでは) は、次の 2 つの基本的な目標に大きく依存することになります。

より少ないデータで強化学習のパフォーマンスを向上させます。
可能な限り、大規模なモデルと少量の手動で注釈を付けたデータを使用して、高品質のデータを合成的に生成します。

…デコーダーのみのトランスフォーマーの次のトークン予測パラダイム（事前トレーニング -> SFT -> RLHF）に固執する場合…これら 2 つのアプローチを組み合わせることで、資金が豊富な研究チームだけでなく、誰もが最先端のトレーニング手法を利用できるようになります。

写真

もう一つ

OpenAI内ではまだ誰もQ*のメッセージに反応していない。

しかしアルトマン氏は、取締役として残っているQuoraの創設者アダム・ダンジェロ氏と数時間にわたり友好的な会話をしたと明かしたばかりだ。

写真

誰もが推測していたように、この事件の背後にアダム・ダンジェロがいたかどうかはともかく、和解が成立したようだ。

参考リンク:
[1] https://www.theinformation.com/articles/openai-made-an-ai-breakthrough-before-altman-firing-stoking-excitement-and-concern
[2] https://www.reuters.com/technology/sam-altmans-ouster-openai-was-precipitated-by-letter-board-about-ai-breakthrough-2023-11-22/
[3] https://www.youtube.com/watch?v=ZFFvqRemDv8
[4] https://www.youtube.com/watch?v=Ft0gTO2K85A
[5] https://x.com/cwolferesearch/status/1727727148859797600
[6] https://twitter.com/DrJimFan/status/1727505774514180188

<<: 「ビッグモデルは基本的に2つのファイルです！」テスラの元AIディレクターが一般向けに1時間にわたるLLMポピュラーサイエンスを披露

>>: AIは「技術力」の集中を加速させる。巨大企業によるAIの独占は深刻な結果をもたらすのか？