GPT-4.5 と同等のコードインタープリター! GPT-5をトレーニングせずに、OpenAIは依然としてAGIに向けて競争している

先週、シリコンバレーのスタートアップオタクや研究者が更新するポッドキャスト「Latent Space Podcast」が人気になりました！

写真

2時間のポッドキャストが終わる頃には、約2万人が同時に聴いていた。

その後、主催者はポッドキャストの内容を長文の記事「コードインタープリターはGPT4.5」に書き起こし、Twitterで40万回再生されました。

この記事では、コードインタープリターの機能とそれが OpenAI の今後の取り組みの方向性に与える影響について、非常に包括的に説明しています。

彼らは、コードインタープリタが AGI への高速道路であるとさえ考えています。

テクノロジー製品のバージョン番号や名前を気にする必要はありません

テクノロジーの世界では、バージョン番号が主にマーケティング目的で存在するというのは公然の秘密です。

Windows 3.0 からバージョン 95 への移行は、Microsoft の再設計 (現在では Microsoft の商標となっている) を一般の人々に知ってもらうことが目的であった。

さらに、MacOS と Windows は、2000 年以降に生まれたユーザーを引き付けるために、意図的にバージョン 9 をスキップしました。

では、大規模なモデルバージョン間の関係をどのように理解すればよいのでしょうか?

バージョン番号を理解することは、研究者にとって比較的馴染みのない概念かもしれません。

なぜなら、ある主張を証明するために 400 個の無名の言語モデルを簡単にトレーニングできるかもしれないが、これらのモデルに基づいて製品やビジネスを構築する AI エンジニアの重要性が高まるにつれて、バージョン管理がますます重要になるからだ。

生成 AI のこの短い歴史には、参照できる例がいくつかあります。

GPT1→2→3、アップデートごとに明らかな改善が見られ、Midjourney 4→5ではBalenciaga Popeの登場を告げています。

写真

しかし、Stable Diffusion 1→2 のような開発は、ユーザーの間で論争を引き起こしています。

マイナーバージョン番号は、ある意味ではアップグレードを表す必要があります。

それは、SD v1.3 → 1.4 → 1.5 のように、あるベースポイントから始めて、さらにトレーニングを行うことを意味するかもしれません...

…これが今日の話題、つまり GPT のバージョン番号 .5 が大幅な改善を表しているという点につながります。

ご存知のとおり、GPT3.5 は ChatGPT の直後にリリースされ、text-davinci-003 と code-davinci-002 が含まれていました。

このアップデートでは、次の 2 つの目標が達成されます。

まず、GPT3.5 は GPT3 (2020 バージョン) よりもはるかに優れていることをユーザーに認識してもらいます。

理由は次のとおりです。

1. 追加されたコード

2. 指示を微調整する

3. RLHF/PPO

第二に、この新しい会話的な人間とコンピューターの対話方法が、AGI への将来の道であることを示しています。

コードインタープリターを理解する上で私たちが抱える中心的な問題は次のとおりです。

1. GPT-4からコードインタープリターへのアップデートの影響がどれほど大きいかを人々に理解させる

2. 将来、汎用人工知能につながる新しいパラダイムについて議論する

これら 2 つの機能から、コードインタープリターは事実上の GPT 4.5 と見なすべきであるという結論に至りました。

そして将来 API 機能が追加されれば、統合されたコードインタープリターは正式に GPT 4.5 と命名されるでしょう。

それでは、コードインタープリターで何ができるのかを簡単に見てみましょう。

コードインタープリタの包括的な理解

コードインタープリターは、Python コードを Jupyter Notebook に書き込んでサンドボックスで実行できる実験的な ChatGPT モデルです。次の機能があります。

1. 他のユーザーやインターネットから隔離するファイアウォール

2. 最大 100 MB のアップロード/ダウンロードをサポート (.csv、.xls、.png、.jpeg、.mov、.mp3、.epub、.pdf、.zip および Git リポジトリ全体のその他のファイルを含む)

3. pandas（データ分析）、matplotlib、seaborn、folium（チャートとマップ）、pytesseract（OCR）、Pillow（画像処理）、Pymovie（ffmpeg）、Scikit-Learn、PyTorch、Tensorflow（機械学習）など、330以上のライブラリがプリインストールされています。

これは、ChatGPT プラグインのアップデートの一部として 3 月 23 日に発表され、Andrew Mayne 氏と Greg Brockman 氏による専用デモも行われました。

アルファテストは3か月間続きました。

最終的に、7 月 6 日から 8 日の間に、約 200 万人の ChatGPT Plus ユーザー全員にオプトインベータ機能として展開されました。

写真

これらの機能はコード内で柔軟かつ無限に組み合わせることができるため、この機能の可能性を完全に列挙することは困難です。

ただし、例 (例: p5.js を使用したゲームの作成、ミームの描画、インタラクティブなダッシュボードの作成、データの前処理 (季節性を含む)、複雑な AST 操作コードの記述、大規模な顔検出、Discord の #code-interpreter-output チャネルを参照) で学習し、ライブラリのリストを参照することは役に立ちます。

写真

Ethan Mollick がいくつかのサンプルを提供してくれました。彼は Python を知りませんが、コードインタープリターから結果を取得するのが非常に得意です。

Ethan 氏は自身の経験を、コードインタープリター向けのシステムヒントのリストにまとめました。

コードインタープリターは、実際にはサンドボックスとモデルという 2 つの新しいものを導入します。

7 月以前のアルファテストのほとんどは、Python サンドボックスと、その中でユーザーが実行できることに重点が置かれており、独自にコードを作成する機能はたまにしか使用されていませんでした。

しかし、リリース後は、機能の焦点はコードインタープリターを通じて提供できるモデルの品質に移りました。

逸話的に言えば、これは今日の GPT-4 よりも優れているようです (コードの記述、複数のステップを自律的に進めること、いつ進めないかを決定すること、ユーザーに一連のオプションから選択を求めることなど)。

このモデルの自律性は、実際に見てみなければ信じられません。以下は、人間の入力なしでコーディングおよびデバッグする方法の例です。

写真

このモデルの進歩が非常に素晴らしいのは、以前の ChatGPT と同様に、モデリングとモダリティを完璧に組み合わせていることです。

もちろん、いくつかの欠点や制限もあります。

1. 環境ではコード実行状態が頻繁にリセットされ、アップロードされたファイルが失われ、障害からの回復能力が制限されます。

2. OCR 機能は GPT-4 Vision には遠く及びません。

3. 実行可能なことを拒否するので、実行するように要求する必要があります。

4. ネットワークにアクセスできないため、コード内で GPT3/4 を呼び出すことができず、問題を解決するコードを記述する際にデータ拡張などのタスクを実行できません。

しかし、これらの欠点にもかかわらず、全体として、コードインタープリタに対する全員の評価は非常に高いです。

Karpathy: 「コードインタープリターベータ版は非常に強力です。これはあなたのパーソナルデータアナリストです。アップロードされたファイルの読み取り、コードの実行、グラフの生成、統計分析の実行などを行うことができます。コミュニティがその可能性を完全に実現するには、しばらく時間がかかると思います。」

Simon Willison: 「Code Interprete を使い始めてから、今後 2 年間に計画していたことはすべて達成できました。」

理由: 大型モデルの次の最先端の方向性

George Hotz 氏との会話は、OpenAI が「非創造的」であるかどうか、そして GPT-4 が本当に「単なる 8 つの 220B の専門家モデル」であるかどうかについての議論を引き起こしました。

PanGuの1兆パラメータのルーティング言語モデルやスイッチトランスフォーマーのような研究が本当に進歩であるかどうかはさておき、コードインタープリターは、進歩の定義が純粋な言語モデル推論に限定されない限り、まだ改善の余地があることを示しており、OpenAIはこの重要な点を把握しています。

2017年、ノーム・ブラウンは、12万ラウンドのノーリミットテキサスホールデムポーカーでトッププロ4名に勝利したAI、Libratusを開発しました。

Lex とのインタビューで、Noam Brown 氏はこのプロジェクトで最も重要なアイデアについて語りました。

写真

ニューラルネットワークが答えを出すのには通常約 100 ミリ秒かかりますが、少し検索するだけで、事前に計算された戦略を 1,000 倍にスケールアップできることがわかりました。そして、少し検索してみてください。それは私たちのこれまでの研究をすべて無駄にしてしまうでしょう。

このアイデアは今では非常に明白に思えます:

現実の世界では、人はより簡単な問題に直面したときよりも、より難しい問題に直面したときの方が考えるのに時間がかかります。しかし、GPT3 は「球体は丸いか？」や「P = NP？」などの質問に答えるのにほぼ同じ時間がかかります。それで、1年かかるとしたらどうでしょうか?
小島氏の有名な論文「Let’s Think Step by Step」では、モデルが思考プロセスを文脈の中で外部化できるようにし、推論時間を増やすことで、言語モデルのパフォーマンスが大幅に向上したことがわかりました。ビーム型および思考ツリー型の検索により、推論時間をより効率的に使用できます。
AI におけるあらゆる大きな進歩は、何らかの能力の大幅な拡張から生まれています。 Transformer は、事前トレーニングの計算を並列化する機能を実現します。マスク言語モデリングにより、大量のラベルなしデータを処理できます。スケーリング法則は、モデルをスケーリングするためのマップを提供します。推論時間コンピューティング/「リアルタイム検索」が次の有望なフロンティアであることは明らかであり、Noam Brown 氏の言葉を借りれば、「そこに時間を費やすだけで、大きな成果が得られる」でしょう。

ノアム氏はその後、このアイデアを使って 2019 年に 6 人用テキサスホールデムの問題を解決し、さらにこの洞察を使って 2022 年に Diplomacy のゲームを解決しました (AlphaGo と AlphaZero の検索アルゴリズムのおかげです)。

先月、彼はまだそれについて考えていました。

写真

2週間後、彼はOpenAIに入社しました。

コード生成、サンドボックス、エージェントクラウド

私は、LLM コーディングスキルの特別な地位を強調してきました。

これは AI エンジニアの台頭を推進する重要な要因です。

これは単に「ああ、それはいいことだ、Copilot は開発者には良いが、他の人にはそれほど良くない」という話ではありません。LLM コードは、プログラミング方法を知らない人にとっても、普遍的に役立ちます。

私が知る限り、Code Core を使った最も初期の実験は Riley Goodside によるもので、昨年「You Are GPT-3, You Can’t Do Math」でそれを実証しました。

この実験により、LLM の欠点 (数学的計算、外部環境との相互作用、解釈可能性、速度/コストなど) を補う最善の方法は次のとおりであることが初めて示されました。

記述されたコードを使用して、LLM 外部のタスクを完了します。

Nvidia の Voyager エージェントは、この考え方を論理的な結論に導くロードマップを提供します。

写真

もちろん、Voyager には明らかな問題があります。現実世界は Minecraft よりもランダムで、文書化が少なく、フィードバックサイクルが長いのです。

Minion AI、Multion、AutoGPT と同様に、現在のすべてのエージェントインスタンスはリアルタイムのブラウザー/デスクトップで実行されます。

これにより、錯覚やエラーの可能性が悲惨なものとなり、「自動運転車では常にハンドルから手を離さなければならない」ような状況が生まれます。

バベッジ差分エンジンが存在する以前から、エイダ・ラブレスがコードを書き始めて以来、開発者たちは実際の群衆を対象にテストを行ってきました。

しかし、最終的には、コードが期待どおりに実行され、機能するかどうかを知る唯一の方法は、コード用のサンドボックスを作成することです。 (コードインタープリターは、ユーザーと無数のサンドボックスを作成できます)

コード生成/サンドボックス機能のほとんどはローカルで実行できます。

しかし、「ローカルホスティングの終焉」（ローカル開発環境がクラウド開発環境に置き換えられる未来を論じた記事）で述べた状況は近づいてきています。

エージェントビルダーとユーザーは、これらの LLM 推論プロセス用のコードスニペットを構築および実行するために必要なクラウドインフラストラクチャの必要性をますます認識するようになっています。

このニーズを満たすために、将来プロキシクラウドが登場すると予想されます。

これは実際には新しいタイプのサーバーレスインフラストラクチャ要件です。

これは一時的かつプログラム可能であるだけでなく、人間以外のオペレーターに必要なフィードバックを提供するための特別な機能も備えています。

当然のことながら、この新興プロキシクラウド業界に対応するために、さまざまな製品から選択できます。

ReplitのAmjadは公に議論されている
E2BのVasekはオープンソースのFirecracker microVM実装を持っています
CodesandboxのIvesも実装している
フライのカートが5月にフライマシンを発売

これらはすべて、Amazon が 2018 年にオープンソース化した QEMU 代替マイクロ VM テクノロジである Firecracker を使用していることに気付くでしょう (通常はオープンソースソフトウェアのリーダーとして知られていない企業にとっては素晴らしい勝利です)。

ただし、対照的なアプローチとしては、Deno (JavaScript の世界) や Modal (Python の世界) が考えられます。これらの自動構成ランタイムは、開発者とインフラストラクチャプロバイダー間の合意のためのより軽量なプロキシを提供しますが、あまり馴染みがありません。

もちろん、OpenAI は独自のエージェントクラウドを構築し、200 万人のユーザーにコードインタープリターのホスティングとスケーリングを提供しています。

彼らは何年もこの技術を使ってきましたが、残りの私たちは今になってようやくその重要性に気づき始めたのです。

GPT-5への道: コード拡張推論

これらすべてをまとめると、コードインタープリターを以前のアプローチと比較することができます。

写真

上記のように、メジャーバージョンとマイナーバージョンのアップグレードでの改善点と、コードインタープリターがモデルに非常に多くの新機能を提供していることを考慮すると、コードインタープリターは「GPT 4.5」であると考えられます。

私たちのポッドキャストでは、GPT4のヘビーユーザーはGPT4 Basicの品質が低下したと固く信じていることも指摘しました（OpenAIのLogan氏は、サービスモデルは変更されていないと主張していましたが）。

これらのファンはまた、コードを書かなくても、コードインタープリターの出力は「弱体化」される前の元の GPT4 の出力と同じくらい優れていると報告しました。

これが真実であると仮定すると (lm-eval-harness を実行するための明示的なコードインタープリター API がなければ証明は困難)、コードインタープリターがコードを記述できるようにするための追加の微調整によって、全体的な出力品質も向上した可能性があります (これは、GPT3.5 自体の起源である code-davinci-002 を考慮すると、Replit の研究と経験からわかっていることです)。

これにより、サンドボックスがなくても、コードインタープリターの基本モデルは、モデル品質の点で「GPT 4.5」になります。

OpenAIの主な利点:

Sundar Pichai 氏は 6 月に Google Bard の「コード実行」機能を発表しました。

Bard は、数値の加算や文字列の反転など、依存関係のない単純な Python 関数を実行できると主張しています。

写真

興味深いことに、1 か月後に Google キャンペーンを再実行して同じプロンプトが表示されたとき、まったく役に立たないことがわかりました。

同時に、OpenAI はまったく新しい LLM コーディングパラダイムを導入しています。

OpenAI のリードは素晴らしいです!

参考文献:

https://www.latent.space/p/code-interpreter#詳細

<<: ChatGPTプラグインがもたらすセキュリティ上の課題

>>: