先週、シリコンバレーのスタートアップオタクや研究者が更新するポッドキャスト「Latent Space Podcast」が人気になりました! 写真 2時間のポッドキャストが終わる頃には、約2万人が同時に聴いていた。 その後、主催者はポッドキャストの内容を長文の記事「コードインタープリターはGPT4.5」に書き起こし、Twitterで40万回再生されました。 この記事では、コード インタープリターの機能とそれが OpenAI の今後の取り組みの方向性に与える影響について、非常に包括的に説明しています。 彼らは、コードインタープリタが AGI への高速道路であるとさえ考えています。 テクノロジー製品のバージョン番号や名前を気にする必要はありませんテクノロジーの世界では、バージョン番号が主にマーケティング目的で存在するというのは公然の秘密です。 Windows 3.0 からバージョン 95 への移行は、Microsoft の再設計 (現在では Microsoft の商標となっている) を一般の人々に知ってもらうことが目的であった。 さらに、MacOS と Windows は、2000 年以降に生まれたユーザーを引き付けるために、意図的にバージョン 9 をスキップしました。 では、大規模なモデル バージョン間の関係をどのように理解すればよいのでしょうか? バージョン番号を理解することは、研究者にとって比較的馴染みのない概念かもしれません。 なぜなら、ある主張を証明するために 400 個の無名の言語モデルを簡単にトレーニングできるかもしれないが、これらのモデルに基づいて製品やビジネスを構築する AI エンジニアの重要性が高まるにつれて、バージョン管理がますます重要になるからだ。 生成 AI のこの短い歴史には、参照できる例がいくつかあります。 GPT1→2→3、アップデートごとに明らかな改善が見られ、Midjourney 4→5ではBalenciaga Popeの登場を告げています。 写真 しかし、Stable Diffusion 1→2 のような開発は、ユーザーの間で論争を引き起こしています。 マイナー バージョン番号は、ある意味ではアップグレードを表す必要があります。 それは、SD v1.3 → 1.4 → 1.5 のように、あるベースポイントから始めて、さらにトレーニングを行うことを意味するかもしれません... …これが今日の話題、つまり GPT のバージョン番号 .5 が大幅な改善を表しているという点につながります。 ご存知のとおり、GPT3.5 は ChatGPT の直後にリリースされ、text-davinci-003 と code-davinci-002 が含まれていました。 このアップデートでは、次の 2 つの目標が達成されます。 まず、GPT3.5 は GPT3 (2020 バージョン) よりもはるかに優れていることをユーザーに認識してもらいます。 理由は次のとおりです。 1. 追加されたコード 2. 指示を微調整する 3. RLHF/PPO 第二に、この新しい会話的な人間とコンピューターの対話方法が、AGI への将来の道であることを示しています。 コードインタープリターを理解する上で私たちが抱える中心的な問題は次のとおりです。 1. GPT-4からコードインタープリターへのアップデートの影響がどれほど大きいかを人々に理解させる 2. 将来、汎用人工知能につながる新しいパラダイムについて議論する これら 2 つの機能から、コード インタープリターは事実上の GPT 4.5 と見なすべきであるという結論に至りました。 そして将来 API 機能が追加されれば、統合されたコード インタープリターは正式に GPT 4.5 と命名されるでしょう。 それでは、コードインタープリターで何ができるのかを簡単に見てみましょう。 コードインタープリタの包括的な理解コード インタープリターは、Python コードを Jupyter Notebook に書き込んでサンドボックスで実行できる実験的な ChatGPT モデルです。次の機能があります。 1. 他のユーザーやインターネットから隔離するファイアウォール 2. 最大 100 MB のアップロード/ダウンロードをサポート (.csv、.xls、.png、.jpeg、.mov、.mp3、.epub、.pdf、.zip および Git リポジトリ全体のその他のファイルを含む) 3. pandas(データ分析)、matplotlib、seaborn、folium(チャートとマップ)、pytesseract(OCR)、Pillow(画像処理)、Pymovie(ffmpeg)、Scikit-Learn、PyTorch、Tensorflow(機械学習)など、330以上のライブラリがプリインストールされています。 これは、ChatGPT プラグインのアップデートの一部として 3 月 23 日に発表され、Andrew Mayne 氏と Greg Brockman 氏による専用デモも行われました。 アルファテストは3か月間続きました。 最終的に、7 月 6 日から 8 日の間に、約 200 万人の ChatGPT Plus ユーザー全員にオプトイン ベータ機能として展開されました。 写真 これらの機能はコード内で柔軟かつ無限に組み合わせることができるため、この機能の可能性を完全に列挙することは困難です。 ただし、例 (例: p5.js を使用したゲームの作成、ミームの描画、インタラクティブなダッシュボードの作成、データの前処理 (季節性を含む)、複雑な AST 操作コードの記述、大規模な顔検出、Discord の #code-interpreter-output チャネルを参照) で学習し、ライブラリのリストを参照することは役に立ちます。 写真 Ethan Mollick がいくつかのサンプルを提供してくれました。彼は Python を知りませんが、コード インタープリターから結果を取得するのが非常に得意です。 Ethan 氏は自身の経験を、コード インタープリター向けのシステム ヒントのリストにまとめました。 コード インタープリターは、実際にはサンドボックスとモデルという 2 つの新しいものを導入します。 7 月以前のアルファ テストのほとんどは、Python サンドボックスと、その中でユーザーが実行できることに重点が置かれており、独自にコードを作成する機能はたまにしか使用されていませんでした。 しかし、リリース後は、機能の焦点はコード インタープリターを通じて提供できるモデルの品質に移りました。 逸話的に言えば、これは今日の GPT-4 よりも優れているようです (コードの記述、複数のステップを自律的に進めること、いつ進めないかを決定すること、ユーザーに一連のオプションから選択を求めることなど)。 このモデルの自律性は、実際に見てみなければ信じられません。以下は、人間の入力なしでコーディングおよびデバッグする方法の例です。 写真 このモデルの進歩が非常に素晴らしいのは、以前の ChatGPT と同様に、モデリングとモダリティを完璧に組み合わせていることです。 もちろん、いくつかの欠点や制限もあります。 1. 環境ではコード実行状態が頻繁にリセットされ、アップロードされたファイルが失われ、障害からの回復能力が制限されます。 2. OCR 機能は GPT-4 Vision には遠く及びません。 3. 実行可能なことを拒否するので、実行するように要求する必要があります。 4. ネットワークにアクセスできないため、コード内で GPT3/4 を呼び出すことができず、問題を解決するコードを記述する際にデータ拡張などのタスクを実行できません。 しかし、これらの欠点にもかかわらず、全体として、コードインタープリタに対する全員の評価は非常に高いです。 Karpathy: 「コードインタープリターベータ版は非常に強力です。これはあなたのパーソナルデータアナリストです。アップロードされたファイルの読み取り、コードの実行、グラフの生成、統計分析の実行などを行うことができます。コミュニティがその可能性を完全に実現するには、しばらく時間がかかると思います。」 Simon Willison: 「Code Interprete を使い始めてから、今後 2 年間に計画していたことはすべて達成できました。」 理由: 大型モデルの次の最先端の方向性 George Hotz 氏との会話は、OpenAI が「非創造的」であるかどうか、そして GPT-4 が本当に「単なる 8 つの 220B の専門家モデル」であるかどうかについての議論を引き起こしました。 PanGuの1兆パラメータのルーティング言語モデルやスイッチトランスフォーマーのような研究が本当に進歩であるかどうかはさておき、コードインタープリターは、進歩の定義が純粋な言語モデル推論に限定されない限り、まだ改善の余地があることを示しており、OpenAIはこの重要な点を把握しています。 2017年、ノーム・ブラウンは、12万ラウンドのノーリミットテキサスホールデムポーカーでトッププロ4名に勝利したAI、Libratusを開発しました。 Lex とのインタビューで、Noam Brown 氏はこのプロジェクトで最も重要なアイデアについて語りました。 写真
このアイデアは今では非常に明白に思えます:
ノアム氏はその後、このアイデアを使って 2019 年に 6 人用テキサス ホールデムの問題を解決し、さらにこの洞察を使って 2022 年に Diplomacy のゲームを解決しました (AlphaGo と AlphaZero の検索アルゴリズムのおかげです)。 先月、彼はまだそれについて考えていました。 写真 2週間後、彼はOpenAIに入社しました。 コード生成、サンドボックス、エージェントクラウド 私は、LLM コーディング スキルの特別な地位を強調してきました。 これは AI エンジニアの台頭を推進する重要な要因です。 これは単に「ああ、それはいいことだ、Copilot は開発者には良いが、他の人にはそれほど良くない」という話ではありません。LLM コードは、プログラミング方法を知らない人にとっても、普遍的に役立ちます。 私が知る限り、Code Core を使った最も初期の実験は Riley Goodside によるもので、昨年「You Are GPT-3, You Can’t Do Math」でそれを実証しました。 この実験により、LLM の欠点 (数学的計算、外部環境との相互作用、解釈可能性、速度/コストなど) を補う最善の方法は次のとおりであることが初めて示されました。 記述されたコードを使用して、LLM 外部のタスクを完了します。 Nvidia の Voyager エージェントは、この考え方を論理的な結論に導くロードマップを提供します。 写真 もちろん、Voyager には明らかな問題があります。現実世界は Minecraft よりもランダムで、文書化が少なく、フィードバック サイクルが長いのです。 Minion AI、Multion、AutoGPT と同様に、現在のすべてのエージェント インスタンスはリアルタイムのブラウザー/デスクトップで実行されます。 これにより、錯覚やエラーの可能性が悲惨なものとなり、「自動運転車では常にハンドルから手を離さなければならない」ような状況が生まれます。 バベッジ差分エンジンが存在する以前から、エイダ・ラブレスがコードを書き始めて以来、開発者たちは実際の群衆を対象にテストを行ってきました。 しかし、最終的には、コードが期待どおりに実行され、機能するかどうかを知る唯一の方法は、コード用のサンドボックスを作成することです。 (コードインタープリターは、ユーザーと無数のサンドボックスを作成できます) コード生成/サンドボックス機能のほとんどはローカルで実行できます。 しかし、「ローカルホスティングの終焉」(ローカル開発環境がクラウド開発環境に置き換えられる未来を論じた記事)で述べた状況は近づいてきています。 エージェント ビルダーとユーザーは、これらの LLM 推論プロセス用のコード スニペットを構築および実行するために必要なクラウド インフラストラクチャの必要性をますます認識するようになっています。 このニーズを満たすために、将来プロキシ クラウドが登場すると予想されます。 これは実際には新しいタイプのサーバーレス インフラストラクチャ要件です。 これは一時的かつプログラム可能であるだけでなく、人間以外のオペレーターに必要なフィードバックを提供するための特別な機能も備えています。 当然のことながら、この新興プロキシ クラウド業界に対応するために、さまざまな製品から選択できます。
これらはすべて、Amazon が 2018 年にオープンソース化した QEMU 代替マイクロ VM テクノロジである Firecracker を使用していることに気付くでしょう (通常はオープンソース ソフトウェアのリーダーとして知られていない企業にとっては素晴らしい勝利です)。 ただし、対照的なアプローチとしては、Deno (JavaScript の世界) や Modal (Python の世界) が考えられます。これらの自動構成ランタイムは、開発者とインフラストラクチャ プロバイダー間の合意のためのより軽量なプロキシを提供しますが、あまり馴染みがありません。 もちろん、OpenAI は独自のエージェント クラウドを構築し、200 万人のユーザーにコード インタープリターのホスティングとスケーリングを提供しています。 彼らは何年もこの技術を使ってきましたが、残りの私たちは今になってようやくその重要性に気づき始めたのです。 GPT-5への道: コード拡張推論 これらすべてをまとめると、コード インタープリターを以前のアプローチと比較することができます。 写真 上記のように、メジャーバージョンとマイナーバージョンのアップグレードでの改善点と、コードインタープリターがモデルに非常に多くの新機能を提供していることを考慮すると、コードインタープリターは「GPT 4.5」であると考えられます。 私たちのポッドキャストでは、GPT4のヘビーユーザーはGPT4 Basicの品質が低下したと固く信じていることも指摘しました(OpenAIのLogan氏は、サービスモデルは変更されていないと主張していましたが)。 これらのファンはまた、コードを書かなくても、コードインタープリターの出力は「弱体化」される前の元の GPT4 の出力と同じくらい優れていると報告しました。 これが真実であると仮定すると (lm-eval-harness を実行するための明示的なコード インタープリター API がなければ証明は困難)、コード インタープリターがコードを記述できるようにするための追加の微調整によって、全体的な出力品質も向上した可能性があります (これは、GPT3.5 自体の起源である code-davinci-002 を考慮すると、Replit の研究と経験からわかっていることです)。 これにより、サンドボックスがなくても、コードインタープリターの基本モデルは、モデル品質の点で「GPT 4.5」になります。 OpenAIの主な利点: Sundar Pichai 氏は 6 月に Google Bard の「コード実行」機能を発表しました。 Bard は、数値の加算や文字列の反転など、依存関係のない単純な Python 関数を実行できると主張しています。 写真 興味深いことに、1 か月後に Google キャンペーンを再実行して同じプロンプトが表示されたとき、まったく役に立たないことがわかりました。 同時に、OpenAI はまったく新しい LLM コーディング パラダイムを導入しています。 OpenAI のリードは素晴らしいです! 参考文献: https://www.latent.space/p/code-interpreter#詳細 |
<<: ChatGPTプラグインがもたらすセキュリティ上の課題
この記事の内容には、(双方向) バブル ソート、選択ソート、挿入ソート、クイック ソート (穴埋めと...
CVPR 2021 車線検出論文: 車線から目を離さない: リアルタイムの注意誘導型車線検出。紙:...
人工知能アルゴリズムやディープラーニングなどのさまざまな技術の徹底的な発展により、人工知能(AI)は...
従業員の定着は、長年にわたり企業経営者にとって深刻な問題となってきました。雇用の安定と従業員の忠誠心...
もし何かスーパーパワーを与えられるとしたら、それは何ですか? 営業マンにとって、予知能力、つまり将来...
最近、Amazon One の研究者は、生成された画像を明示的に制御できる GAN をトレーニングす...
Nathan Shipley は、サンフランシスコを拠点とするテクノロジー ディレクター、クリエイテ...
翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟ディープラーニング モデルの初期の成功は、大量のメモリと ...