OpenAIのライブ放送で音声コマンドAI自動プログラミングが披露されるが、Lao Luo TNTよりわずかに優れているだけ

[[416907]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

ちょうど今、OpenAIは新たなレベルに到達しました。

自然な文章を入力するだけでAIが自動でちょっとしたゲームをプレイします！

重要なポイント:いいえ!使用！あなた！編集！手順！

ぜひこの感触を味わってみてください。

最初のステップは、「小さな男」を中に入れて、矢印キーに従って左右に動かすための文章を入力することです。

次に、左右の矢印キーで制御できるようにします。

ニーズを理解した後、AI がデバイスを自動的にプログラムし、小さな男が実際に左右に動くことができるようになります。

2 番目のステップは、「石」に文章を入れて「空から落ちてくる」ようにすることです。

今度はそれを空から落として、巻き付けてみましょう。

3 番目のステップは、自然言語を使用していくつかの簡単なルールを策定することです。小人が石に当たると、ゲームは終了します。

人と岩が重なり合っているかどうかを常に確認し、重なり合っている場合は負けです。

最後に、励ましの言葉を含む終了プロンプトを AI に生成させます。

AIが選んだのは「もう一度試してください！」でした。

もちろん、より複雑なルール（スコアリング機能の追加など）を持つミニゲームもあり、これも同じ方法を使用して数分で生成できます。

これは魔法だ！小規模ゲームの開発は今や「タイピング」に頼っているのでしょうか? ！

ライブ放送を見ていた視聴者も同じ感情を表した。画面を埋め尽くすコメントの連続を見てみよう。

一部のネットユーザーは次のようにも言っています。

プログラミングは AI 自身のゲームになりました。

これは OpenAI の新しい大ヒット製品、自己プログラミング可能な AI「 Codex」です。

AI プログラミングは新しいものではありません。少し前に GitHub で話題になったCopilotもその 1 つです。

しかし、その背後にあるテクノロジーは実際には OpenAI から来ています。

しかし今回、OpenAI は機能をアップグレードし、新しいバージョンを開発しました。

それだけでなく、小さなゲームを作ることは Codex の機能のほんの一部にすぎません。

ぜひ一緒にその素晴らしいパフォーマンスを体験してみましょう。

入力する必要はありません。話しかけるだけです。

AIに「要件を上げる」と入力するのはまだ少し面倒です。

ただ話して命令するだけでいいですか？

これは本当に可能です！

今回、OpenAIはMicrosoftと協力し、この音声制御機能を備えたWordプラグインを開発しました。

AI に「各行の先頭のスペースを削除する」というコマンドを直接与えると、AI は Microsoft が提供するインターフェースを通じてコマンドを正常に実行します。

突然、テキスト全体が左揃えになります。

さらに、AIはコマンドの意味も正確に理解し、段落間の空白行も変更されませんでした。

もう少し複雑にしてみましょう。

AI に「5 行ごとに太字にする」というコマンドを与えると、簡単に処理できます。

誰かにタスクを割り当てると、「誰か」が代わりにそれを完了させてくれるように感じます。まるで、古い従業員がインターン生を指導しているような気分になりませんか?

つまり、数年前に Luo Yonghao がリリースした TNT システムの音声オフィスよりもはるかに優れています。

公式デモンストレーションに加えて、内部テストユーザーのaniakubow は、152 語の説明を通じて AI に Web ページを生成するデモンストレーションも実行させました。

ここで Codex は、Javascript を使用して Document オブジェクトを操作し、Web ページを生成していることがわかります。これは、トレーニングセットに直接的な HTML コードが含まれていないためであると考えられます。

最後に、ライブデモに加えて、OpenAI は Codex 論文のプレプリントを Arxiv にリリースしました。

この論文では、Codex はIOI や ACM の競争問題も含む課題に取り組まなければなりません。

Codex は、各質問に対して 1,000 の回答を生成するブルートフォース方式を使用し、テストセット内の 600 を超えるコンテストの質問の 3.23% に回答し、すべてのテストケースに合格することができました。

このプログラミング問題テストセットは、カリフォルニア大学バークレー校の研究者によって 5 月に完成したばかりです。

当時テストされたGPT-2、GPT-3、オープンソースのGPT-Neoは、競争の難易度の点で完全に敗北し、成果を上げることができませんでした。

予想外にも、コード専用に作成された Codex は、わずか 2 か月余りで、先行者の恥辱を払拭しました。

Codex の「魔法」はどのように機能するのでしょうか?

こんなにすごい能力、GPT-3のようにデータを積み重ねて頑張れば実現できるのでしょうか？

完全にそうではありません。今回の Codex の最大バージョンには120 億のパラメーターがあり、これは GPT-3 の 1750 億よりもはるかに小さいです。

具体的な状況を理解するには、まずその発展の歴史から始める必要があります。

当初、OpenAIの研究者はGPT-3を使ってさまざまな実験を行い、GPT-3がPythonのコメントからいくつかの簡単なコードを生成できることを発見しました。

GPT-3 はこれまでコードでトレーニングされたことがなく、ブログや投稿の断片的なコードでのみトレーニングされていたため、彼らは非常に満足しました。

GPT-3 の自然言語における優れたパフォーマンスを考慮すると、GPT-3 のコードバージョンが特別にトレーニングされれば、間違いなく業界に再び衝撃を与えることになるでしょう。

そこで彼らは、最も多くのオープンソースコードを持つ「小さなパートナー」であるGitHub を見つけて協力することにしました。

最初は 179G の Python コードを取得しましたが、一部は長すぎ、一部は明らかに自動生成されたものでした。

これらの「標準以下の」コードを削除した後、最終的に残るコードサイズは159Gになります。

次のステップは、もちろん事前トレーニングを行い、これらすべてのコードを AI (Codex) に入力することです。

しかし、問題があります:

GitHub のオープンソースコードには必ずバグがあります。AI が問題のあるコードを大量に学習した場合、どうすればよいでしょうか?

実は、これは言うのは簡単です。事前トレーニングの後、さらに微調整を行う必要があります。

微調整するときは、プログラミングコンテストの正解と PyPI の信頼できるオープンソースコードを使用します。

最後に、Codex の 120 億パラメータバージョンは、質問の 28.81% に正しい回答を提供できます。

この精度は、以前のオープンソースコード事前トレーニングモデル GPT-Neo および GPT-J、および GPT-2 ベースのコード補完ツール TabNine の精度を上回ります。

この結果は良いのですが、実用化にはまだ少し遠いです。

しかし、OpenAI の研究チームにとってはこれは問題ではありません。

彼らはすぐに画期的な解決策を思いつきました。

人間がプログラミングをするとき、まずバージョンをリリースして、その後バグを繰り返し修正することが多いのではないでしょうか。

次に、AI に人間と同じように繰り返し修正させて 100 個のバージョンを作成し、その中から常に正しいバージョンをいくつか選び出すようにします。

この「量」を積み重ねる方法を使用すると、Codex の最終結果は次のようになります。

77.5% !

強いが、完全に強いわけではない

Codex の驚くべきパフォーマンスはかつてネットユーザーを驚かせた。

失業しちゃうよ！…

誰かがパブリックスクリーンに直接「さようなら、コンピューターサイエンスの学生の皆さん」と入力しました。

しかし、実際にデモンストレーション中に車が横転したので、それほど心配する必要はありません。

「共感をもって Hello World と言う」と入力した後も、Codex によって返される結果は「共感をもって Hello World と言う」のままです。

これは、Codex がまだ完璧ではないことを間接的に示しています。

OpenAIは次のように述べた。

120 億のパラメータを持つ Codex 12B でさえ、プログラミングを始めたばかりの学生には十分ではないかもしれません。

Codex は数億行のコードを学習していますが、これらのコードの大部分は「記憶」されており、プログラミング言語を真に理解しているわけではありません。

また、Codex では長い文字列を理解するのが困難です。

また、文字数が増えると、Codex のパフォーマンスは大幅に低下します。

私たちのパートナーである Microsoft Azure Cloud が十分な炭素排出枠を購入していなかったら、Codex は私たちに会うことができなかったかもしれません (犬の頭)。

さらに、Codex は、多くの変数と演算を含むコメントを理解する際にも間違いを犯します。

この例では、Codex の 120 億パラメータバージョンは変数 w を減算するのを忘れており、すべての数値の積を返しません。

これらは、まだプログラミングを学習している初心者プログラマーにとっては非常に使いにくいものです。

さらに、生成されたコードの正確性や正しさは保証できないため、セキュリティ上の問題に関して一定のリスクが存在します。

それだけでなく、OpenAIはCodexが人種差別的なコンテンツを生成するとも述べています。

社会的レベルでは、OpenAI は Codex の出現がプログラマーの雇用に影響を及ぼす可能性もあると示唆しており、悪用された場合はサイバー犯罪のリスクもある。

最後のポイントは環境問題です。

結局のところ、大規模なモデルであるため、そのパラメータの規模を過小評価することはできません。

試してみたいという方は、OpenAI が Python プログラミングコンテストも用意しており、Codex がパートナーとなって一緒に問題を解決します。

試合は8月13日北京時間午前1時に開始される予定で、中国にとってはあまり好ましい状況ではない。

<<: 生成的ビデオ圧縮を有効にする: Google は GAN を使用して HEVC に匹敵するパフォーマンスを実現

>>: ハイパーオートメーションの旅を始めましょう: 仕事のやり方を変え、運用プロセスを簡素化しましょう

自動化された機械学習は AI 研究の次の主流となるでしょうか?データサイエンティストの意見

OpenAIのライブ放送で音声コマンドAI自動プログラミングが披露されるが、Lao Luo TNTよりわずかに優れているだけ

入力する必要はありません。話しかけるだけです。

Codex の「魔法」はどのように機能するのでしょうか?

強いが、完全に強いわけではない

自動化された機械学習は AI 研究の次の主流となるでしょうか?データサイエンティストの意見

チューリング賞受賞者：人工知能を実装したものは、もはや人工知能とは呼ばれない

AIトレーニングの最大の障害は計算能力ではなく「メモリの壁」である

安全性は小さな問題ではありません。これがAI時代に彼らが選択することです

スマートなモノのインターネットを導入する時が来た

遅い二次アルゴリズムと高速なハッシュマップについての簡単な説明

自動運転トラックはレベル4を達成する可能性が最も高いが、自動運転車は2022年まで待たなければならない

すごい...正義のために親族を殺す？ Google AI、米国の月面着陸写真は偽物だと判定

VAE から拡散モデルへ: テキストを使用して画像を作成する新しいパラダイム

推薦する

大規模モデルは16,000以上の実世界のAPIを習得しており、清華大学などのToolLLMのツール使用能力はChatGPTに劣らない。

AIビッグモデルオープンソースヒーロー！ザッカーバーグ氏はLLaMAリークについて議会から質問を受けた。「慣れている」

初の高校向けAI基礎教科書が出版：唐暁氏が編集、重点中学校40校が導入

Java ME での衝突検出アルゴリズムの実装

DALL·Eの超進化により、写真の品質と芸術性が大幅に向上し、写真をシームレスに修正することもできるようになりました。

AIがクラウドに依存しない理由：将来AIは疎外される

人工知能とは何ですか?

中国のパフォーマンスがVLMの最高級GPT-4Vを上回り、アリ・クウェン-VLスーパーカップが期間限定で無料に！写真を見てプログラミングスキルを数秒で習得。視覚的な問題を一目で特定

AI+IoT: インテリジェント IoT (インダストリー 4.0 を含む) の需要が高い 5 つの業界

スポーツ業界における5つの重要なAI応用分野

トレーニングは不要、自動的にスケーラブルなビジュアルトランスフォーマーが登場

データセットに適したクラスタリングアルゴリズムを選択する方法

Google 検索と競合する FRESHLLM は、より少ない幻想とより正確な情報で「最新の出来事」を把握しています。

ビデオPSツール！文字の非表示と透かしの除去：CVPRで発表されたこの研究はオープンソース化されました