突然、大規模なモデリングコミュニティ全体が同じことについて話すようになりました。 マイクロソフトの論文に掲載された「一見すると特筆すべき点がない」統計チャートが、実は秘密を明かしていた。 世界を席巻したChatGPTは、たった200億のパラメータを持つ大規模なモデルを持っているのでしょうか? ? ? 論文が発表されると、国内外で大きな注目を集めた。 多くのネットユーザーはまだそれを信じていません。スペルが間違っていないのは確かですか? 一部のネットユーザーはこう言った。「OpenAIがオープンソースに対してそれほど神経質になるのも無理はない」あるいは、これは OpenAI がオープンソース化するための準備なのかもしれません。 偶然にも、ほんの数日前、一部のネットユーザーが GitHub Copilot API で疑わしい新しい GPT-4 モデルcopilot-gpt-4-2 を発見し、そのモデルに含まれる知識は 2023 年 3 月に更新されました。 この論文には何が書いてあるのですか?秘密が漏洩しているだけでなく、この論文自体も読む価値があります。コード生成に拡散モデルを使用する業界初の論文だからです。 研究チームは次のようなシナリオを想定しました。
自然言語からコードを生成する自己回帰モデルにも同様の制限があり、以前に生成されたトークンを再検討するのは容易ではありません。 Microsoft の研究者は、エンコード/デコード アーキテクチャを使用する CODEFUSION を提案しました。主にエンコーダー、デコーダー、ノイズ除去装置、分類ヘッドで構成されます。自然言語入力を連続表現にエンコードし、その追加条件を拡散モデルに入力して、ガウス ノイズを使用した反復的なノイズ除去を行います。 文法的に正しいコードを生成するために、ノイズ除去後にデコーダーでコード トークンが取得され、CODEFUSION はコードの連続パラグラフ ノイズ除去 (CPD) タスクによって事前トレーニングされます。 CODEFUSION は、Python、Bash、Excel 条件付き書式 (CF) ルールの 3 つの言語タスクで評価されました。 結果によると、7,500 万パラメータの規模での CODEFUSION のパフォーマンスは、200 億パラメータの GPT-3.5-turbo のパフォーマンスに近く、より多様なコードも生成します。 プレーンテキストから生成された拡散モデルと比較すると、CODEFUSION はより文法的に正しいコードを生成します。また、自己回帰モデルと比較すると、より多様な候補コードを生成します。 トップ 1 の精度に関しては最先端の自己回帰システム (350M-175B パラメータ) と同等のパフォーマンスを発揮し、多様性と品質のバランスが優れているため、トップ 3 およびトップ 5 の精度に関してはそれらを上回ります。 これは単なる通常のパフォーマンス比較であることが判明しましたが、予想外にこのような騒ぎを引き起こしました。 陰謀論を唱える人もいますが、これは OpenAI のオープンソースの「前菜」であり、意図的に行われたのかもしれません。 多くの大規模モデルが追いついており、今年5月には、OpenAIが新しい大規模言語モデルをオープンソース化する準備をしているというニュースがロイター通信によって報じられた。 もう一つ今年 2 月には、Forbes のニュース レポートで ChatGPT のパラメーターが 200 億個しかないことが明らかになったことは注目に値します。 当時のタイトルは「大きい方がよいのか? ChatGPT VS GPT-3 VS GPT-4 の「戦い」が単なる家族チャットであるのはなぜか?」でした。 ただ、当時は気にする人はあまりいなかったのです。 参考リンク: |
<<: AIが推理ボードゲームをプレイし、詐欺を一目で見抜く!清華大学経営学院は共同で心の理論の新しい枠組みを立ち上げ、評価における6つの指標のパフォーマンスは思考連鎖よりも大幅に優れていた。
>>: AI プログラミング: GitHub Copilot と Amazon CodeWhisperer の詳細な比較
誰もがモデルをより速くトレーニングしたいと考えていますが、本当に適切なアプローチを探していますか?コ...
最近、中山大学は常識に基づいた偏りのない視覚的質問応答データセット (Knowledge-Route...
[[401318]]人工知能はリアルタイムで意思決定を行う能力があり、事前にプログラムされたアルゴリ...
自動運転車の登場は私たちの生活のあらゆる側面に影響を与え、変化をもたらすでしょう。未来はどうなるの...
人工知能の急速な発展は目まぐるしく、教育、特に教師への影響は甚大です。人工知能は、退屈で面倒な仕事に...
人工知能は物流業界の変革において重要な役割を果たしていることが証明されています。グローバル化が加速す...
光ファイバーを光子のメモリとして使用し、光子メモリを使用してフォールトトレラント量子コンピューティン...
本稿では、トポロジカルデータ分析 (TDA) の基本原理を紹介し、事例を示し、この方法が視覚分析を効...
Buddy CompilerのエンドツーエンドLLaMA2-7B推論例がbuddy-mlirリポジト...
[[316024]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
IBM と Meta のパートナーおよび協力者には、AMD、Intel、NASA、CERN、Hugg...
常温・常圧超伝導が再び突破された?今回は韓国の科学者たちです。彼らは、世界初の常温常圧超伝導体、すな...
最近、Redditユーザーが、2005年にリリースされたクラシックゲーム「ニード・フォー・スピード9...