GPT-4を上回るコーディング能力を持つと主張するモデルが、多くのネットユーザーの注目を集めている。 精度はGPT-4より10%以上高く、速度はGPT-3.5に近く、ウィンドウの長さも長くなっています。 開発者によれば、彼らのモデルは Pass@1 率 74.7% を達成し、オリジナルの GPT-4 の 67% を上回り、Big Code リストでトップになったとのことです。 このモデルは、それをベースにした開発者向け AI 検索ツールにちなんで Phind と呼ばれています。 CodeLlama-34B をベースに開発チームによって微調整されました。 Phind は、TensorRT-LLM を使用して H100 上で 1 秒あたり 100 トークンの速度で実行できます。これは GPT-4 の 5 倍です。 さらに、Phind のコンテキスト長は 16k に達し、そのうち 12k はユーザー入力に使用でき、残りの 4k は検索結果のテキスト用に予約されています。 この製品に関しては、ネットユーザーの間で多くの議論が交わされており、その結果はまちまちです。 有名なベンチャーキャピタル会社Yコンビネーターの創設者ポール・グラハム氏などの支持者は、Phindによって、より少ないリソースで大企業と競争できるようになると述べた。 一部のネットユーザーもPhindの利点を詳しく挙げている。 Phindに反対するネットユーザーの中には、以前GPT-4で書いたコードはPhindでは書けないと言う人もいる。 GPT は「毎日負けている」が、決して上回られたことはないと不満を言う人もいました。 興味深いことに、Phind アプリケーションでは、独自に開発されたモデルは「高速モデル」と呼ばれていますが、「最良モデル」は依然として GPT-4 です。 (明示的には述べられていないが、GPT-4の残り使用可能時間と最適モデルは同期して変化する) そこで、「GPT-4 を打ち負かした」と主張するこのモデルが本当に有用なのかを確かめるために、実際にテストを実施しました。 Phind 対 GPT-4正式に始める前に、Phind の第一印象についてお話ししたいと思います。 インターフェースは非常にシンプルで、主に検索ボックスで構成されており、ログインせずに無制限に使用できます。 左下隅にペアプログラマースイッチがあります。直感的な違いは、オンにすると回答インターフェースが対話に重点を置き、オンにしないと検索エンジンのようなものになるということです。 さらに、独自開発モデルやGPT-4も選択できます。GPT-4はログインが必要で、1日10回しか利用できません。 次のステップは、コードインタープリターがオンになっていない GPT-4 との比較テストです。 まず、LeetCode の質問から始めます。プロンプトは、元の質問に次の段落を加えたものです。
Phind が検索によって「不正行為」するのを防ぐために、Phind のプロンプトの最後に次の文も追加しました。
最初の問題は、LeetCode では組み合わせ数学の問題として分類されており、難易度は難しい、合格率は 67.1% です。 Phind はそのようなコードと説明を提供しました。テストの結果、20 個のテスト データのうち 19 個が正しかったです。 エラーはこの行にあります。ここでの出力は 3 になるはずですが、Phind によって返されるプログラム実行結果は 4 です。 エラーの原因を見つけられるかどうかを調べるために、Phin にフィードバックしてみました。分析後、テストに合格する新しいコードが見つかりました。 一方、GPT-4 は 1 回で合格しました。 次の質問に移りますが、この質問は動的計画法に関するもので、合格率は 53.9% です。 今回は、Phind と GPT-4 の両方を 1 回のパスでテストしました。 3 番目の質問の合格率は 30% 程度しかありませんが、その難しさは、質問を判断するために使用されるテスト データが大きすぎることにあると考えられます。 Phind によって提供されたコードは、最初の 12 個のテスト データ セットを通過した後、時間切れになりました。 最適化を試みるように指示しましたが、今回は単に計算が間違っていました。 GPT-4 は簡単に解けましたが、スーパー回文の概念が「正方形は回文である」ではなく「回文の正方形」と説明されているため、説明に誤りがありました。 3 つの LeetCode の質問をテストした後、Phind は 1 引き分け、2 敗で GPT-4 に負けました。 ただし、モデル自体のパフォーマンスをテストするために、プロンプトワードによる Phind の検索機能をオフにしたことに注意してください。ただし、実用的な観点からは、検索が保持されている場合、Phind はこれらの問題をうまく解決できます。 次に、今度はマインスイーパーゲームで実際の開発能力をテストしました。 Phind は特別な要件があるかどうかを尋ねます。この手順はスキップできます。 Phind はタスクを細分化し、各サブタスクを個別に検索します。 この時点でのコードもセクションごとに提供されています。興味深いことに、生成プロセス中に、Phind はさまざまなソースからのコードを使用します。 次に、Phind に完全なコードを提供させ、リンクされたサードパーティ プラットフォームを通じて直接実行します。 その結果、プログラムに入るとすぐに、プログラムが地雷の位置を非常に「配慮して」明確にマークしていることがわかりました。 しかし、今回の GPT-4 コードはさらに驚くべきもので、次のように実行されます。 どちらも正しく実行したわけではありませんが、比較すると、このラウンドでは Phind がわずかに有利です。 これらすべてをテストした後、どれが優れているかを判断するのは難しいですが、検索機能と、無料でログインが不要であるという事実を考慮すると、Phind は依然として注目に値します。 参考リンク: https://www.phind.com/blog/phind-model-beats-gpt4-fast. |
<<: 量子コンピューティングは今後10年間で物流業界を変えるだろう
>>: 北京大学のチームは、ChatGPTにとって頭痛の種であったアルゴリズムの最適化を解決し、普通のラップトップでも実行できるようにした。
1. はじめに近年、人工知能(AI)の進歩により、さまざまな業界に革命が起きています。 ChatGP...
最近、梅雨の到来により、わが国の多くの都市が洪水期に突入し、南部のほとんどの都市が激しい暴風雨、洪水...
今年は生成AI技術が大変人気です。ChatGPTの登場以来、多くの大規模な生成AIモデルが雨後の筍の...
顔認識技術は人間の顔の特徴に基づいています。まず、入力された顔画像またはビデオ ストリームに顔がある...
最近、OpenAI は、最新の生成人工知能モデル GPT-4 を使用してコンテンツレビューを行い、手...
任意のポーズの写真を入力し、写真の人物に「指定された動画」の動きを真似してもらうのは簡単ではありませ...
[[206924]]自然言語処理の分野では、ディープラーニングによって、より多くのデータが必要でも言...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[406029]] [51CTO.com クイック翻訳]人工知能 (AI) 研究の分野では、Ten...
11月14日、海外メディアの報道によると、OpenAIはGPT-5の構築を開始した。同社のCEOサム...
Siri に道順を尋ねるたびに、複雑なコード列がアクティブ化され、「Siri」は質問を理解し、必要...
昨年 6 月に Google Brain チームが発表した 43 ページの論文「Scaling Vi...
9月21日のニュース、水曜日、アマゾンは毎年恒例の新製品発表会で、生成型人工知能技術を統合した一連の...