コーディング能力はGPT-4を超え、このモデルはBig Codeランキングでトップとなり、YC創設者も賞賛している

コーディング能力はGPT-4を超え、このモデルはBig Codeランキングでトップとなり、YC創設者も賞賛している

GPT-4を上回るコーディング能力を持つと主張するモデルが、多くのネットユーザーの注目を集めている。

精度はGPT-4より10%以上高く、速度はGPT-3.5に近く、ウィンドウの長さも長くなっています。

開発者によれば、彼らのモデルは Pass@1 率 74.7% を達成し、オリジナルの GPT-4 の 67% を上回り、Big Code リストでトップになったとのことです。


このモデルは、それをベースにした開発者向け AI 検索ツールにちなんで Phind と呼ばれています。

CodeLlama-34B をベースに開発チームによって微調整されました。

Phind は、TensorRT-LLM を使用して H100 上で 1 秒あたり 100 トークンの速度で実行できます。これは GPT-4 の 5 倍です。

さらに、Phind のコンテキスト長は 16k に達し、そのうち 12k はユーザー入力に使用でき、残りの 4k は検索結果のテキスト用に予約されています。

この製品に関しては、ネットユーザーの間で多くの議論が交わされており、その結果はまちまちです。

有名なベンチャーキャピタル会社Yコンビネーターの創設者ポール・グラハム氏などの支持者は、Phindによって、より少ないリソースで大企業と競争できるようになると述べた。

一部のネットユーザーもPhindの利点を詳しく挙げている。

Phindに反対するネットユーザーの中には、以前GPT-4で書いたコードはPhindでは書けないと言う人もいる。

GPT は「毎日負けている」が、決して上回られたことはないと不満を言う人もいました。

興味深いことに、Phind アプリケーションでは、独自に開発されたモデルは「高速モデル」と呼ばれていますが、「最良モデル」は依然として GPT-4 です。

(明示的には述べられていないが、GPT-4の残り使用可能時間と最適モデルは同期して変化する)

そこで、「GPT-4 を打ち負かした」と主張するこのモデルが本当に有用なのかを確かめるために、実際にテストを実施しました。

Phind 対 GPT-4

正式に始める前に、Phind の第一印象についてお話ししたいと思います。

インターフェースは非常にシンプルで、主に検索ボックスで構成されており、ログインせずに無制限に使用できます。

左下隅にペアプログラマースイッチがあります。直感的な違いは、オンにすると回答インターフェースが対話に重点を置き、オンにしないと検索エンジンのようなものになるということです。

さらに、独自開発モデルやGPT-4も選択できます。GPT-4はログインが必要で、1日10回しか利用できません。

次のステップは、コードインタープリターがオンになっていない GPT-4 との比較テストです。

まず、LeetCode の質問から始めます。プロンプトは、元の質問に次の段落を加えたものです。

Python を使用してこの問題を解決し、一般的な解決策を示すコードを記述してください。パラメータ値を設定する必要はありません。コードは次のように始まる必要があります。
(LeetCode ページに記載されている開始スニペット)

Phind が検索によって「不正行為」するのを防ぐために、Phind のプロンプトの最後に次の文も追加しました。

情報を取得せず、自分でコードを作成してください

最初の問題は、LeetCode では組み合わせ数学の問題として分類されており、難易度は難しい、合格率は 67.1% です。

Phind はそのようなコードと説明を提供しました。テストの結果、20 個のテスト データのうち 19 個が正しかったです。

エラーはこの行にあります。ここでの出力は 3 になるはずですが、Phind によって返されるプログラム実行結果は 4 です。

エラーの原因を見つけられるかどうかを調べるために、Phin にフィードバックしてみました。分析後、テストに合格する新しいコードが見つかりました。

一方、GPT-4 は 1 回で合格しました。

次の質問に移りますが、この質問は動的計画法に関するもので、合格率は 53.9% です。

今回は、Phind と GPT-4 の両方を 1 回のパスでテストしました。

3 番目の質問の合格率は 30% 程度しかありませんが、その難しさは、質問を判断するために使用されるテスト データが大きすぎることにあると考えられます。

Phind によって提供されたコードは、最初の 12 個のテスト データ セットを通過した後、時間切れになりました。

最適化を試みるように指示しましたが、今回は単に計算が間違っていました。


GPT-4 は簡単に解けましたが、スーパー回文の概念が「正方形は回文である」ではなく「回文の正方形」と説明されているため、説明に誤りがありました。

3 つの LeetCode の質問をテストした後、Phind は 1 引き分け、2 敗で GPT-4 に負けました。

ただし、モデル自体のパフォーマンスをテストするために、プロンプトワードによる Phind の検索機能をオフにしたことに注意してください。ただし、実用的な観点からは、検索が保持されている場合、Phind はこれらの問題をうまく解決できます。

次に、今度はマインスイーパーゲームで実際の開発能力をテストしました。

Phind は特別な要件があるかどうかを尋ねます。この手順はスキップできます。

Phind はタスクを細分化し、各サブタスクを個別に検索します。

この時点でのコードもセクションごとに提供されています。興味深いことに、生成プロセス中に、Phind はさまざまなソースからのコードを使用します。

次に、Phind に完全なコードを提供させ、リンクされたサードパーティ プラットフォームを通じて直接実行します。

その結果、プログラムに入るとすぐに、プログラムが地雷の位置を非常に「配慮して」明確にマークしていることがわかりました。

しかし、今回の GPT-4 コードはさらに驚くべきもので、次のように実行されます。

どちらも正しく実行したわけではありませんが、比較すると、このラウンドでは Phind がわずかに有利です。

これらすべてをテストした後、どれが優れているかを判断するのは難しいですが、検索機能と、無料でログインが不要であるという事実を考慮すると、Phind は依然として注目に値します。

参考リンク:

https://www.phind.com/blog/phind-model-beats-gpt4-fast.

<<:  量子コンピューティングは今後10年間で物流業界を変えるだろう

>>:  北京大学のチームは、ChatGPTにとって頭痛の種であったアルゴリズムの最適化を解決し、普通のラップトップでも実行できるようにした。

ブログ    
ブログ    
ブログ    

推薦する

あなたは知っていますか?注文するテイクアウトはすべて、ディープラーニングとの美しい出会いです

[[196940]]多くの学生は、フードデリバリーはオンラインで注文し、オフラインで配達するビジネス...

才能の「脳」が人的資本管理の変化を解き放つ

黄金の3月と銀の4月の採用シーズンが再び到来しました。 [[324006]]疫病の影響を受け、キャン...

AI初心者ガイド: MLとAIの違いを理解する

[51CTO.com クイック翻訳] 人工知能は現在、さまざまなハイテク分野で話題になっています。初...

脳に WiFi を入れると麻痺が治る?麻痺したサルが6日で普通に歩けるようになる

インターネットの普及は無線技術の発達に伴い、人々のライフスタイルも変えつつあります。モバイル決済、無...

AIインテリジェンスを活用して企業の効率性を向上させる方法

人工知能はさまざまな分野から深い注目を集めており、人工知能分野のディープラーニングとインテリジェント...

AIオープンクラス | データのラベル付けについてはあまりご存じないのではないでしょうか?

人工知能の分野が日々急速な発展と進歩を遂げていることは疑いの余地がありません。携帯電話の電源を入れ、...

AIが書いた記事は教師を本当に騙すことができる

過去数年間、機械学習 (ML) と人工知能 (AI) の専門家は、以前は完全に人間が実行できると考え...

AIによるIoT革命:なぜ両者が完璧に適合するのか

モノのインターネットは、私たちの生活様式を変えるのと同様に、学習方法も変えています。 AI の専門家...

Google は NeRF を使用して、自動運転用の仮想世界でサンフランシスコを再現します

自動運転システムのトレーニングには、高精度のマップ、膨大な量のデータ、仮想環境が必要です。この方向で...

JavaScript でアルゴリズムの複雑さを学ぶ

この記事では、アルゴリズムの文脈における「二次」や「n log(n)」などの用語の意味について説明し...

機械学習が失敗したらどうするか: 計算学習理論

導入顔認識モデルを構築し、検証セットを使用してテスト セットでの実験のパラメータを調整しているとしま...

...

インテリジェントオートメーションが現代の職場に与える影響

インテリジェントオートメーションは現代の職場をさまざまな形で変えていますCOVID-19パンデミック...

AIがセキュリティの自動化、分析、対応にどのように役立つか

人工知能 (AI) は、チャットボットから自動運転車まで、あらゆるものを説明するために使用できる幅広...

世界最高の AI 教育会社はどこでしょうか?米国、中国、欧州、イスラエルが先頭を走る

GoogleがモバイルファーストではなくAIファーストを語り、テンセントがAIをあらゆるものに取り入...