AIプログラミングは単なる空論なのでしょうか?調査: ChatGPT のソフトウェア開発に関する質問への回答エラー率は 50% を超える

AIプログラミングは単なる空論なのでしょうか?調査: ChatGPT のソフトウェア開発に関する質問への回答エラー率は 50% を超える

周知のとおり、宣伝されている ChatGPT は Python や Java を含む複数の言語でコードを記述できますが、最新の研究は驚くべきものです。

米国のパデュー大学が最近実施した調査によると、ChatGPT が StackOverflow に提出したソフトウェア開発に関する数百の質問に対する回答の半分以上が間違っていたそうです。

研究者らはまた、AIシステムによって生成された回答に多少の誤りが含まれていたにもかかわらず、34%のユーザーがStack Overflow上で人間のユーザーが投稿した回答よりもChatGPTによる回答を好んだことも発見した。

専門家は、開発者がプロ​​グラミングの問題を解決するために ChatGPT に依存し続けると、専門家としての評判が危険にさらされると述べています。

ChatGPTはプログラミングの質問に半分以上のエラーで答えます

ChatGPTは、2022年11月にOpenAIによってリリースされたチャットボットです。その背後にある主要なテクノロジーはGPT大規模言語モデルであり、その基礎モデルは、開発者に広く使用されているMicrosoft GithubコーディングアシスタントであるCopilotの作成にも使用されています。

パーデュー大学の研究は、オンラインで定期的に共有される質問に対する回答を提供するための ChatGPT の特性と使いやすさを包括的に調査した初めての研究です。チームはChatGPTに、以前にStack Overflowに投稿された517の質問に答えてもらい、正解を比較したところ、エラー率が半分以上であることを発見しました。

ChatGPTが世界中で人気を博すにつれ、Stack Overflowは今年初めにAI生成の返信を禁止した。当時、Stack Overflow は ChatGPT の回答を「表面的には良いが、間違いだらけ」と評した。

「ChatGPTやその他の生成AI技術によって生成された回答は、質問をして正しい答えを求めるユーザーにとって有害となる可能性がある」と当時、Stack Overflowの広報担当者は説明した。

OpenAI はリリース以来、ChatGPT プラットフォームとその基盤モデルに段階的な改善を加えてきましたが、GPT-4 に関しては、その応答は依然として不正確です。 Stack Overflow はその後 AI 技術を採用しましたが、それはコンテンツの分類のためだけに行われました。

パデュー大学の調査によると、ChatGPT が出した回答の半分以上は質問の概念を正しく理解していなかったために間違っていたことが判明しました。 「ChatGPTは問題を理解することができたとしても、その解決法は理解できなかった」と研究者らは報告書に記している。「問題の間違った部分に焦点を当てたり、問題の微妙な詳細を完全に理解せずに高レベルの解決策を提示したりすることが多々あった」

研究者らはまた、ChatGPT の推論能力にも限界があり、その結果を考慮せずに解決策、コード、数式を作成していることも発見しました。

OpenAI はこの欠点を認識していると伝えられている。これに対応して、OpenAIはChatGPTにコードインタープリターを追加し、AIがサンドボックスで作成したコードを実行してエラーをチェックし、出力の品質を評価し、最終的な応答を検証し、変更を加えて、より正確なソリューションを提供できるようにしました。ただし、この機能はまだベータ版であり、ChatGPT Plus のユーザーのみが利用できます。

ChatGPTの回答に頼っている開発者は危険にさらされている

しかし、ChatGPT には明らかな欠点があり、応答の 77% が人間の応答よりも長文であるという事実にもかかわらず、多くのユーザーはプログラミングに関する差し迫った質問に答えるために今でも ChatGPT に頼っています。

研究者らは、「39.34%のユーザーが、その包括性と明確な言語スタイルにより、ChatGPTの回答を依然として好んでいる。私たちの研究結果は、一見正しいように見えるChatGPTの回答のリスクをユーザーに認識させながら、ChatGPTのエラーを慎重にチェックして修正する必要があることを示している」と主張した。

ITコンサルティングおよびサービスプロバイダーであるDoherty Associatesのエンタープライズアーキテクチャディレクターであるオーウェン・モリス氏は、AIの使用には多くの利点があるが、欠点もあるため、ユーザーはChatGPTなどのプラットフォームを使用する前に常にそれを考慮する必要がある、と述べています。

「ChatGPT のようなツールは、トレーニングに使用したデータ (インターネットやその他のソースから収集したデータを含む) に基づいて洞察を提供しますが、バイアスも保持されるため、正確性と付加価値を得るには人間の関与が不可欠です」と同氏は述べました。「モデルの適用性を高めるために、独自のチームを活用して、独自のドメイン固有の知識とデータを提供できるようにすることを忘れないでください。」

彼は、ソフトウェア開発に関してChatGPTが提供する回答を批判的に評価する人間による監視がなければ、開発者は開発作業に不正確な情報や有害な情報を取り入れてしまう大きなリスクに直面し、プログラミングの品質や専門家としての評判にさえ影響が出るだろうと警告した。

<<:  TabR: 検索拡張により、深層学習は表形式データで勾配ブースティング モデルを上回るパフォーマンスを発揮できるようになりますか?

>>:  OpenAIは米国で以前に申請していた「GPT-5」の商標を中国で登録申請した。

ブログ    
ブログ    

推薦する

フォークス写真ツール:顔認識システムを密かに汚染

海外メディアの報道によると、インターネットには数十億枚の写真が溢れており、その多くは放置されたアカウ...

新参者と大企業が直接会うとき、研究室なしではやっていけないことがよくある | T Guanhai

インタビューゲスト | アンジー・チュー、ロージー・チャン編集者 | ユン・チャオ海を観察する人は、...

ByteDance Wanka Cluster の技術詳細が明らかに: GPT-3 トレーニングが 2 日間で完了、コンピューティング パワーの使用率は Nvidia Megatron-LM を上回る

Sora のテクノロジーの分析が進むにつれて、 AI インフラストラクチャの重要性がますます明らかに...

「ビッグモデルは基本的に2つのファイルです!」テスラの元AIディレクターが一般向けに1時間にわたるLLMポピュラーサイエンスを披露

テスラの元AIディレクター、アンドレイ・カルパシー氏の新しいチュートリアルが話題になっている。今回、...

AI顔認識:スマート監視を開発する方法

顔認識技術は継続的に発展しており、スマート監視システムの開発に貢献しています。これらのシステムにより...

人工知能のトップ 10 トレンド。チャンスをつかんで全力で取り組みましょう。さもないと、私たち全員が解雇されてしまいます。

トレンド1:中国の潜在力が爆発し、米国の優位性が揺らぐ[[226879]] 2017年、中国の人工知...

AI エキスパート: ビッグデータ ナレッジ グラフ - 実践経験のまとめ

データ サイエンティストとして、業界のトップ ナレッジ グラフをまとめ、技術専門家と共有して、ビッグ...

AIoT: IoTと人工知能の完璧な組み合わせ

ビッグデータを備えたモノのインターネットは産業用 IoT を企業の神経系と考えてください。これは、生...

シアトル港が機械学習を活用して航空貨物業務を効率化する方法

シアトル港は100年以上の歴史がありますが、非常に新しい技術を導入しています。シアトル港とシアトル・...

人工知能に関するTEDトークトップ10

この一連の講演では、人工知能 (AI) と機械学習に関する興味深い議論やセッションを「全体像」の観点...

...

モバイルロボットソフトウェアの自動テストの課題への対応

自動化されたモバイル ホーム ロボットの複雑さを探り、セットアップの特有の課題と制約の克服に焦点を当...

AIアルゴリズムエンジニアの涙の体験談

[[425033]]私たちはしばらくの間、展開モデルの最適化に取り組んできました。ここ数日でようやく...

トークンとメモリを理解することによってのみ、ChatGPT をよりよくマスターできます。

著者: ラセル・コーン編纂者:ヤン・ジェンChatGPT のような大規模言語モデル (LLM) は ...