AIプログラミングは単なる空論なのでしょうか?調査: ChatGPT のソフトウェア開発に関する質問への回答エラー率は 50% を超える

AIプログラミングは単なる空論なのでしょうか?調査: ChatGPT のソフトウェア開発に関する質問への回答エラー率は 50% を超える

周知のとおり、宣伝されている ChatGPT は Python や Java を含む複数の言語でコードを記述できますが、最新の研究は驚くべきものです。

米国のパデュー大学が最近実施した調査によると、ChatGPT が StackOverflow に提出したソフトウェア開発に関する数百の質問に対する回答の半分以上が間違っていたそうです。

研究者らはまた、AIシステムによって生成された回答に多少の誤りが含まれていたにもかかわらず、34%のユーザーがStack Overflow上で人間のユーザーが投稿した回答よりもChatGPTによる回答を好んだことも発見した。

専門家は、開発者がプロ​​グラミングの問題を解決するために ChatGPT に依存し続けると、専門家としての評判が危険にさらされると述べています。

ChatGPTはプログラミングの質問に半分以上のエラーで答えます

ChatGPTは、2022年11月にOpenAIによってリリースされたチャットボットです。その背後にある主要なテクノロジーはGPT大規模言語モデルであり、その基礎モデルは、開発者に広く使用されているMicrosoft GithubコーディングアシスタントであるCopilotの作成にも使用されています。

パーデュー大学の研究は、オンラインで定期的に共有される質問に対する回答を提供するための ChatGPT の特性と使いやすさを包括的に調査した初めての研究です。チームはChatGPTに、以前にStack Overflowに投稿された517の質問に答えてもらい、正解を比較したところ、エラー率が半分以上であることを発見しました。

ChatGPTが世界中で人気を博すにつれ、Stack Overflowは今年初めにAI生成の返信を禁止した。当時、Stack Overflow は ChatGPT の回答を「表面的には良いが、間違いだらけ」と評した。

「ChatGPTやその他の生成AI技術によって生成された回答は、質問をして正しい答えを求めるユーザーにとって有害となる可能性がある」と当時、Stack Overflowの広報担当者は説明した。

OpenAI はリリース以来、ChatGPT プラットフォームとその基盤モデルに段階的な改善を加えてきましたが、GPT-4 に関しては、その応答は依然として不正確です。 Stack Overflow はその後 AI 技術を採用しましたが、それはコンテンツの分類のためだけに行われました。

パデュー大学の調査によると、ChatGPT が出した回答の半分以上は質問の概念を正しく理解していなかったために間違っていたことが判明しました。 「ChatGPTは問題を理解することができたとしても、その解決法は理解できなかった」と研究者らは報告書に記している。「問題の間違った部分に焦点を当てたり、問題の微妙な詳細を完全に理解せずに高レベルの解決策を提示したりすることが多々あった」

研究者らはまた、ChatGPT の推論能力にも限界があり、その結果を考慮せずに解決策、コード、数式を作成していることも発見しました。

OpenAI はこの欠点を認識していると伝えられている。これに対応して、OpenAIはChatGPTにコードインタープリターを追加し、AIがサンドボックスで作成したコードを実行してエラーをチェックし、出力の品質を評価し、最終的な応答を検証し、変更を加えて、より正確なソリューションを提供できるようにしました。ただし、この機能はまだベータ版であり、ChatGPT Plus のユーザーのみが利用できます。

ChatGPTの回答に頼っている開発者は危険にさらされている

しかし、ChatGPT には明らかな欠点があり、応答の 77% が人間の応答よりも長文であるという事実にもかかわらず、多くのユーザーはプログラミングに関する差し迫った質問に答えるために今でも ChatGPT に頼っています。

研究者らは、「39.34%のユーザーが、その包括性と明確な言語スタイルにより、ChatGPTの回答を依然として好んでいる。私たちの研究結果は、一見正しいように見えるChatGPTの回答のリスクをユーザーに認識させながら、ChatGPTのエラーを慎重にチェックして修正する必要があることを示している」と主張した。

ITコンサルティングおよびサービスプロバイダーであるDoherty Associatesのエンタープライズアーキテクチャディレクターであるオーウェン・モリス氏は、AIの使用には多くの利点があるが、欠点もあるため、ユーザーはChatGPTなどのプラットフォームを使用する前に常にそれを考慮する必要がある、と述べています。

「ChatGPT のようなツールは、トレーニングに使用したデータ (インターネットやその他のソースから収集したデータを含む) に基づいて洞察を提供しますが、バイアスも保持されるため、正確性と付加価値を得るには人間の関与が不可欠です」と同氏は述べました。「モデルの適用性を高めるために、独自のチームを活用して、独自のドメイン固有の知識とデータを提供できるようにすることを忘れないでください。」

彼は、ソフトウェア開発に関してChatGPTが提供する回答を批判的に評価する人間による監視がなければ、開発者は開発作業に不正確な情報や有害な情報を取り入れてしまう大きなリスクに直面し、プログラミングの品質や専門家としての評判にさえ影響が出るだろうと警告した。

<<:  TabR: 検索拡張により、深層学習は表形式データで勾配ブースティング モデルを上回るパフォーマンスを発揮できるようになりますか?

>>:  OpenAIは米国で以前に申請していた「GPT-5」の商標を中国で登録申請した。

推薦する

人工知能の主要技術分野のレビュー

[[441598]] AI への準備プロセスの多くは組織の変更です。人工知能の利用には、ニューカラー...

...

大規模言語モデルとAIコードジェネレータの台頭

翻訳者 |李睿レビュー | Chonglouこの記事の著者であるMartin Heller は、 W...

写真にピクセルレベルの透かしをひっそり追加: AI による芸術作品の「盗作」を防ぐ方法が発見されました

オープンソースのAI画像生成モデル「Stable Diffusion」のリリース以来、デジタルアート...

人工知能の舞台裏:マイクロソフトとOpenAIのスーパーコンピューターはアイオワ州で大量の水を消費している

9月10日、マイクロソフトとOpenAIが共同開発した人工知能システム「ChatGPT」のトレーニ...

私の国は、5G、人工知能、自動運転で目覚ましい成果を上げ、革新的な国の仲間入りを果たしました。

世界の潮流は力強く前進しています。科学研究​​と探究のペースを止めれば、井戸の中で空を眺め、満足して...

スマートテクノロジーは小売業界にどのような影響を与えるでしょうか?

過去数年間、小売業界はテクノロジーによって革命を起こしてきました。店舗の日々の運営方法から、消費者の...

...

...

アリババ、1秒でフェイクニュースを暴く「AI噂クラッシャー」を正式リリース

[[261230]]エイプリルフールは私たちにとってただ楽しい日です。親にとって、ネット上の噂は日々...

2022年にJAXを使うべきでしょうか? GitHubには16,000個のスターがあるが、この若いツールは完璧ではない

2018 年後半の発売以来、JAX の人気は着実に高まっています。 2020年、DeepMindは研...

BEV におけるデータセット間レーダーカメラ融合に関する実験的研究

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

研究により機械学習のバックドア問題が発見される

翻訳者 | 李睿校正:孫淑娟第三者が機械学習モデルを提供し、そこに悪意のあるバックドアを密かに埋め込...

エッジ AI について知っておくべきことすべて

エッジ AI では、システムを他のシステムに接続する必要がないため、ユーザーはデータをリアルタイムで...