ウルトラマンの顔を平手打ちしろ、GPT-4 は今年は去年よりも怠惰だ!ネットユーザーによるオンラインテスト結果

GPT-4 が怠惰になる問題の解決に新たな進歩があります。

今朝、ウルトラマンが、新年には GPT-4 の問題が大幅に改善されるはずだとツイートしました。

写真

GPT-4 が怠惰になることについての苦情は数え切れないほどありますが、そのほとんどはコード関連のタスクに関するものです。

完成度が高くないだけでなく、細かく分割されてしまうため、使用時に一つずつコピーする必要があります。

最新バージョンについては、あるブロガーが体験して、小学1年生の子供のためにちょっとした学習ゲームを作ってみたところ、なかなかの効果が得られたと語っていました。

写真

しかし、反対する人もいます。たとえば、このネットユーザーは、ChatGPT の返信の長さは増えているものの、その多くは繰り返しになっており、作業がまだ十分に行われていないことに気づきました。

彼は ChatGPT にテキストを 17 の言語に翻訳するように依頼しましたが、意味不明な内容が大量に表示されただけで、翻訳されませんでした。

写真

個人差を排除するために、一部のネットユーザーがデータセットを使用して新しい ChatGPT をテストしたところ、結果は...

新しいバージョンはさらに怠惰ですか?

このネットユーザーは、GitHubでオープンソースの「怠惰なベンチマーク」セットを使用して、0125（1月24日の最新バージョン）と1106（11月23日の前バージョン）のGPT-4モデルをテストし、新しいバージョンが以前よりもさらに悪く、より怠惰になっていることを発見しました。

写真

このテストデータセットにはコード関連のタスクが含まれており、正しい完了率は間接的に「怠惰」の度合いを反映します。完了率が高いほど、「怠惰」が少なくなります。

その結果、コード比較（Unified diff）タスクでは、旧バージョンでは半分以上の 57% を完了できましたが、新バージョンの完了率はわずか 44% で、ほぼ 4 分の 1 減少しました。

写真

直感的に、ChatGPT の「怠惰さ」が悪化していると感じた人もいました。

以前は、たとえ怠け者であっても、少なくとも試してみて、ユーザーが自分で埋められるような大まかな枠組みを提供していました。しかし、今では、彼らはただ諦めて、できないと言います。

写真

ネットユーザーのこの発見に対して、一部の人々は辛辣なコメントを寄せた。

数週間前、アルトマン氏は GPT-4 のパフォーマンスが向上したと述べましたが、その違いを感じた人はいますか?

写真

今回、ウルトラマンは、GPT-4 がなぜ遅延するようになったのか、どのような最適化戦略が採用されたのかについて、さらに詳しく説明しませんでした。

「自家製の方法」は怠惰を減らすことができる

しかし、以前の研究では、GPT-4の怠惰さは時間と関係している可能性があることが示されており、この結論は、GPT-4が年末の12月に「怠惰」になったという事実と一致しています。

写真

この理論によれば、モデルのパフォーマンスは確かに新年の初めには向上するはずですが、パフォーマンスが向上せずに低下した理由は説明されていないようです。

しかし、ネットユーザーたちは、ChatGPTの慣性をある程度まで軽減できる「家庭療法」もいくつかまとめています。

たとえば、「指がない」と伝えると、断片的なコードではなく、比較的完全なコードを取得できます。

写真

あるいは、ChatGPT に「チップをあげる」と伝えることでも、動作を促すことができます。

「チップ」の金額について調査を行ったところ、10ドルが最も費用対効果が高いことが判明した人もいます。

写真

それで、ChatGPT は良くなったと思いますか、それとも怠惰になったと思いますか?

参考リンク:
[1] https://twitter.com/sama/status/1754172149378810118

[2] https://aider.chat/docs/benchmarks-0125.html

<<: 口を使ってiPhoneで10秒写真編集！ UCSB Appleの中国人チームがマルチモーダルMGIEをリリース、オープンソースで誰でもプレイできることを公式発表

>>:

畳み込みニューラルネットワークの基礎を1つの記事で学びます。

ブログ

2020 年に役に立つ機械学習ツール

ブログ

Google、3年ぶりの検索エンジンアルゴリズムの改良を発表

ブログ

TensorFlow には重大なバグがあり、Keras と併用すると重量が減る可能性があるが、まだ修正されていない。

ブログ

マーケターがAIと機械学習を活用して顧客にリーチする方法

ブログ

注目の開発スキル5つについて学ぶ

ブログ

新しい消費者向け IoT と人工知能の開発を加速させる機会は何でしょうか?

ブログ

XiaomiのFALSRアルゴリズムが正式にオープンソース化され、画像超解像エンジニアリングアプリケーションに大きな進歩をもたらしました。

ブログ

人工知能：人種差別との戦いにおける次のフロンティア？

ブログ

ウルトラマンの顔を平手打ちしろ、GPT-4 は今年は去年よりも怠惰だ!ネットユーザーによるオンラインテスト結果

新しいバージョンはさらに怠惰ですか?

「自家製の方法」は怠惰を減らすことができる

畳み込みニューラルネットワークの基礎を1つの記事で学びます。

2020 年に役に立つ機械学習ツール

Google、3年ぶりの検索エンジンアルゴリズムの改良を発表

TensorFlow には重大なバグがあり、Keras と併用すると重量が減る可能性があるが、まだ修正されていない。

マーケターがAIと機械学習を活用して顧客にリーチする方法

注目の開発スキル5つについて学ぶ

新しい消費者向け IoT と人工知能の開発を加速させる機会は何でしょうか?

XiaomiのFALSRアルゴリズムが正式にオープンソース化され、画像超解像エンジニアリングアプリケーションに大きな進歩をもたらしました。

人工知能：人種差別との戦いにおける次のフロンティア？

推薦する

iQIYI CTO 唐星氏：AIはビデオプロセス全体にわたって実行され、理解と意思決定を開発する必要がある

これら 19 の主流 AI テクノロジーについて、どの企業がサービスを提供しているかご存知ですか?

Tech Neo 11月号: コンテナプラットフォーム管理の実践

AlphaCode がリリースされました! 「AlphaGo」のプログラミング版が静かに競争し、プログラマーの半数を破る

製薬業界はAI医薬品製造の時代に突入。医薬機械企業にどのような影響を与えるのでしょうか？

地図メーカーの次の戦い：AI戦争

AIがイノベーションの大きな原動力となる理由

インベントリ | 2018 年のベスト 30 の機械学習プロジェクト

産業用ロボットの急速な発展は社会にどのような影響を与えるのでしょうか?

李菲菲のチームはロボット用の「模擬キッチン」を作った。洗浄、カット、調理のワンストップトレーニングである。

これまで見たことのないアルゴリズムのダンス（ビデオ）

社会的関心の強化に基づくビデオ推奨アルゴリズム

顔認識を禁止した後、サンフランシスコは検察官の事件処理を支援するためにAIを活用