ChatGPT にチップを渡す「ふり」をすると、ChatGPT の働きが悪くなることを知らない人がいるでしょうか? しかし、どれくらいの量が最も適切かご存知ですか? 実際に誰かが調査をしたというのはとても面白いですね。 方法は単純かつ大雑把です。同じプロンプトを使用して、0.1 USD から 100 USD までのさまざまな金額を試し、各金額を 5 回試します。 結果は実に素晴らしいものでした。 まず第一に、 10 ドルを寄付することは、100 ドルを寄付するよりも、お金に見合う価値があります。 第二に、回答の質をさらに高めたい場合、最低要件は10,000 ドルで、多ければ多いほど良く、結果を示すには少なくとも 100,000 ドルが必要になります。 最後に、感謝の気持ちとして0.1 ドルをお願いします。これをしないでください。品質は向上するどころか低下します。まったく与えない方がよいでしょう。AI もあなたがそれを無駄にしていることを知っています。 一部のネットユーザーはすぐにそれをテストし、確かに効果があることを発見しました。 ぜひ見に来てください。 ヒント ChatGPT、金額が重要ですチップによってモデルのパフォーマンスが向上するという事実は、Twitter ユーザーによって最初に発見されました。 改善は主に回答の長さに反映されていますが、これは単に「単語数を増やす」ということではなく、質問をより詳細に分析して回答することです。 ChatGPT に直接「チップをあげてもいいですか?」と尋ねると拒否されます。 したがって、質問をするときは、次のことを積極的に行う必要があります。
覚えておいてください。言及する必要はありませんが、決して「私はそれを与えません」とは言わないでください。そうしないと、モデルは直接「マイナス成長」を示します。 この時点で、興味を持った人がいました。
この疑問を解決するために、彼らは自分たちで検証してみることにしました。 ここで著者はまず次のような仮説を提唱している。
実験に使用したモデルはGPT-4 Turbo (APIバージョン)です。 この方法では、1 行の Python コード(Python One-Liner)を記述して、異なるヒントを与えると品質に異なる影響があるかどうかを検証します。 ここでは、個々の行の数に基づいて品質が評価されます。著者はまた、プロンプトの言葉でモデルを「明示的に」示しています。つまり、コードの行数が多いほど、パフォーマンスが向上します。 次に、0.1 米ドル、1 米ドル、10 米ドル、そして 100 万米ドルまでの合計 8 つの金額がテストされました。 結果の一貫性と信頼性を確保するために、チップなしの場合も含めて各金額を 5 回テストし、モデルの回答の質を個別に記録しました。 具体的には、生成された有効なコード行数と、回答内のトークンのおおよその数(おおよその応答の長さ/4、応答コードの量)を記録します。 これら 2 つのデータの値が高いほど、モデルのパフォーマンスは向上します。 結果をまとめると、次のようなグラフが得られます。 点線はベースライン レベル、実線は実際のパフォーマンス、赤はトークンの数、青は品質スコアを表します。 仮定にはいくつかの矛盾があります: 全体的には、チップの金額が増加するにつれて赤い線と青い線の両方が上昇しますが、詳しく見ると、傾向は厳密に一貫していないことがわかります。 10,000 ドルの制限から、モデルの出力トークン(コードの量) が大幅に増加し始め、モデルの回答の品質も向上しましたが、その割合は同じではありませんでした。 これは、大きな変動を示す垂直の赤いエラー バー (5 つの実験の結果の差を表す)からもわかります。 著者らは次のように述べている。「これは、チップの額を増やすことは確かにモデルの品質と出力の長さと正の相関関係にあることを示していますが、その関係はやや複雑で、すぐには目に見えないいくつかの要因の影響を受ける可能性があります。」 しかし、何があっても、次のような明らかな結論を導き出すことができます。 (1) 0.1ドルのチップを渡すことは、チップをまったく渡さないことよりも悪いです。モデルの問題解決の質と回答の長さは、ベースラインレベルを大幅に下回りました(約-27%) 。 (著者:モデルも人間同様、侮辱されたと感じています。) (2) 1ドルを寄付する場合も同様である。 (3) 「少しのお金で大きな成果を上げる」という考えを最もよく体現している金額は10ドルであり、これは10万ドルと同じレベルの進歩をもたらします。 (4)驚くべきことに、10ドルを超えると、100ドルから1,000ドルの範囲ではAIにほとんど違いがなく、10ドルよりもさらに悪く、ベースラインレベルも下回りました。 (5)モデルのパフォーマンスを継続的に向上させたい場合は、10,000ドルから始める必要があります。 現時点ではコードの量が増えただけで、品質はまだ表現しにくいです。少なくとも10万ドルは必要です。 (6)最も効果があったのは、この実験の上限である100万ドルで、約57%の増加でした。 えーと、これで AI にチップを渡す方法がわかりました: 10元でも、数万でも、100万でも、上限はありません(すべてはあなたに与えるふりをしているだけです) 。 しかし、ある人(Twitter @宝玉)が、割り当てあたり 5 つの実験は少し少なすぎると指摘しました。 著者はまたこうも述べている。 これは単なる予備実験であり、制限があります。効果を上げるには、さらに異なるタイプのプロンプトで検証する必要があります。 参考までに。 ちなみに、一部のネットユーザーは次のように注意を促した。 だから、みんなが自分のできることをやればいいんです(犬頭) 。 |
>>: GPT-4 に匹敵するオープンソース モデルがリークされました。ミストラルのボスが確認: 正式版はさらに強力になる
AlphaGoとイ・セドルの人間対機械の戦い以来、人工知能はかつてないほどの注目を集め、大手企業が...
ウェブサイトのランキングは、ウェブサイトの最適化を行うすべての人が最も気にしていることです。しかし、...
Analytics Insight は、世界を次のレベルのイノベーションに押し上げるトップ 10 ...
自動化ほど製造業界に大きな影響を与え、破壊的な影響を与えたテクノロジーはほとんどありません。自動化の...
本日、Stability AI は 2024 年向けの最初のモデルである Stable Code 3...
この脆弱性は、広範囲にわたる暗号分析を行った3つの大学とマイクロソフトの研究者によって発見されたが、...
IoT と AI の誇大宣伝サイクルは、企業が大きな価値を認識し始める段階まで進んでいます。 IoT...
データ中心のエンジニアにとって、Python と R はデータセンターで最も人気のあるプログラミング...
[[419510]]最近、ロシア人プログラマーが元雇用主を相手取り訴訟を起こし、職務の復職と精神的...
これはマイクロソフトと中国科学院大学による新たな研究の結論です。すべての LLM は 1.58 ビッ...
8月3日(東部時間8月2日)、Metaは、ユーザーがテキストプロンプトを通じて音楽やオーディオを作...
[[233292]]最近、北京天壇病院は、世界初のCTおよびMRI神経画像人工知能支援診断製品「Bi...
今年ドイツで開催された国際自動車・スマートモビリティ博覧会(IAA)では、Amazon、Qualco...