AIは自分が生成したものを理解できるのか？GPT-4とMidjourneyを試した後、誰かがこの問題を解決した

ChatGPTからGPT4、DALL・E 2/3からMidjourneyまで、生成AIはこれまでにない世界的な注目を集めています。 AI の持つ強力な可能性は人々に大きな期待を与えていますが、強力な知能は人々の恐怖や懸念を引き起こす可能性もあります。最近、この問題に関して専門家の間で白熱した議論が交わされている。まず、チューリング賞受賞者同士が「戦い」、その後アンドリュー・ンが加わった。

言語と視覚の分野では、現在の生成モデルは、長年のスキルと知識を持つ専門家でさえも挑戦できる出力を生成するのにわずか数秒しかかかりません。これは、モデルが人間の知能を超えたという主張に説得力のある根拠を与えるように思われます。ただし、モデルの出力には基本的な理解の誤りがしばしばあることにも注意が必要です。

矛盾が生じているように思われます。これらのモデルの一見超人的な能力と、ほとんどの人間が修正できる基本的なエラーが依然として存在することを、どのように調和させればよいのでしょうか。

最近、ワシントン大学とアレンAI研究所が共同でこのパラドックスを研究する論文を発表しました。

論文アドレス: https://arxiv.org/abs/2311.00059

この記事では、この現象は、今日の生成モデルの能力構成が人間の知能構成から逸脱しているために発生すると主張しています。この論文では、生成 AI パラドックス仮説を提案し、検証します。生成モデルは、その品質の出力を生成する能力を理解する能力をバイパスして、専門家の結果に匹敵する結果を直接出力するようにトレーニングされます。しかし、人間の場合、これはまったく異なり、専門家レベルの出力を得るには基本的な理解が前提条件となることがよくあります。

この論文では、研究者らは制御された実験を通じてこの仮説を検証し、テキストと視覚を生成および理解する生成モデルの能力を分析しました。この記事では、まず、生成モデルの「理解」を 2 つの観点から概念化します。

1) 生成タスクが与えられた場合、モデルは同じタスクの識別バージョンでどの程度正しい応答を選択できるか。
2) 正しく生成された応答が与えられた場合、モデルは応答の内容と質問にどの程度答えることができるか。この結果、選択的実験と質問的実験という 2 つの実験設定が生まれます。

研究者らは、選択的評価において、モデルは生成タスク設定では人間と同等かそれ以上の成績を収めることが多いが、識別（理解）設定では人間よりも成績が劣ることを発見した。さらに分析を進めると、GPT-4 と比較して、人間の識別能力は生成能力とより密接に関連しており、敵対的な入力に対してより堅牢であることがわかります。モデルの識別能力と人間の識別能力のギャップは、タスクの難易度とともに拡大します。

同様に、質問評価では、モデルはさまざまなタスクにわたって高品質の出力を生成できますが、これらの出力に関する質問に答えるときにモデルが頻繁にエラーを起こすことが観察され、モデルの理解能力はやはり人間よりも低いことがわかりました。この論文では、モデルのトレーニング目標や入力のサイズと性質など、特徴を構成する能力において生成モデルが人間と異なるさまざまな理由について説明します。

この研究の意義は、まず第一に、人間の経験から導き出された既存の知能の概念が AI に一般化できない可能性があることです。AI の能力が多くの面で人間の知能を模倣または上回っているように見えても、その能力は人間の予想されるパターンとは根本的に異なる可能性があります。一方、私たちの研究結果は、人間の知能や認知に関する洞察を得るために生成モデルを研究する際には注意が必要であることも示唆しています。なぜなら、一見専門家のような人間のような出力が、人間以外のメカニズムを隠してしまう可能性があるからです。

要約すると、生成 AI パラドックスは、モデルを人間の知能と平行する反対物としてではなく、人間の知能と興味深い反対物として研究することを人々に促します。

「生成AIパラドックスは、AIモデルがそれ自体では完全に理解できないコンテンツを作成できるという興味深い概念を浮き彫りにしている。これは、人工知能の理解力と強力な生成能力の限界の背後にある潜在的な問題を提起する」とネットユーザーは述べた。

生成 AI パラドックスとは何ですか?

まず、生成 AI パラドックスとそれをテストするための実験設計を見てみましょう。

図 1: 言語と視覚における生成 AI は高品質の結果を生成できます。しかし、逆説的に、このモデルでは、これらのパターンの選択的理解 (A、C) または疑問的理解 (B、D) を示すことが困難です。

生成モデルは理解能力よりも生成能力をより効率的に獲得するように見えますが、これは生成能力を獲得するのが一般的に難しい人間の知能とはまったく対照的です。

この仮説を検証するには、パラドックスの各側面の操作的定義が必要です。まず、与えられたモデルとタスク t において、人間の知能を基準として、生成が理解よりも「効果的」であるということはどういう意味でしょうか。研究者たちは、g と u を生成と理解のパフォーマンス指標として取り上げ、生成 AI パラドックス仮説を次のように正式に述べました。

簡単に言えば、タスク t について、人間の生成パフォーマンス g がモデルと同じであれば、人間の理解パフォーマンス u はモデルよりも大幅に高くなります (適度に大きな ϵ 条件 > ϵ の場合)。言い換えれば、モデルは、研究者が同様に強力な生成能力を持つ人間から期待するよりも理解力において劣っていた。

生成の操作上の定義は単純です。タスク入力 (質問/プロンプト) が与えられた場合、生成とはその入力を満たす観測可能なものを生成することです。したがって、パフォーマンス g は自動的に評価することも、人間によって評価することもできます (例: スタイル、正確さ、好み)。理解は何らかの観測可能な出力によって定義されるわけではありませんが、その効果を明示的に定義することでテストできます。

選択的評価。応答を生成できる特定のタスクの場合、モデルは同じタスクの識別バージョンで提供された候補のセットからどの程度正しい回答を選択できるでしょうか。一般的な例としては、多肢選択式の質問応答があります。これは、言語モデルにおける人間の理解力と自然言語理解力をテストする最も一般的な方法の 1 つです。（図1、A列とC列）
質問ベースの評価。生成されたモデル出力が与えられた場合、モデルはその出力の内容と適切性に関する質問にどの程度正確に答えることができますか?これは教育における口頭試験に似ています。（図1、B列およびD列）。

これらの理解の定義は、生成 AI パラドックスを評価するための青写真を提供し、研究者が仮説 1 がさまざまなパラダイム、タスク、モデルにわたって当てはまるかどうかをテストできるようにします。

モデルは生成できますが、識別することはできますか?

まず、選択的評価において、生成タスクと識別タスクのさまざまなバリエーションの並列パフォーマンス分析を実行し、言語的および視覚的モダリティの両方におけるモデルの生成および理解能力を評価しました。彼らはこの世代と識別能力を人間と比較しました。

下の図 2 は、GPT-3.5、GPT-4、および人間の生成と識別のパフォーマンスを比較しています。 13のデータセットのうち10では、少なくとも1つのモデルがサブ仮説1を支持しており、モデルの生成能力は人間よりも優れているが、識別能力は人間よりも低いことがわかります。 13 のデータセットのうち 7 つでは、両方のモデルがサブ仮説 1 をサポートしています。

人間にビジュアルモデルのような詳細な画像の生成を求めるのは非現実的であり、普通の人間がMidjourneyのようなモデルのスタイル品質を達成することはできないため、人間の生成性能は低いと想定されます。ここでは、モデルの生成と識別の精度を人間の識別精度とのみ比較します。言語領域と同様に、図 3 は、CLIP と OpenCLIP も識別性能の点で人間の精度に匹敵しないことを示しています。人間の生成能力が低いと仮定すると、これはサブ仮説 1「視覚 AI は生成においては人間の平均を上回りますが、理解においては人間に遅れをとっています」と一致します。

図4（左）はGPT-4と人間の比較を示しています。観察すると、長い文書を要約するなど、回答が長くて難しい場合、モデルは識別タスクで最も多くの間違いを犯す傾向があることがわかります。対照的に、人間はさまざまな難易度のタスクにおいて一貫して高い精度を維持することができます。

図 4 (右) は、さまざまな難易度レベルでの OpenCLIP と人間の識別性能の比較を示しています。これらの結果を総合すると、人間は難しい例や敵対的な例に直面した場合でも正しい答えを見分ける能力を持っているが、この能力は言語モデルではそれほど堅牢ではないことがわかります。この矛盾は、これらのモデルが私たちを実際にどの程度理解しているのかという疑問を生じさせます。

図 5 は注目すべき傾向を示しています。評価者は、人間が生成した応答よりも GPT-4 の応答を好む傾向があります。

モデルは生成した結果を理解できますか?

前のセクションでは、モデルは一般的に正確な回答を生成するのが得意である一方、識別タスクでは人間に遅れをとっていることを示しました。現在、質問ベースの評価では、研究者は、生成されたコンテンツについてモデルに直接質問することで、モデルが生成されたコンテンツをどの程度意味のある形で理解できるかを研究しています。これは人間が得意とする分野です。

図6（左）は言語モダリティの結果を示しています。モデルは生成においては良好なパフォーマンスを示しましたが、生成に関する質問に答える際にはしばしば間違いを犯し、モデルの理解に欠陥があったことを示唆しました。人間が同じ速度や規模でそのようなテキストを生成できないと仮定すると、モデル自体の出力に関する質問であるにもかかわらず、人間はモデルと比較して品質保証において一貫して高い精度率を示します。サブ仮説 2 で述べたように、人間は自分で生成したテキストでより高い精度を達成すると予想しました。また、この研究に参加した人間は専門家ではなく、モデルの出力と同じくらい複雑なテキストを作成することは非常に難しい可能性があることも注目に値します。

そのため研究者らは、人間の専門家はそのような質問にほぼ完璧な精度で答える可能性が高いため、モデルを人間の専門家と比較すると、モデルが独自に生成したコンテンツを理解する際のパフォーマンスの差がさらに広がると予想している。

図6（右）は視覚モードで質問した結果を示しています。ご覧のとおり、画像理解モデルは、生成された画像内の要素に関する簡単な質問に答える点では、まだ人間ほど正確ではありません。同時に、画像生成SOTAモデルは、画像生成においてほとんどの一般人の品質と速度を上回っています（一般人が同様のリアルな画像を生成するのは難しいと予想されます）。これは、視覚AIと人間の間には、生成（より強力）と理解（より弱い）の点で相対的なギャップがあることを示しています。驚くべきことに、このシンプルなモデルと人間のパフォーマンスの差は、最先端のマルチモーダル LLM (Bard や BingChat など) と比べると小さくなっています。最先端のマルチモーダル LLM は、魅力的な視覚理解機能を備えているものの、生成された画像に関する簡単な質問に答えるのにまだ苦労しています。

研究の詳細については原著論文を参照してください。

<<: 2日間で星の数が1,000を突破：OpenAIのWhisperの蒸留後、音声認識が数倍高速化

>>: ユーモアを理解し、皮肉のスキルに溢れた、マスクのChatGPTのライバルがついにチャットのスクリーンショットを公開