最近、ChatGPT/GPT-4シリーズの製品は世界的な注目と議論を集めており、それらに代表される大規模なモデルは言語において一定の普遍性を示し、汎用人工知能の概念を浮上させ、世間の注目を集めています。 業界の多くの人々は、ビッグモデルが汎用人工知能への唯一の道であると信じています。しかし、ビッグモデルは本当に業界が主張するほど「万能」なのでしょうか? GPT-4 で表現される大規模言語モデルは、汎用人工知能からどの程度離れているのでしょうか? 北京総合人工知能研究所の朱松春教授のチームは最近、大規模モデルに関する技術レポートを発表し、標準化されたテストと機能ベンチマークを使用して大規模言語モデル(LLM)の既存の評価を体系的にレビューし、LLMの機能を誇張しがちな現在の評価方法のいくつかの問題を指摘しました。さらに、この報告書では、汎用人工知能(AGI)が備えるべき4つの特性として、無制限のタスクを実行する能力、自律的に新しいタスクを生成する能力、価値体系によって駆動される能力、現実世界を反映した世界モデルを持つことを提案している。 研究者らは技術報告書の中で、「知識と行動の統一」(認知と行動の内部統一)は、現在、大規模モデルに欠けているメカニズムであり、汎用人工知能へと向かう唯一の方法でもあると指摘した。研究者たちは、概念の学習は現実世界との相互作用に依存し、知識の獲得は受動的な入力に完全に依存しているわけではないと考えています。新しい環境で知識を獲得するための重要な方法は、受動的な受容ではなく、能動的な探索と試行錯誤であるべきです。 論文リンク: https://arxiv.org/abs/2307.03762 1. 大規模言語モデルは容器の中の脳のようなもの水槽の中の脳は、哲学者ヒラリー・パトナムが提唱した有名な思考実験です。この実験では、人間の脳を体から切り離し、機能を維持できる栄養液タンクに入れます。スーパーコンピューターが脳のニューロンを接続してさまざまな錯覚を作り出し、まるで「マトリックス」のように、すべてが正常であると人々に感じさせます。では、私たちが水槽の中の脳ではないことをどうやって知るのでしょうか? パトナムは意味分析に基づいて、容器の中の脳の中の人物が「容器の中の脳」であると主張したとき、容器と脳の意味が変わったと反論した。この視点をどう理解すればよいのでしょうか?簡単な例を挙げてみましょう。双子地球があり、その住民は私たちと同じ生活様式と言語を持っていますが、その「水」分子は XYZ で構成されており、私たちの H2O とは異なります。これら2種類の「水」は、見た目、用途、名前が同じであり、2つの場所の住民が「水」に対して同じ心理的認識を持っていますが、本質は異なるため、意味も異なるはずです。これはまた、研究者がシンボルグラウンディングの観点から大規模モデルを検討するきっかけにもなります。この論文では、ビッグモデルは容器の中の脳に過ぎないと主張している。ビッグモデル自体は現実世界に生きておらず、人間のように「言葉」から「世界」への接続を行うことはできないからだ。これは、その固有の構築メカニズムによって決定されます。統計モデリングを通じて大量のテキストでトレーニングされ、テキスト間の言語的相関関係を学習し、前の単語に基づいて次の単語を予測します。 シンボル着陸がないため、大きなモデルが円を描くように動き回ることが容易になります。研究者たちは GPT-4 に自己紹介をさせ、自ら話させようとしました。しかし、限られた回数の試行の後、GPT は言ったことを繰り返し始め、現在の意味空間から抜け出すことができなくなりました。 ビッグモデルの「知能」は、本質的なものではなく、人間の知能の投影です。ビッグモデルによって生成されたテキストには固有の意味はありません。その意味は、人間のユーザーによるテキストの解釈から生まれます。たとえば、言語学者チョムスキーはかつて、文法的には正しいが意味のない文章「無色の緑の思想は激しく眠る」を作り上げ、言語学界に異議を唱えようとした。しかし、中国言語学の父である趙元仁は、有名な論文「ナンセンスの中に意味を探る」の中で、この文章に哲学的な解釈を与えた。 2. 大規模モデルの限界大規模なモデルトレーニングデータセットの不透明性と、評価時に人間が使用するメトリックの違いにより、人間は大規模モデルの実際のパフォーマンスを過大評価する可能性があります。一方、大規模モデルのトレーニング データセットは通常、巨大で可用性の高いインターネット データであり、後続の評価に使用されるデータセットが含まれている場合があります。 GPT-4 のような大規模モデルのトレーニング データセットの構成が現在不明であるため、一般化の概念は曖昧になります。つまり、大規模モデルがコア概念を本当に学習したのか、それともトレーニングによって生成された「隠れたメモリ」から単に取得しているだけなのかを判断することはできません。この不透明性により、学術コミュニティは公正かつ信頼性の高い評価を行うことができません。一方、いくつかの研究では、大規模モデルの出現力は、モデルの動作の本質的な変化から生じるのではなく、使用される評価指標によって大規模モデルが突然非常に強力に見えるようになるためであることがわかっています。簡単に言えば、非線形メトリック(X の n 乗など)を使用すると、曲線上のまばらなサンプリング ポイントによって、何らかの出現現象が発生しているように感じられますが、線形メトリックに切り替えると、この現象は発生しません。 研究者らは、大規模言語モデルに関する数十件の評価研究を検討した結果、次のことを発見しました。 1) 大規模言語モデルは標準テスト(SAT、LSAT)で一般の人間の受験者を上回る優れた結果を達成できると主張する研究もありますが、中国の大学入試、インドの入試、ベトナムの大学入試など、英語以外の言語で同種のテストが導入されると、GPTのパフォーマンスは大幅に低下し、応用推論を必要とする試験(数学、物理学など)でのスコアは、言語依存性の強い試験(英語、歴史)よりも大幅に低くなります。 GPT のパフォーマンスは、推論方法を学ぶというよりも、繰り返し暗記することで多数の問題を解く戦略に似ているようです。 2) 大規模言語モデルの数学的推論能力はまだ改善の余地がある。 Bubeckら(2023)は、論文「Sparks of Artificial General Intelligence」で、単一のケーススタディを使用して、GPT-4がIMOレベルの問題を解決できることを説明しようとしました。しかし、GPTによって提供されたソリューションを注意深く調べた後、研究者は、テスト問題が大幅に簡略化されていたため、Bubeckらの結論は非常に誤解を招くものであることを発見しました。GPT-4に元のIMO数学の問題を解くように求められたとき、GPT-4の数学的論理チェーンは完全に間違っていました。別の研究では、MATH トレーニング データ セットでは、モデルが MathChat モードに設定されていても、その精度は約 40% に過ぎないことがわかりました。 3) 大規模言語モデルの推論は、論理的な関係を理解することよりも、大量のテキストの関連性に基づいて行われます。朱松春氏のチームによる別の研究では、自然言語が記号に置き換えられると、思考連鎖戦略が使用されているかどうかに関係なく、帰納、演繹、および帰納的タスクにおける大規模言語モデルのパフォーマンスが急激に低下することがわかりました。 簡単な例を下の図に示します。左側では、動物(クマ、イヌ、ウシなど)を使用して一連のステートメント(「クマはイヌが好き」、「ウシは丸いという属性を持っている」、「動物が丸いという属性を持っている場合、リスが好き」など)を生成し、次にGPT-4に新しいステートメント(「牛はリスが好き」など)を与えて、正しいかどうかを判断します。研究者は、明確な意味を持つ単語を抽象的な記号に置き換えると(たとえば、クマの代わりにe4を使用し、犬の代わりにe5を使用し、円の代わりにe2を使用する)、大規模言語モデルのパフォーマンスが大幅に低下することを発見しました。大規模モデルの因果推論能力に関する別の研究でも同様の結果が明らかになりました。大規模モデルのセマンティクスを記号に変換すると、大規模モデルのパフォーマンスはランダムな回答とほぼ同じに低下します。微調整後でも、大規模モデルは以前に登場した類似の記号表現にしか対応できず、新しいシナリオに一般化することはできません。 写真 4) 大規模モデルは抽象的な推論が得意ではありません。基礎となるパターンを見つけるために少数の小さなサンプルのデモンストレーションのみに依存するタスクに直面した場合、大規模モデルのパフォーマンスは比較的低くなります。下の図に示すように、Raven テスト データ セット (RAVEN) では、テスターは既存の 8 つのグラフィック (形状、色、数量、サイズ) に基づいて暗黙のルールを見つけ、最終的なグラフィックを推測する必要があります。 もう 1 つの例は、下の右の図に示すように、Evals-P データセットから取得されます。大規模なモデルでは、大量のトレーニング サンプルがない場合でも、foo または bar の出現パターンを見つける必要があります。つまり、最初の文字が後続の文字列に含まれている場合は foo であり、含まれていない場合は bar です。一部の大規模モデルでは、これらのタスクの精度は 0 に近く、GPT-4 の精度でも 30% 程度しかありません。 3. 汎用人工知能に関する見解「ある AI」が汎用人工知能であるかどうかを判断するための前提条件は、汎用人工知能の定義または基本的な特徴を理解することです。Zhu Songchun 氏のチームは、汎用人工知能 (AGI) の 4 つの特徴を説明しようとしました。 1. 無制限のタスクを実行する能力。 2. 新しいタスクを自律的に生成する能力。 3. 価値観によって動かされる 4. 現実世界を反映した世界モデルを持つ。 まず、エージェントは物理的環境と社会的環境の両方で無限の数のタスクを完了できる必要があります。 AGI が達成されたことを示すためにタスクのしきい値が設定されている場合、このしきい値がどのように決定されるかは常に疑問視する価値のある問題になります。エージェントが N 個のタスクを完了した後に一般知能を示さない場合、N+1 番目のタスクを完了した後に突然一般知能を持つようになると信じる理由はありません。教師が生徒のテストの点数を使って学業成績を評価するのと同様に、具体的で難しいタスクのリストはエージェントのパフォーマンスを評価するのに役立ちますが、単に特定のタスクを完了しただけでは一般的な知能があることにはなりません。同様に、生徒の真の学習能力をテストの点数だけで判断することはできません。さらに、無限のタスクとは、エージェントがスーパーマンのように全能である必要があるということではなく、むしろ、学生が自ら学ぶことを学ぶのと同じように、一般的なエージェントが特定の環境で新しいタスクを自律的に生成できる必要があることを意味します。 エージェントが新しいタスクを生成するために必要な基本的なメカニズムが 2 つあります。まず、エージェントにはタスク生成を実行するためのエンジンが必要です。たとえば、ダーウィンの進化論は、私たちの遺伝子にコード化されている生存と生殖という2つの本能を明らかにしましたが、一方で人類の進化の過程で価値観は豊かになり、利他主義、誠実さ、勇気など、細分化されたさまざまな価値観が生まれました。誰もが、現実世界との継続的な相互作用によって形成された複雑な価値観に動かされています。同様に、この価値システムの概念を汎用エージェントの構築に適用することができます。その場合、人間は詳細なタスク手順を事前に定義しなくても、価値関数を調整することでエージェントの動作に影響を与えることができます。第二に、インテリジェント エージェントには、インテリジェント エージェントと現実世界との相互作用を導くために、現実世界の物理法則と社会規範を含む世界モデルが必要です。これはレゴで遊ぶようなもので、世界モデルはさまざまな構成要素 (オブジェクト表現) と構成要素の接続方法 (物理法則や因果関係の連鎖など) で構成されます。ただし、価値関数は、城の建設など、考えられるすべてのオプションから設計図を選択し、エージェントにタスクを実行させます。レゴ城を建設するプロセスでは、エージェントは現在の進行状況に基づいて適切なビルディングブロックを選択し、対応する位置に正しく配置する必要があります (新しいタスクを自己生成します)。 4. 「知識と行動の統一」王陽明はかつて、「知っていても実行しないのは単なる無知である」と言いました。シンボル着陸の問題を解決し、上記のような特徴を持つ汎用人工知能を生み出すためには、知識だけに頼るだけでは到底不十分であり、知識と行動の統合が必要である。この時点で、インテリジェント エージェントは、視覚、触覚、聴覚、その他の信号を統合するなどのアクティブなアクションを実行することで、現実世界のオブジェクトのより完全な表現を生成できるだけでなく、さらに重要なことに、環境を探索して知識を生成し、それを新しいシナリオにさらに一般化することができます。 まず、人々の世界に対する理解は現実世界との相互作用に基づいています。記号(言語、数学記号など)は概念へのポインターにすぎず、マルチモーダルなインタラクティブ信号だけが概念表現を真に確立することができます。テキスト空間内にのみ存在する大規模な言語モデルはシンボルを生成することはできますが、シンボルが指し示す概念を理解することはできません。ちょうど蟻の予期せぬ移動軌跡が「○」を形成するのと同じですが、蟻自身は円が何を意味するのか理解していません。 第二に、知識は生まれつきのものではなく、知識と行動の間には本質的なつながりがあるということです。人間の世界に対する深い理解は、単にマニュアルを読むことで得られるものではなく、自分自身の探求や他者からの探求の伝達など、試行錯誤の繰り返しによって蓄積されるものです。ここで、知識とは、人々が世界とやりとりする能力(推論、問題解決、社会的理解など)を反映しています。しかし、モデルが統計モデルを通じて受動的に知識を受け入れ、コンテンツを生成するだけであれば、それは大量の知識を圧縮した百科事典に等しく、新しい環境で世界を探索することで新しい知識を生み出すことはできません(知識の抽象化、知識の蓄積、知識の伝達などのプロセスを含む)。 V. 結論研究チームが提案した大規模モデル技術レポートは、将来の人工知能研究の潜在的な研究方向をいくつか示しています。
|
<<: Llama 2 第 2 波のハイライト: 慎重すぎるため、コード生成には改善の余地が大いにある
>>: 国内チームが新たなRLTFフレームワークを提案し、SOTAをリフレッシュしました!大規模なモデルはバグが少なく、より高品質なコードを生成します
[[405357]]画像ソース: https://pixabay.com/images/id-468...
[[198984]]導入近年のテキスト情報の爆発的な増加により、人々はニュース、ブログ、チャット、レ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
この分野の専門家は、AI技術が従業員に大きな変化をもたらし、企業のビジネスのやり方を変えていると述べ...
わずか5年で、人工知能は急速に発展しました。最近、GPT-3が再び白熱した議論を巻き起こしています。...
ビッグデータ処理技術をどのように学ぶか?まず、Python言語とLinuxオペレーティングシステムを...
見知らぬ人々の集団の中に見覚えのある人を見つけたり、とても見覚えのある顔を見かけたりします。その人は...
人気の短編動画アプリ「TikTok」(Douyinの海外版)は、主にアルゴリズムのおかげで、世界中で...
[[426795]]この記事はWeChatの公開アカウント「JS Daily Question」か...
グーグルは8月14日、飛行機による気候への影響を大幅に軽減できる人工知能の分野で大きな進歩を遂げたと...
人工知能(AI)については多くの誇大宣伝がなされていますが、それは人類のこれまでの発明と同じくらい画...