10年前、IBMのWatsonがクイズ番組「Jeopardy!」で優勝し、IBMは当時、「Watsonは自然言語の曖昧さと複雑さをすべて理解できる」と主張しました。しかし、すでに述べたように、Watsonはその後「人工知能で医療に革命を起こす」という試みに失敗し、インテリジェントエージェントの言語能力は人間の言語を実際に理解することと完全に同等ではありません。
自然言語理解は常に人工知能研究の主な目標の 1 つです。当初、研究者たちは、ニュース記事や小説など、人間が作成したあらゆるものを機械が理解できるように手動でプログラムしようとしました。結果は、ワトソンのように無駄な努力です。テキストを理解するために必要なすべての事実、ルール、仮定を推測することは不可能です。 近年、AI の分野では新しいパラダイムが生まれています。明示的な知識を構築するのではなく、大量のテキストを取り込み、単語を予測することを学習することで、機械が自ら言語を理解することを学習させるのです。この新しいパラダイムは現在、言語モデルと呼ばれており、GPT-3 のような大規模なニューラル ネットワーク ベースのモデルは、信じられないほど人間のような散文や詩を生成し、複雑な言語的推論を実行できます。 しかし、大量のウェブテキストでトレーニングされた GPT-3 のようなモデルは、本当に Watson よりも優れているのでしょうか? 生成した言語と推論を本当に理解しているのでしょうか? これは、AI 研究コミュニティ内で明確に意見が分かれているトピックです。 このような議論はかつては哲学の領域でしたが、過去 10 年間で AI は学問の世界から飛び出し、理解不足が非常に深刻な結果をもたらす可能性がある現実世界に進出しました。 IBMのワトソンが「安全でない誤った治療推奨」を行っていたことが調査で判明した。別の研究では、Google の機械翻訳システムが英語を母国語としない患者向けの医療指示を翻訳する際に重大な誤りを犯していることが示されました。 では、機械が現実を理解できるかどうかをどのように判断するのでしょうか? 1950 年、コンピュータ サイエンスの先駆者であるアラン チューリングは、「チューリング テスト」でこの疑問に答えようとしました。しかし、チューリングは人間が機械に騙される可能性を過小評価していました。ジョセフ・ワイゼンバウムは、1960 年代初頭に、Eliza というシンプルなチャットボットを作成し、文章を解釈して心理療法士のように話すようにしようとしました。エリザは、たとえ相手が機械と話しているとわかっていても、相手に自分の話を理解してくれる人と話していると信じ込ませることができることが判明しました。 2012年の論文で、コンピューター科学者のヘクター・レベスク、アーネスト・デイビス、レオラ・モルゲンシュテルンは、より客観的なテストであるウィノグラッド・スキーマ・チャレンジを提案しました。このテスト方法は AI 言語コミュニティによって採用されており、現在、機械の理解を評価する最良の方法の 1 つです。 Winograd パターン チャレンジは、次のように、単語が 1 つだけ異なる 2 つの文と、それぞれの後に続く質問で構成されます。
ウィノグラードモデルは2016年にコンテストの対象となり、優勝したプログラムは文章のわずか58%にしか正解を出さず、これは単純な推測とほぼ同じ精度だった。文中の単語が 1 つ異なるだけで、代名詞が指す人や物が変わる場合があり、これらの質問に正しく答えるには常識的な理解が必要です。 Winograd スキーマはまさにこの種の理解をテストするように設計されており、人間の判断とチャットボットのスキルの両方に対するチューリング テストの信頼性の低さを軽減します。特に、ウィノグラードの著者らは、「Google 対応」であることが知られている何百ものパターンを設計しました。つまり、機械は Google 検索 (または同様の検索) を使用して質問に正しく答えることができないはずです。 しかし、大規模なニューラル ネットワーク言語モデルの登場により、AI プログラムが Winograd スキーマを解く能力が急速に向上しました。 2020年のOpenAIの論文では、GPT-3はWinogradスキーマベンチマークの文のほぼ90%で正しかったと主張しました。言語モデルは、これらのタスク専用にトレーニングすると、さらに優れたパフォーマンスを発揮します。一部のニューラル ネットワークは、特定のタスクで 97% の精度を達成することができ、これは人間のパフォーマンスとほぼ同等です。これは、ニューラル ネットワーク言語モデルが人間の理解レベルに達したことを意味するのでしょうか? そうではありません。作成者の最善の努力にもかかわらず、Winograd スキーマは実際には完全に Google 対応ではありません。 Winograd スキーマの課題は、他の多くの AI 言語理解テストと同様に、ショートカットが使用できる場合があり、ニューラル ネットワークが理解しなくても適切に機能することがあります。例えば:
巨大なコーパスでトレーニングされた言語モデルは、「スポーツカー」と「速い」の相関関係や、「郵便トラック」と「遅い」の相関関係を吸収するため、言語モデルは実際の理解がなくても、これらの相関関係のみに基づいてこれらの質問に正しく答えることができます。 SuperGLUE コンテストにおける多くの Winograd スキーマは、このタイプの統計的相関関係を利用できることが判明しました。 アレン人工知能研究所の研究者グループは、ウィノグラード スキーマの問題のいくつかに対処しようとしました。 2019年に、彼らはより大きなウィノグラードモデルであるWinoGrandeを作成しました。 WinoGrande には、数百の例文ではなく、最大 44,000 の文が含まれています。これらの文章は、Amazon Mechanical Turk プラットフォームを使用して取得され、実際の人間によって書かれました。各人は、複数のトピックをカバーする複数の文章のペアを書くように求められましたが、各文章のペアは 1 語以上異なる場合があります。 次に研究者らは、比較的単純な AI 手法で各文をテストし、統計的関連性において近道となる可能性のある文を排除し、解くのが簡単すぎる文は破棄した。研究者の予想通り、残りの文は機械にとってオリジナルのウィノグラード スキーマよりも難しい課題となり、ウィノグラード スキーマでは人間と同等の成績を収めたニューラル ネットワーク言語モデルは、ウィノグランデ セットでははるかに低いスコアを記録しました。 しかし、すぐにまた別の驚きが起こりました。 WinoGrande コレクションが作成されてから 2 年が経ち、ニューラル ネットワーク言語モデルはますます大規模になってきました。そして、モデルが大きいほど、この新しい課題でより良いスコアを獲得できるようです。本稿執筆時点では、現在の最良モデル(数テラバイトのデータと数千の WinoGrande インスタンスでトレーニング済み)は、90% 近くの精度を達成しています(人間は 94%)。このパフォーマンスの向上は、ニューラル ネットワーク言語モデルのサイズの増加とトレーニング データの量の増加によってほぼ完全に実現されています。 これらの大きなモデルは本当に人間のような常識的な理解を獲得したのでしょうか? そうではないようです。 WinoGrande が反映した結果には、いくつかの注意点があります。たとえば、これらの文章は Amazon Mechanical Turk プラットフォームのパートタイム作業者に依存しているため、文章の品質と流暢さには非常にばらつきがあります。同時に、「Google 対応でない」文章を排除するために使用される AI 手法は、大規模なニューラル ネットワークが使用する可能性のあるすべての統計的ショートカットを検出するには単純すぎる可能性があります。さらに、この方法は単一の文にのみ機能し、多くの文は最終的に「双子」の兄弟姉妹を失うことになります。追跡調査では、ニューラルネットワーク言語モデルは、2つの「双子」の文のみでテストされ、両方のテストが正確でなければならない場合、人間よりもはるかに正確性が低いことが示され、以前の90%の結果はそれほど重要ではなかったことが示唆されました。 では、ウィノグラードの失敗からどのような教訓が得られるのでしょうか。それは、特定の課題に対するパフォーマンスに基づいて、AI システムが処理している言語を本当に理解しているかどうかを判断することが難しい場合が多いということです。ニューラル ネットワークは、人間のように真に理解するのではなく、統計的な近道を使って高いスコアを獲得することが多いことがわかっています。 私の考えでは、問題の鍵は、言語を理解するには世界を理解する必要があり、言語だけにさらされている機械はこの理解能力を獲得できないということにあります。たとえば、「スポーツカーは郵便トラックよりも遅い速度で走っていたため、郵便トラックを追い越しました。」この文章を理解するには、どのような前提条件が必要ですか? まず、スポーツカーと郵便トラックとは何か、そして車は互いに「追い越し」できることを知っておく必要があります。さらに基本的な常識も知っておく必要があります。つまり、車両は世界に存在し、世界と相互作用するオブジェクトであり、独自の旅程に従って人間によって運転されます。 上記の知識はすべて、私たち人間が当然のこととして認識しているものですが、この知識は機械に組み込まれておらず、どの言語モデルのトレーニング テキストにも明示的に書き込むことはできません。一部の認知科学者は、言語を学習し理解する際に、人間は空間、時間、および世界のその他の基本的な特性に関する生来の、言語以前の中核知識に依存していると主張しています。機械が人間のように言語を習得することを望むなら、まず人間に生来備わっている原始的な原理を機械に与える必要があります。機械の理解力を評価するには、まず、上で概説した「幼児形而上学」と呼ばれる原理を機械がどの程度理解しているかを評価する必要があります。 GPT-3 のような成功した AI システムと比較すると、赤ちゃんのレベルで機械をトレーニングして評価することは、大きな後退のように思えるかもしれません。しかし、目標が真実かつ信頼できる理解であるならば、これが機械が「それ」が何であるかを理解し、「それ」を理解するために必要なすべてを得るための唯一の方法なのかもしれません。 オリジナルリンク: https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/ [この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です] この著者の他の記事を読むにはここをクリックしてください |
<<: ブロックチェーンを使用して AI スマートエコノミーを構築するにはどうすればよいでしょうか?
>>: 機械学習のエントリーレベルのプラットフォームの上限であり、古典的なチュートリアルを無料で練習することもできます。これは本当に比類のないものです。
「人間がテクノロジーを生み出すペースは加速しており、テクノロジーの力は指数関数的に成長しています。指...
[[411622]]正確さは集計の設計に直接影響するため、エンティティと値オブジェクトを区別すること...
「ポイント」すると動きます。Gen-2の新機能「マジックブラシ 馬亮」が正式にリリースされました。無...
1月22日午後、上海地下鉄15号線で重大事故が発生した。千安路駅のプラットホームで、乗客が電車から...
ハイパースケールかエンタープライズかを問わず、現代のあらゆるデータセンターは、より広範なイノベーショ...
人工知能(AI)の概念は何千年も前から存在しています。 AI の物語は歴史を通じて世界中に広がってい...
ChatGPT に続いて、OpenAI のライブ ブロードキャストでは、視覚入力はまだ広く利用可能...
著者 | ユン・チャオユーザーと情報の間には、検索か推奨のいずれかが存在します。百度の執行副社長であ...
人工知能は職場にますます浸透しつつあり、現在では仮想パーソナルアシスタント (VPA) やその他の形...
人工知能はヘルスケアに変革をもたらす力となることが期待されています。では、医師と患者は AI 駆動型...
OpenAIの共同創設者サム・アルトマン氏は最近、Nvidiaに対抗するために世界中にAIチップ工場...