人工知能は人間の言語を習得したのか？見た目は騙されることがある

[[247418]]

人工知能の分野における成果は、誤解されやすく、過大評価されやすい。このことは、人間の言語処理の分野において最も顕著に表れており、外見が誤ってより深い能力を示唆することがある。

過去 1 年間、多くの企業が、自社のチャットボット、ロボット、その他のアプリケーションが人間と同じように有意義な会話を行えるという印象を与えてきました。 Google の Duplex、Hanson Robotics の Sophia などの事例を見れば、AI が人間のような行動をとれる段階に到達したことがわかる。

しかし、人間の言語を習得するには、人間の音声を真似したり完全な文章を作ったりするだけでは不十分です。常識、環境の理解、創造性が必要であり、現在の AI トレンドにはこれらが備わっていません。

実際、ディープラーニングやその他の AI 技術は、人間とコンピューターの距離を縮める上で大きな進歩を遂げてきました。しかし、回路とバイナリデータの世界と人間の脳の謎の間には大きな隔たりが残っています。 AIと人間の知能の違いを理解して認めなければ、私たちは満たされない期待に失望し、AIの発展によってもたらされる本当の機会を逃してしまうことになります。

AI と人間の言語の関係の真の深さを理解するために、この分野をいくつかのサブドメインに分割してみましょう。

音声テキスト変換

音声文字変換は、AI アルゴリズムが最も進歩した分野の 1 つです。公平に言えば、これは AI と見なされるべきではないのですが、AI の定義は少し曖昧であり、多くの人が自動文字起こしを知性の兆候と誤って解釈する可能性があるため、ここで検討することにしました。

この技術の以前のバージョンでは、プログラマーは音声サンプルを分類してテキストに変換するためのルールを発見して体系化するという面倒なプロセスを経る必要がありました。ディープラーニングとディープニューラルネットワークの進歩により、音声からテキストへの変換は飛躍的に進歩し、はるかに簡単かつ正確になりました。ニューラルネットワークでは、エンコードルールではなく、大量の音声サンプルと対応するテキストを入力します。ニューラルネットワークは、単語の発音における共通パターンを発見し、新しい音声録音を対応するテキストにマッピングすることを「学習」します。

[[247419]]

これらの進歩により、多くのサービスがユーザーにリアルタイムの文字起こしサービスを提供できるようになりました。

AI を活用した音声テキスト変換にはさまざまな用途があります。 Google は最近、詐欺電話を処理し、通話内容をリアルタイムで表示する Pixel スマートフォンの機能「Call Screen」をリリースしました。 YouTube はディープラーニングを使用して、クローズアップ字幕を自動で提供します。

しかし、AI アルゴリズムが音声をテキストに変換できるからといって、それが何を処理しているかを理解しているというわけではありません。

音声合成

音声テキスト変換のもうひとつの側面は音声合成です。繰り返しますが、これは知性ではありません。人間の言語の意味や文脈を理解することとは何の関係もないからです。しかし、人間とそれぞれの言語で対話する多くのアプリケーションでは、依然として不可欠な部分となっています。

音声テキスト変換と同様に、音声合成も長い間存在してきました。 90 年代に研究室で初めてコンピューター音声合成を見たのを覚えています。声を失ったALS患者は、文章を入力し、コンピューターに読み上げてもらうという方法でコミュニケーションをとるために、何十年もこの技術を使ってきました。視覚障害者もこの技術を使って、見えないテキストを読みます。

しかし、過去にはコンピューターで生成された音声は人間のようには聞こえず、音声モデルの作成には何百時間ものコーディングと調整が必要でした。現在では、ニューラルネットワークの助けにより、人間の声を合成することがそれほど難しくなくなりました。

このプロセスでは、ニューラルネットワークを互いに競わせて新しいデータを作成する AI 技術である生成的敵対的ネットワーク (GAN) を使用します。まず、ニューラルネットワークに、新しい音声サンプルが同じ人物のものであるかどうかを判別できるようになるまで、ある人物の音声のサンプルが大量に入力されます。次に、2 番目のニューラルネットワークが音声データを生成し、それを最初のネットワークに通して、それが対象者のものであるかどうかが検証されるかどうかを確認します。そうでない場合、ジェネレーターは例を修正し、分類器を介して再実行します。 2 つのネットワークは、自然なサウンドのサンプルを生成できるようになるまでこのプロセスを繰り返します。

ニューラルネットワークを使用して独自の音声を合成できる Web サイトがいくつかあります。このプロセスはシンプルで、必要なサウンドサンプルは十分であり、これは古いテクノロジの要件よりもはるかに少ないものです。

この技術には多くの良い用途があります。たとえば、企業は AI を活用した音声合成技術を使用して顧客体験を向上させ、ブランドに独自の声を与えています。医療分野では、AI が ALS 患者がコンピューターによる音声ではなく、本来の声を取り戻す手助けをしています。もちろん、Google もこの技術を使用しており、Duplex 機能ではユーザー自身の声を使って代わりに電話をかけることができます。

AI音声合成には悪質な用途もあります。標的の人物の声で通話を偽造したり、国家元首や有名政治家の声を真似て偽ニュースを広めたりするために使用できます。

コンピューターが人間のように話したり発音したりしても、それが何を言っているかを理解しているという意味ではないことは、改めて指摘する必要はないと思います。

人間の言語コマンドの処理

ここでは、表面を突破し、AI と人間の言語の関係についてさらに深く掘り下げます。近年、ディープラーニングの進歩により、自然言語処理 (NLP) の分野では驚異的な進歩が見られました。

NLP は人工知能のサブセットであり、音声をテキストに変換する場合、チャットボットなどのテキストインターフェイスを介して受信する場合、またはファイルから読み取る場合に、コンピューターが書かれた単語の意味を認識できるようにします。そして、これらの単語の背後にある意味を利用して、特定のアクションを実行できます。

しかし、NLP は非常に幅広い分野であり、さまざまなスキルが必要になる場合があります。最も単純な形式では、NLP はテキストコマンドを通じて与えられたコマンドをコンピューターが実行できるように支援します。

スマートフォンの AI アシスタントと音声アシスタントは、NLP を使用してユーザーのコマンドを処理します。基本的に、これはユーザーがコマンドの順序に厳密に従う必要がなく、同じ文のさまざまなバリエーションを使用できることを意味します。

一方、NLP は、Google の検索エンジンがユーザーのクエリのより広い意味を理解し、クエリに関連する結果を返すために使用するテクノロジーの 1 つです。

NLP は、Google Analytics や IBM Watson などの分析ツールで非常に役立ちます。これらのツールでは、ユーザーは複雑なクエリステートメントを記述する代わりに、自然言語ステートメントを使用してデータをクエリできます。

NLP の興味深い使用例は、Gmail のスマートリプライ機能です。 Google はメールの内容を確認し、推奨される回答を提供しました。この機能には範囲が限定されており、Google の AI アルゴリズムが会議の予定を検出した場合や、送信者が簡単な「ありがとう」や「確認させてください」を聞きたい場合など、短い返信で十分なメールにのみ機能します。しかし、時には、特にモバイルデバイスでは、非常に簡潔な回答が得られるため、入力にかかる時間を数秒節約できます。

しかし、スマート音声や AI アシスタントが天気に関するさまざまな質問に応答できるからといって、人間の言語を完全に理解しているわけではありません。現在の NLP は、意味が非常に明確な文を理解するのにしか適していません。 AI アシスタントは基本的なコマンドを実行する能力が向上していますが、AI アシスタントと有意義な会話をしたり抽象的なトピックについて話し合ったりできると考えていると、がっかりすることになるかもしれません。

人間の言葉で話す

NLP の裏側は自然言語生成 (NLG) であり、これはコンピューターが人間にとって意味のあるテキストを生成できるようにする AI 分野です。この分野は、人工知能、特にディープラーニングの進歩からも恩恵を受けています。 NLG アルゴリズムの出力は、チャットボットのようにテキスト形式で表示することも、スマート音声や AI アシスタントのように音声合成によって音声に変換してユーザー向けに再生することもできます。

[[247420]]

多くの場合、NLG は NLP と密接に関連しており、NLP と同様に、NLG はさまざまなレベルの複雑さを伴う非常に広範な分野です。 NLG の基本レベルには、非常に興味深い用途がいくつかあります。たとえば、NLG はグラフやスプレッドシートをテキストの説明に変換できます。 Siri や Alexa などの AI アシスタントも、クエリに対する応答を生成するために NLG を使用します。

Gmail のオートコンプリート機能は非常に興味深い方法で NLG を使用しています。文章を入力すると、Gmail から文章を完成させるための候補が表示されます。候補は、Tab キーを押すかタップして選択できます。この提案では、電子メールの件名が考慮されるため、NLP も関係します。

一部の出版物では、基本的なニュース記事を書くために AI を使用しています。一部のジャーナリストは、AIが近いうちに人間の作家に取って代わるだろうという話をでっち上げているが、彼らの見解は真実からかけ離れている。これらのニュース執筆ボットの背後にあるテクノロジーは NLG であり、基本的には人間のジャーナリストがレポートを書く方法を分析することで事実とデータをストーリーに変換します。新しいアイデアを思いつくことも、個人的な経験を語る物語を書くことも、意見を紹介したり詳しく説明したりするコラムを書くこともできません。

もう一つの興味深いケーススタディは、Google の Duplex です。 Google の AI アシスタントは、人工知能が人間の言語を理解する能力と限界を組み合わせたものです。 Duplex は、音声テキスト変換、NLP、NLG、音声合成を非常に優れた方法で組み合わせているため、電話で話している人間と同じように対話できると多くの人が信じています。しかし、Google Duplex は限定的な AI であり、レストランの予約やサロンの打ち合わせのスケジュール作成など、同社が実証したタイプのタスクの実行に優れていることを意味します。これらの領域における問題領域は有限かつ予測可能です。レストランでテーブルを予約することについて話し合うとき、言えることは限られています。

しかし、Duplex は会話の文脈を理解しません。人間の言語をコンピューターのコマンドに変換し、コンピューターの出力を人間の言語に変換するだけです。予測できない方向に進む可能性のある抽象的な話題について、有意義な会話を行うことはできません。

AI の言語処理および生成機能を過大評価した一部の企業は、その不足分を補うために結局人間の従業員を雇用することになった。

機械翻訳

2016年、ニューヨークタイムズマガジンは、人工知能（より具体的にはディープラーニング）がどのようにしてGoogleの人気翻訳エンジンの精度を飛躍的に向上させたかを説明する長文の特集記事を掲載しました。確かに、Google 翻訳は大幅に改善されました。

しかし、AI翻訳にも限界があり、このような状況に遭遇することがよくあります。ニューラルネットワークは、機械的かつ統計的なプロセスを使用して言語間の翻訳を行います。彼らは、ターゲット言語で単語やフレーズが出現するさまざまなパターンの例を示し、翻訳時に最も便利なパターンを選択しようとします。つまり、言葉の意味を翻訳するのではなく、数学的な値に基づいたマッピングです。

[[247421]]

対照的に、翻訳するときは、言語の文化や文脈、言葉やことわざの背後にある歴史を考慮します。彼らは決定を下す前にそのテーマの背景を調査します。これは非常に複雑なプロセスであり、多くの常識と抽象的な理解を必要としますが、人工知能はそれを持ち合わせていません。

インディアナ大学の認知科学と比較文学教授ダグラス・ホフスタッター氏は、アトランティック誌に掲載された記事の中で、AI翻訳の限界を明らかにした。

はっきり言って、AI 翻訳には非常に実用的な用途が数多くあります。フランス語から英語に翻訳するときに作業をスピードアップするために頻繁に使用しています。ほとんどの場合、シンプルで本物の文章を翻訳する方が良いでしょう。たとえば、自分の言語を理解していない人とコミュニケーションを取っていて、翻訳の質よりも文章の意味を理解することに興味がある場合、Google のような AI アプリケーションは非常に便利なツールになります。

しかし、AI がすぐにプロの翻訳者に取って代わることは期待できません。

AIが人間の言語をどのように理解しているかを理解する必要がある

まず、現在人工知能の最前線にあるディープラーニングの限界を認識する必要があります。現在、ディープラーニングは人間の言語を理解することができません。誰かがコードを解読し、人間の心と同じように世界を理解できる人工知能を開発すれば、状況は変わるかもしれない。しかし、それはすぐには起こりません。

ほとんどの例が示すように、AI は人間の能力を拡張し、人間の言語を使用するタスクの速度を上げたり下げたりするのに役立つテクノロジーです。しかし、人間の言語の習得を必要とする主題を完全に自動化することを可能にする常識と抽象的な問題解決能力はまだ欠けています。

したがって、人間のように話し、見え、行動する AI テクノロジーを扱うときは、その AI テクノロジーが人間の言語をどの程度深く理解しているかを考慮してください。機能と限界をよりよく理解できるようになります。外見は時には騙されることがあります。

<<: ファーウェイの「社会的採用停止」の背景：特殊分野を除き、レベル19以上の専門家のみを採用

>>: Google は機械学習を利用して画像内のオブジェクトにラベルを付け、インターフェース全体の速度を 3 倍に向上させました。

人工知能は人間の言語を習得したのか？見た目は騙されることがある

音声テキスト変換

音声合成

人間の言語コマンドの処理

人間の言葉で話す

機械翻訳

AIが人間の言語をどのように理解しているかを理解する必要がある

強力なJavaScriptによりスノーフレークアルゴリズムが実現

知らないのに知っているふりをしないでください!機械学習とディープラーニングを理解しましたか?

Ray で効率的なディープラーニングデータパイプラインを作成する

Web3.0時代: インターネット上で作成したものはすべてあなたのものになります

インターネットの前半は終わり、未来は人工知能の時代へ

労働者は大きなモデルに遭遇します。外の世界はすでにこのように機能しているのでしょうか?

BluePrismが中国市場に参入し、RPA業界に新たな道を開く

アリババ副社長でDAMOアカデミーの自動運転部門責任者の王剛氏が辞任し、自身のビジネスを立ち上げる予定

推薦する

機械学習プロジェクトに必須: エンドツーエンドの機械学習プロジェクト開発プロセスのタスクリスト

Ctrip の AI 推論パフォーマンスの自動最適化プラクティス

AIによって殺された最初の人々を見てみましょう

産業AI戦略を成功させる3つの鍵

Alipay のディープラーニングエンジン xNN を公開

AIはこれらの企業の製品イテレーションの最終決定権を持っている

マスターカードがAIを活用して詐欺を阻止し、誤ったチャージバックを削減する方法

機械学習モデルの解釈可能性について

Google ドキュメントでテキスト要約を自動的に生成できるようになりました。

産業用AIが製造業に革命を起こす5つの方法

年末ですね！ファーウェイクラウド開発者デーと2023イノベーションサミットが成功裏に開催されました

中山大学が偏りのない視覚的質問応答データセットを公開、その論文はトップジャーナルTNNLSに掲載される

マイクロソフトは、劣化が著しい古い写真を復元できる新しいアルゴリズムを開発した。