AIは2016年以来最もホットなキーワードであり、それについてはさまざまな意見があります。バブルがはじけようとしていると疑う人もいれば、この変化が大きなチャンスをもたらすと固く信じている人もいれば、脅威論を否定する人もいます。 このシリーズでは、さまざまな知識レベルの読者が恩恵を受けられるように、わかりやすいアプローチを採用しています。素人が人工知能を明確かつ客観的に理解できるようにし、内部関係者が AI によってもたらされる産業変革にうまく参加できるように支援します。 この記事では、AI の最も基本的なモジュール (コンピューター ビジョン、音声認識、自然言語処理、意思決定計画システム) から始めて、その発展の過程を振り返り、歴史を鏡として未来に目を向けていきます。 1. コンピュータビジョンの歴史 「見る」ということは人間が生まれながらに持っている能力です。新生児が両親の表情を真似ることを学ぶのに数日しかかからず、人間は複雑な構造の写真の中で焦点を見つけたり、薄暗い環境でも身近な人を認識したりできます。人工知能が発達するにつれ、機械はこの能力において人間に匹敵し、あるいはそれを凌駕しようとしています。 コンピュータ ビジョンの歴史は、人工知能科学者ミンスキーが学生たちに、カメラを通して見たものをコンピュータに伝えるプログラムを書くという課題を与えた 1966 年にまで遡ります。これは、コンピュータ ビジョンの最も初期のタスク記述とも考えられています。 1970 年代から 1980 年代にかけて、現代の電子コンピュータの出現により、コンピュータ ビジョン テクノロジも形になり始めました。人々はコンピューターに自分が見たものに答えさせようとし始めましたが、最初に思いついたのは、人間が物事を見る方法から学ぶということでした。
この段階でのアプリケーションは、主に光学文字認識、ワークピース認識、顕微鏡画像/航空画像の認識などです。 1990 年代までに、コンピューター ビジョン技術はさらに進歩し、産業分野で広く使用されるようになりました。その理由は、一方ではCPUやDSPなどの画像処理ハードウェア技術が急速に進歩したこと、他方では統計的手法や局所特徴記述子の導入など、さまざまなアルゴリズムを試す人も現れ始めたことです。 「事前知識ベース」方式では、物体の形状、色、表面の質感などの特徴は、視点や観察環境の影響を受け、異なる角度、異なる光、異なる遮蔽条件の下で変化します。 そこで、人々は局所的な特徴を特定することで物事を判断する方法を見つけました。物事の局所的な特徴のインデックスを確立することで、視点や観察環境が変わっても、より正確に物事を一致させることができます。 21 世紀に入り、インターネットの普及とデジタルカメラの登場によってもたらされた膨大なデータ、そして機械学習手法の広範な応用により、コンピューター ビジョンは急速に発展しました。これまでのルールベースの処理方法の多くは、大量のデータからオブジェクトの特性を自動的に要約し、識別して判断する機械学習に置き換えられました。 この段階では、一般的なカメラの顔検出、セキュリティの顔認識、ナンバープレート認識など、多数のアプリケーションが登場しました。 データの蓄積により、権威ある顔認識および顔比較認識プラットフォームである FDDB や LFW など、多くの評価データセットも生まれました。これらの中で最も影響力があるのは ImageNet で、数万のカテゴリに分類された 1,400 万枚のラベル付き画像が含まれています。 2010 年以降、ディープラーニングの助けにより、コンピューター ビジョン技術は爆発的な成長と産業化を経験しました。ディープニューラルネットワークにより、さまざまな視覚関連タスクの認識精度が大幅に向上しました。 世界で最も権威のあるコンピュータビジョンコンテストILSVR ImageNet大規模視覚認識コンテストでは、数千のカテゴリの物体認識におけるトップ5のエラー率は、2010年と2011年にそれぞれ28.2%と25.8%でした。2012年にディープラーニングが導入された後、その後の4年間のエラー率はそれぞれ16.4%、11.7%、6.7%、3.7%となり、大きな進歩を遂げました。 効果の向上により、コンピュータビジョン技術の応用シーンも急速に拡大しています。比較的成熟したセキュリティ分野での応用に加え、金融分野での顔認識による本人認証、電子商取引分野での商品写真検索、医療分野でのインテリジェント画像診断、ロボット/無人車両の視覚入力システムなどにも利用されており、自動写真分類(画像認識+分類)、画像説明生成(画像認識+理解)など、多くの興味深いシーンが含まれています。 2. 音声技術の発展の歴史 言語によるコミュニケーションは、人間にとって最も直接的かつ簡潔なコミュニケーション方法です。長い間、機械に「聞く」ことと「話す」ことを教え、人間とのバリアフリーなコミュニケーションを実現することは、人工知能と人間とコンピュータの相互作用の分野における大きな夢でした。 電子コンピュータが登場するずっと前から、人々は機械に音声を認識させることを夢見ていました。 1920年に製作されたおもちゃの犬「ラジオ レックス」は、世界初の音声認識装置かもしれない。誰かが「レックス」と叫ぶと、犬が台座から飛び出すことができた。 しかし、実際に使用されている技術は、真の音声認識ではなく、500 Hz の音を受信すると自動的に解放されるバネです。この音は、人が「レックス」と叫ぶときの母音の最初の共鳴ピークにあたります。 最初の真のコンピューターベースの音声認識システムは 1952 年に登場しました。AT&T ベル研究所が、10 個の英語の数字を最大 98% の精度で認識できる Audrey という音声認識システムを開発しました。 大規模な音声認識の研究は1970 年代に始まりましたが、その技術はまだ初期段階にあり、孤立した単語や語彙の少ない文の認識に限られていました。
1980 年代は技術革新の時代でした。その重要な理由の 1 つは、世界的なテレックス事業によって大量のテキストが蓄積され、それがモデルのトレーニングや統計のための機械可読コーパスとして使用できるようになったことです。研究の焦点は、徐々に大語彙、非特定話者の連続音声認識へと移ってきています。 当時の最も大きな変化は、従来のマッチングベースの思考を統計ベースの思考に置き換えたことから生まれました。重要な進歩の 1 つは、隠れマルコフモデル (HMM) の理論と応用の完成でした。 産業界でも幅広く活用されています。テキサス・インスツルメンツ社は音声学習機「Speak & Spell」を開発し、音声認識サービスプロバイダーのSpeech Works社が設立されたほか、米国防総省の高等研究計画局(DARPA)も一連の音声関連プロジェクトを後援・支援しています。 1990年代は音声認識が基本的に成熟した時期でした。主流のガウス混合モデルGMM-HMMフレームワークは徐々に安定しましたが、認識効果は実用化にはまだ程遠く、音声認識研究の進歩も徐々に鈍化しました。 1980 年代後半から 1990 年代前半にかけてのニューラル ネットワーク技術のブームにより、ニューラル ネットワーク技術は音声認識にも使用されるようになり、多層パーセプトロン - 隠れマルコフ モデル (MLP-HMM) ハイブリッド モデルが提案されました。ただし、そのパフォーマンスは GMM-HMM フレームワークを上回ることはできません。 この画期的な進歩はディープラーニングの登場とともに始まりました。ディープ ニューラル ネットワーク (DNN) が音声の音響モデル化に適用されるにつれて、音素認識タスクと大語彙の連続音声認識タスクにおいて画期的な進歩が遂げられました。 GMM-HMMベースの音声認識フレームワークは、DNN-HMMベースの音声認識システムに置き換えられました。システムの継続的な改善により、長短期記憶モジュール(LSTM)を備えた深層畳み込みニューラルネットワークとリカレントニューラルネットワーク(RNN)が登場し、認識効果がさらに向上しました。多くの(特に近距離)音声認識タスクでは、人々の日常生活に統合できる基準に達しています。 そのため、Apple Siri が主導するスマート音声アシスタントや、Echo が主導するスマート ハードウェア ポータルなどが登場しています。 これらのアプリケーションの普及により、コーパス リソースを収集するチャネルがさらに拡大し、言語モデルと音響モデルのトレーニングに豊富な情報が提供され、大規模な一般言語モデルと音響モデルの構築が可能になりました。 3. 自然言語処理の歴史 人間の日常の社会活動において、言語によるコミュニケーションは異なる個人間で情報を交換し、コミュニケーションをとる重要な手段です。そのため、機械にとって、人間と自然にコミュニケーションがとれ、人の意図を理解して適切な応答ができるかどうかは、機械の知能レベルを測る上で重要な基準と考えられており、自然言語処理は避けて通れない課題となっている。 1950 年代初頭には、電子計算機の出現とともに多くの自然言語処理タスクが登場しましたが、その中で最も典型的なのは機械翻訳でした。 当時、自然言語処理には、ルールベースの方法に基づく記号学派と確率的方法に基づく確率学派という 2 つの異なる学派がありました。当時のデータと計算能力の制限により、ランダム派は全力を発揮することができず、ルールベース派がわずかに有利になりました。 翻訳に関して言えば、機械翻訳のプロセスはコードを解読し、辞書を調べながら逐語的に翻訳しようとするようなものだと人々は考えています。この方法では翻訳結果の質が低く、使いにくいです。 当時の成果としては、1959年にペンシルバニア大学が開発したTDAPシステム(Transformation and Discourse Analysis Project、最も初期かつ最も完成度の高い英語自動構文解析システム)や、ブラウン系アメリカ英語コーパスの確立などが挙げられます。 IBM-701 コンピュータは世界初の機械翻訳実験を実施し、いくつかの簡単なロシア語の文章を英語に翻訳しました。その後、ソ連、イギリス、日本などの国々でも機械翻訳の実験が行われました。 1966年、米国科学アカデミーの自動言語処理諮問委員会(ALPAC)は「言語と機械」と題する研究報告書を発表し、機械翻訳の実現可能性を完全に否定し、機械翻訳は既存の困難を克服して実用化するには不十分であると主張した。 この報告書は、機械翻訳に対するこれまでの熱狂に水を差した。多くの国がこの分野への資金提供を削減し始め、多くの関連研究が中断を余儀なくされ、自然言語研究は低迷期に入った。 多くの研究者は失敗から学び、2つの言語の違いは語彙だけでなく、統語構造の違いにも反映されていることに気づきました。翻訳の可読性を向上させるために、言語モデルと意味分析の研究を強化する必要があります。 1976年に画期的な出来事が起こり、モントリオール大学とカナダ連邦政府の翻訳局が共同で開発しました。 天気予報サービスを提供するために、TAUM-METEOと呼ばれる機械翻訳システムが開発されました。このシステムは、1時間あたり6万~30万語、1日あたり1,000~2,000件の気象データを翻訳し、テレビや新聞を通じて即時に公開することができます。 その後、欧州連合や日本も多言語機械翻訳システムの研究を始めたが、期待した成果は得られなかった。 1990 年代までに、自然言語処理は急速な発展の時期に入りました。インターネットの発展により、コンピュータの計算速度と記憶容量が大幅に向上し、大規模な実テキストが蓄積され、Web 検索に代表される自然言語ベースの情報検索と抽出のニーズが出現したことにより、自然言語処理に対する人々の関心はかつてないほど高まっています。 従来のルールベースの処理技術では、よりデータ主導型の統計手法が導入され、自然言語処理の研究は新たなレベルに押し上げられました。自然言語処理は、機械翻訳だけでなく、Web検索、音声対話、会話ロボットなどの分野にも応用されています。 2010 年に入ってからは、ビッグデータや浅い学習と深い学習の技術をもとに、自然言語処理の効果がさらに最適化されました。機械翻訳の有効性がさらに向上し、専門のインテリジェント翻訳製品が登場しました。会話型インタラクション機能は、顧客サービスロボットやスマートアシスタントなどの製品で使用されます。 この時期の重要な節目は、IBM が開発した Watson システムがバラエティ番組「Jeopardy」に参加したことでした。ワトソンは競技中インターネットに接続されていませんでしたが、4TBのディスクに収められた200万ページの構造化情報と非構造化情報を頼りに、人間のプレイヤーを打ち負かして優勝し、自然言語処理技術の威力を世界に示しました。 機械翻訳に関して言えば、Google のニューラル ネットワーク マシン翻訳 (GNMT) は、従来のフレーズベース マシン翻訳 (PBMT) と比較して、英語からスペイン語へのエラー率が 87% 削減され、英語から中国語へのエラー率が 58% 削減されるという、非常に大きな改善を達成しました。 4. 計画決定システムの開発の歴史 人工知能による計画および意思決定システムの開発は、かつてはチェスゲームに基づいていました。 18 世紀初頭には、チェスをプレイできる機械が登場し、ナポレオンやフランクリンを含む当時のほぼすべての人間のチェス プレイヤーを打ち負かしました。しかし、結局、機械の中に人間のマスターが隠されていることが発覚し、複雑な機械構造を利用して観客を混乱させるという、単なる詐欺行為だった。 人工知能に基づく実際の計画および意思決定システムは、電子コンピュータの誕生後に登場しました。 1962年、度重なる改良を経て、アーサー・サミュエルが作成したチェッカープログラム「チェッカーズ」がついに州チャンピオンに勝利しました。 当時のプログラムはまだ知的ではありませんでしたが、予備的な自己学習能力はすでに備わっていました。この勝利は当時大きなセンセーションを巻き起こしました。何と言っても、知能の競争で機械が人間に勝ったのはこれが初めてだったのです。これにより、人々は「10年以内に機械が人間のチェスチャンピオンに勝つだろう」といった楽観的な予測を立てるようになった。 しかし、人工知能が直面する困難は人々の想像をはるかに上回り、チェッカープログラムは全国チャンピオンに敗れ、次のレベルに進むことができなかった。チェスはチェッカーよりもはるかに複雑です。当時の計算能力では、機械が力ずくの計算で人間のチェスプレイヤーに勝とうとすると、各動きの平均計算時間は数年単位になります。人々はまた、計算の複雑さを可能な限り減らすことによってのみ人間と競争できることを認識しています。 そのため、評価関数に「剪定法」を適用し、低確率の動きを排除することで最終的な評価関数の計算を最適化しました。ノースウェスタン大学が開発したチェス プログラム Chess 4.5 は、「剪定法」の助けを借りて、1976 年に初めて人間のトップ チェス プレイヤーに勝利しました。 1980年代に入り、アルゴリズムの継続的な最適化により、機械チェス プログラムの重要な勝敗状況における判断能力と計算速度が大幅に向上し、現在ではほぼすべてのトップクラスの人間チェス プレイヤーに勝つことができるようになりました。 1990年代までに、ハードウェアの性能とアルゴリズムの能力は大幅に向上しました。1997年の有名な人間と機械の戦いでは、IBMが開発したディープブルーがチェスの名人カスパロフを破りました。人間はチェスのゲームで機械に勝つのは難しいことに気づきました。
2016 年までに、ハードウェア レベルでは GPU と TPU に基づく並列コンピューティングが登場し、アルゴリズム レベルではモンテカルロ決定木とディープ ニューラル ネットワークの組み合わせが登場しました。 Alpha Goはイ・セドルを4対1で破り、Yefux Goのトッププレイヤーに60連勝し、世界一の囲碁プレイヤーである柯潔を3対0で破った。ボードゲームの最後の砦である囲碁もAlpha Goに征服され、人間は完全情報のゲームで機械に完全に負け、不完全情報によるテキサスホールデムと麻雀でしか生き残れない。 チェスゲームから人々が蓄積してきた知識と経験は、ロボット制御、無人車両など、意思決定と計画を必要とするより幅広い分野にも応用されています。ボードゲームは歴史的使命を果たし、人工知能を新たな歴史的出発点へと導きました。 5. 今日の人工知能 今日、人工知能の発展は、ある「限界」を突破しました。これまでの流行と比べると、今回の人工知能はより「現実的」であり、この「現実」はさまざまな垂直分野におけるパフォーマンスの向上と効率の最適化に反映されています。コンピュータビジョン、音声認識、自然言語処理の精度はもはや「ままごと」のレベルではなく、応用シナリオも単なる目新しい「おもちゃ」ではなく、現実のビジネスの世界で徐々に重要なサポート役を果たしています。 6. 音声処理の現状 完全な音声処理システムには、フロントエンドの信号処理、中間段階の音声意味認識と対話管理(自然言語処理をさらに含む)、および後期段階の音声合成が含まれます。 一般的に、音声技術の急速な発展に伴い、以前の制限条件は絶えず減少しています。たとえば、小語彙から大語彙、超大語彙へ、限定コンテキストから柔軟なコンテキスト、任意のコンテキストへ、静かな環境から近距離環境、遠距離雑音環境へ、読書環境から音声環境、任意の会話環境へ、単一言語から多言語、多言語混合へなどです。しかし、これにより音声処理に対する要求は高くなります。 音声のフロントエンド処理にはいくつかのモジュールが含まれます。
近距離相互作用であるハンドヘルド デバイスを除き、車内、スマート ホームなど、他の多くのシナリオは遠距離環境です。 遠距離環境では、音がマイクに到達したときに大幅に減衰し、近距離環境では言及する価値のないいくつかの問題が大幅に増幅される原因となります。これには、ノイズ、残響、エコーなどの問題を克服し、遠距離音の拾い上げをより適切に実現できるフロントエンド処理技術が必要です。 同時に、モデルを継続的に最適化し、結果を改善するには、遠距離環境でのトレーニング データもさらに必要です。 音声認識のプロセスには、特徴抽出、モデル適応、音響モデル、言語モデル、動的デコードなどの複数のプロセスが必要です。前述の遠距離認識問題に加えて、「カクテルパーティー問題」の解決に焦点を当てた最先端の研究が数多くあります。 「カクテル パーティー問題」は、人間の聴覚能力を示すもので、騒がしい環境での通常のコミュニケーションに影響を与えずに、複数人が集まる場面で音声とノイズが混ざった音声の中から少なくとも 1 つの音声を追跡して識別する能力です。 この機能は、次の 2 つのシナリオに反映されます。
機械にはこの能力がありません。現在の音声技術は、人の発言内容を認識する際には高い精度を発揮しますが、話者が 2 人以上いる場合は認識精度が大幅に低下します。 技術的な言葉で説明すると、問題の本質は、複数の人からの混合音声信号が与えられた場合、特定の話者の信号と他のノイズをどのように分離するかが単純なタスクであるのに対し、同時に話している各人の独立した音声信号を分離することが複雑なタスクであるということです。 これらのタスクに対して、研究者はいくつかの解決策を提案していますが、徐々にブレークスルーを達成し、最終的にカクテルパーティー問題を解決するには、さらに多くのトレーニングデータを蓄積し、トレーニングプロセスを改良する必要があります。
意味認識と対話管理は自然言語処理の範疇に属することを考慮すると、残るのは音声合成だけです。 音声合成のいくつかのステップには、テキスト分析、言語分析、音の長さの推定、発音パラメータの推定などが含まれます。 既存の技術に基づいて合成された音声は、明瞭度と了解度において良好なレベルに達していますが、機械的なアクセントは依然としてかなり目立っています。 現在の研究の方向性としては、合成音声をより自然に聞こえるようにする方法、合成音声をより表現力豊かにする方法、自然で流暢な多言語混合合成を実現する方法などがあります。これらの分野で画期的な進歩を遂げることによってのみ、合成音声は人間の声と真に区別がつかなくなるのです。 ある程度の制限された条件下では、機械は確かにある程度の「聞くことと話すこと」の能力を持つことができることがわかります。したがって、音声検索、音声翻訳、機械読み取りなどの特定のシナリオでは確かに役立ちます。 しかし、普通の人間のように他の人と本当に流暢かつ自由にコミュニケーションできるようになるまでには、しばらく時間がかかるでしょう。 7. 今日のコンピュータビジョン コンピュータビジョンの研究方向は、技術的な難易度が簡単なものから難しいもの、商用化度が高いものから低いものの順に、処理、認識と検出、分析と理解となっています。 画像処理とは、高レベルのセマンティクスを含まず、基礎となるピクセルのみを対象とする処理を指します。画像認識検出には、音声情報の単純な探索が含まれます。画像理解は、さらに一歩進んで、より豊かで幅広く、深いセマンティクスの探索が含まれます。 現時点では、処理と認識検出の面での機械のパフォーマンスはすでに満足のいくものです。しかし、理解のレベルにおいては、まだ研究すべきことがたくさんあります。 画像処理では、大量のトレーニング データ (ノイズのある画像とノイズのない画像を組み合わせるなど) に依存して、ディープ ニューラル ネットワークを使用してエンドツーエンドのソリューションをトレーニングします。典型的なタスクとしては、ノイズ除去、ぼかし除去、超解像処理、フィルター処理などがあります。 ビデオに適用する場合、主にビデオをフィルタリングするために使用されます。これらの技術は現在では比較的成熟しており、さまざまな写真編集ソフトウェアやビデオ処理ソフトウェアに採用されています。 画像認識検出のプロセスには、画像の前処理、画像のセグメンテーション、特徴抽出、判断のマッチングが含まれ、ディープラーニングに基づくエンドツーエンドのソリューションでもあります。これは、分類問題 (画像に猫が含まれているかどうかを識別するなど)、位置決め問題 (画像内の猫の位置を識別するなど)、検出問題 (画像内のどの動物がどこにいるかを識別するなど) を解決するために使用できます。 )、セグメンテーションの問題(画像内のどのピクセル領域が猫であるかなど)などがあります。 これらの技術も比較的成熟しており、画像での応用としては顔検出と認識、OCR(光学文字認識)などが挙げられ、動画では映画のスターの識別などに使用できます。 もちろん、ディープラーニングはこれらの各タスクにおいて重要な役割を果たします。 従来の顔認識アルゴリズムでは、色、形、質感などの特徴を考慮しても、精度は約 95% しか達成できません。ディープラーニングの助けにより、精度は 99.5% に達し、エラー率は 10 分の 1 に削減され、金融、セキュリティなどの分野での幅広い商用アプリケーションが可能になります。 OCR 分野における従来の認識方法では、テキストを認識して出力する前に、明瞭度判断、ヒストグラム均等化、グレースケール、傾き補正、文字切り取りなどの多数の前処理タスクを実行して、明瞭で正確な文字画像を取得する必要があります。 ディープラーニングの登場により、複雑で時間のかかる前処理と後処理の作業が不要になるだけでなく、単語の精度が 60% から 90% 以上に向上しました。 画像理解とは、本質的には画像とテキストの相互作用です。テキストベースの画像検索、画像説明生成、画像質問応答(画像と質問を与えると回答を出力する)などに使用できます。 従来の方法では、テキストベースの画像検索は、テキストに最も類似したテキストを検索し、対応するテキストと画像のペアを返します。画像の説明生成は、画像から認識されたオブジェクトに応じて、ルール テンプレートに基づいて説明テキストを生成します。画像質問応答は、それぞれ画像とテキストのデジタル表現を取得し、それらを分類して回答を取得します。 ディープラーニングを使用すると、画像とテキスト間のエンドツーエンドのモデルを直接構築して、結果を改善できます。画像理解タスクはまだ十分に成熟した成果が得られておらず、商用シナリオも検討されています。 コンピュータビジョンは、エンターテインメントやツールとして利用される初期段階に達していることがわかります。 自動写真分類、画像検索、画像説明生成などの機能はすべて、人間の視覚の補助ツールとして機能します。人間はもはや、情報を捉えるために自分の目、情報を処理するために自分の脳、そしてそれを分析して理解するために自分の脳に頼る必要はありません。代わりに、機械に情報を捉え、処理し、分析させ、その結果を人間に返すことができます。 将来的には、コンピューター ビジョンは、自律的な理解や分析的な意思決定の高度な段階にまで到達し、機械に真の「見る」能力を与え、スマート ホームや自動運転車などのアプリケーション シナリオでより大きな役割を果たす可能性があります。 8. 自然言語処理の現在 自然言語処理におけるいくつかのコアリンクには、知識の獲得と表現、自然言語の理解、自然言語の生成などが含まれます。それに応じて、知識グラフ、対話管理、機械翻訳などの研究方向が出現し、前述の処理リンクと多対多のマッピング関係を形成しています。 自然言語処理には、機械が「理解」する能力が必要であり、これは「認識」する能力よりも難しいため、関連する問題の多くは今日まで十分に解決されていません。 ナレッジ グラフは、知識を意味レベルで整理することによって得られる構造化された結果であり、単純な事実の質問に答えるために使用できます。 これには、言語知識グラフ (上位語と下位語、同義語など)、常識知識グラフ (「鳥は飛べるが、ウサギは飛べない」)、およびエンティティ関係グラフ (「アンディ・ラウの妻は朱立謙です」) が含まれます。 ナレッジ グラフを構築するプロセスは、実際には知識を獲得し、知識を表現し、知識を適用するプロセスです。 たとえば、インターネット上の「アンディ・ラウと妻の朱立謙が映画祭に出席した」という文章では、「アンディ・ラウ」、「妻」、「朱立謙」というキーワードを抽出し、「アンディ・ラウ-妻-朱立謙」のような三元表現を取得できます。 同様に、「Andy Lau-Height-174cm」のような三進表現も得られます。異なる分野の異なるエンティティのこれらの三元表現をまとめて整理すると、ナレッジ グラフ システムが構成されます。 意味理解は自然言語処理における最大の課題です。この問題の核心は、形式と意味の間の多対多のマッピングから、現在のコンテキストに基づいて最も適切なマッピングをどのように見つけるかということです。 中国語を例にとると、解決すべき困難が 4 つあります。
上記の困難を考慮すると、意味理解に対する可能な解決策は、知識制約を使用して多対多マッピングのジレンマを解決し、知識グラフを通じて機械知識を補足することです。 しかし、たとえ意味理解の難しさが克服されたとしても、機械の愚かさを軽減するにはまだ十分ではなく、対話管理におけるブレークスルーが依然として必要です。 現在、対話管理には、一般的な知識から専門的な知識まで、主にカジュアルなチャット、質疑応答、タスク主導の対話の 3 つの状況が含まれます。 雑談は、感情的なつながりとチャットの個性を備えたオープンドメインの会話です。たとえば、「今日は天気が良いですね」「はい、散歩に行きませんか?」などです。雑談の難しさは、気の利いた答えで興味を刺激し、不満を軽減し、会話の時間を延ばして粘り強さを向上させることです。 質問応答は、質問応答モデルと情報検索に基づく対話であり、通常は「アンディ・ラウの妻は誰ですか?」「アンディ・ラウの妻のチュー・リーチアンは、1966 年 4 月 6 日にマレーシアのペナンで生まれました...」のように、1 ラウンドで終了します。質問への回答には、比較的完全な知識グラフだけでなく、直接的な回答がない場合に回答を得るための推論の使用も必要です。 タスク駆動型ダイアログは、スロットの充填とインテリジェントな意思決定を伴い、通常は複数のラウンドで行われます。たとえば、「ランニング用の曲を再生する」、「Yu Quan の「Running」をおすすめする」、「英語の曲を聴きたい」、「Eminem の「Notafraid」をおすすめする」などです。単純なタスク駆動型ダイアログはすでに比較的成熟しています。今後の取り組みの方向は、手動のスロット定義に頼らずに、一般的な分野でダイアログ管理を確立する方法です。 歴史的に、自然言語生成の典型的な応用は機械翻訳でした。従来の方法は、フレーズベース機械翻訳 (PBMT) と呼ばれる方法です。まず完全な文をいくつかのフレーズに分割し、これらのフレーズを個別に翻訳し、次に文法規則に従って順序を調整して、一貫した翻訳に復元します。 プロセス全体は複雑ではないように見えますが、中国語の単語分割、品詞タグ付け、構文構造など、密接にリンクされた複数の自然言語処理アルゴリズムが関係しています。いずれかのリンクにエラーがあると、それが伝達され、最終結果に影響します。 一方、ディープラーニングは、大量のトレーニング データに依存し、エンドツーエンドの学習方法を使用して、特徴の選択や手動のパラメータ調整などの複雑な中間ステップを省略し、ソース言語とターゲット言語間のマッピング関係を直接確立します。 この考えを念頭に置いて、人々は 1990 年代初頭に提案された「エンコーダー - デコーダー」ニューラル機械翻訳構造を継続的に改良し、アテンション メカニズムを導入してシステム パフォーマンスを大幅に向上させました。 その後、Google チームは強力なエンジニアリング能力を駆使して、以前の SMT (統計的機械翻訳) を新しい機械翻訳システム GNMT (Google ニューラル機械翻訳) に置き換えました。GNMT は以前のシステムよりもスムーズで流暢であり、エラー率が大幅に低くなっています。 珍しい単語の翻訳、欠落した単語、重複した翻訳など、解決すべき問題はまだ多くありますが、ニューラル機械翻訳がパフォーマンスにおいて確かに大きな進歩を遂げたことは否定できません。また、将来的には海外旅行、ビジネス会議、国境を越えた交流などの場面での応用の見通しも非常に有望です。 インターネットの普及に伴い、情報の電子化も進んでいます。大量のデータは、トレーニング プロセスにおける自然言語処理の原動力となるだけでなく、自然言語処理の開発のための幅広い舞台も提供します。検索エンジン、会話型ロボット、機械翻訳、さらには大学入試ロボットやインテリジェントオフィス秘書などが、人々の日常生活においてますます重要な役割を果たし始めています。 9. 今日の機械学習 人工知能のレベルから見ると、機械学習は、コンピュータービジョン、自然言語処理、音声処理などの他の技術レベルよりも低いレベルの概念です。近年、テクノロジーの発展が活発化しており、アルゴリズムレベルでの機械学習もいくつかの重要な研究方向を生み出しています。 1 つ目は、垂直分野における幅広い応用です。 機械学習にはまだ多くの制限があり、普遍的ではないことを考えると、比較的狭い垂直分野への応用がより良い参入点となっています。 なぜなら、限られた分野内では、第一に、問題空間が十分に小さくなり、モデルの効果が向上する可能性があるからです。第二に、特定のシナリオのトレーニング データが蓄積しやすくなり、モデルのトレーニングがより効率的かつ的を絞ったものになります。第三に、人々の機械に対する期待は具体的で高くありません。 これら 3 つのポイントにより、マシンは限られた分野内で十分な知能を発揮し、最終的なユーザー エクスペリエンスが比較的向上します。 そのため、金融、法律、医療などの垂直分野では、ある程度の商業化を達成した成熟したアプリケーションがいくつか見られました。将来的には、垂直分野における反復的な労働の大部分が人工知能に置き換えられると予測されます。 2 つ目は、単純な凸最適化問題の解決から非凸最適化問題の解決に移行することです。 最適化問題とは、すべての考慮事項を関数のセットとして表現し、その中から最適なソリューションを選択することです。凸最適化問題の良い特性は、局所最適値が全体最適値であることです。 現在、機械学習におけるほとんどの問題は、特定の制約を追加することで凸最適化問題に変換または近似できます。 どのような最適化問題でも関数上のすべての点を走査することで最適値を見つけることができますが、計算量は非常に大きくなります。 特に特徴次元が多い場合、次元災害が発生します (特徴の数が、既知のサンプル数に対して存在できる特徴数の上限を超え、分類器のパフォーマンスが低下します)。凸最適化の特性により、勾配降下法を通じて降下方向を見つけることができ、見つかった局所最適解が全体最適解になります。 しかし、現実には、凸最適化の特性に真に適合する問題はそれほど多くありません。現在、凸最適化問題に注目が集まっているのは、単にそのような問題の方が解決しやすいからです。 夜道で鍵を失くした場合、人々はまず街灯の下で鍵を探すのと同じです。したがって、言い換えれば、非凸最適化問題に対する効果的なアルゴリズムはまだ存在せず、それが人々の努力の方向でもあるのです。 3つ目のポイントは、教師あり学習から教師なし学習、強化学習への進化です。 現在、ほとんどの AI アプリケーションは、ラベル付けされたトレーニング データのセットを使用して分類器のパラメータを調整し、必要なパフォーマンスを達成する、教師あり学習によって実現されています。しかし、現実の世界では、教師あり学習だけでは「インテリジェント」とは言えません。 人間の学習プロセスと比較すると、それらの多くは物との相互作用に基づいています。人間自身の経験と理解を通じて、私たちは物に対する理解を獲得し、それを将来の生活に応用します。機械の限界は、この「常識」の欠如にあります。 畳み込みニューラル ネットワークの父であり、Facebook AI 研究所の所長である Yann LeCun 氏は、かつて「ブラック フォレスト ケーキ」の比喩を使って、教師あり学習、教師なし学習、強化学習の関係についての自身の理解を説明しました。 機械学習をブラックフォレストケーキと見なすと、(純粋な)強化学習はケーキに欠かせない飾りで、数ビットのサンプルサイズしか必要としません。教師あり学習はケーキの外側のアイシングで、10~10,000ビットのサンプルサイズを必要とします。教師なし学習はケーキの本体で、数百万ビットのサンプルサイズを必要とし、強力な予測機能を備えています。 しかし彼はまた、チェリーは必要な材料であり、強化学習と教師なし学習は互いに補完し合い、不可欠であるということを強調した。 教師なし学習の分野における最近の研究では、「生成的敵対ネットワーク」(GAN) に焦点が当てられています。これは、ジェネレーターと識別器ネットワークを互いに競合させることによって実装されます。ジェネレーターは、トレーニング セットから実際のデータと干渉ノイズをランダムに選択して新しいトレーニング サンプルを生成し、識別器は実際のデータと比較してデータの信頼性を判断します。 このプロセスでは、ジェネレーターとディスクリミネーターが対話的に学習し、予測機能を自動的に最適化して、最適な予測モデルを作成します。 GAN は 2014 年に Ian Goodfellow 氏によって提案されて以来、主要なトップカンファレンスで話題をさらい、Yann LeCun 氏によって「機械学習の分野で 20 年間で最もクールなアイデア」と評されました。 一方、強化学習は、自然界における生物学的学習プロセスの起源に近いものです。つまり、自分自身を環境内のエージェントとして想像すると、一方では新しい可能性を発見するために絶えず探索する必要があり(探索)、他方では既存の条件下で最善を尽くす必要があります(活用)。 正しい決定は遅かれ早かれ報酬(正の報酬)をもたらしますが、そうでなければ、最終的に問題に対する答え(最適なポリシー)を習得するまで、罰(負の報酬)をもたらします。 強化学習の重要な研究方向は、現実世界と相互作用し、継続的にトレーニングし、さまざまなアクションの実行をシミュレートし、さまざまなフィードバックを受け取ってモデルをトレーニングする効果的なシミュレーション環境を確立することです。 10. 人工知能の未来 技術の急速な進歩により、人工知能はついに黄金時代を迎えました。過去 60 年間の人工知能の浮き沈みを振り返ると、歴史は次の教訓を教えてくれます。
例えば、コンピュータビジョンでは、自然条件(光、遮蔽など)の影響や、被写体の認識と判断(複雑な画像で焦点を見つける)の問題があり、音声技術では、特定の場面(車、家など)でのノイズの問題、遠距離認識の問題、ロングテールコンテンツ認識の問題(口語、方言など)があり、自然言語処理では、理解力の欠如、物理世界との対応の欠如(「常識」の欠如)、ロングテールコンテンツ認識の問題があります。 一般的に、既存の人工知能技術は、第一に、大量の高品質のトレーニングデータに依存していること、第二に、ロングテールの問題の処理に効果的ではないこと、そして第三に、独立した特定のアプリケーションシナリオに依存しており、汎用性が低いことがわかります。 将来を見据えると、人々が人工知能に抱く位置づけは、狭く特定の分野で単純かつ具体的な小さな課題を解決することだけではなく、真に人間のようになり、異なる分野や種類の問題を同時に解決し、人間のように判断や決定を下せるようになること、いわゆる汎用人工知能(AGI)です。 具体的には、機械は、一方では知覚学習と認知学習を通じて世界を理解し、他方では強化学習を通じて世界をシミュレートできる必要があります。 前者は、機械が情報を知覚し、注意、記憶、理解を通じて知覚した情報を抽象的な知識に変換し、人間が蓄積した知識を迅速に学習することを可能にします。後者は、シミュレートされた環境を作成し、機械が知識を獲得し、環境との相互作用における試行錯誤を通じて知識を継続的に最適化することを可能にします。 人々は、アルゴリズムと分野の学際的な統合と最適化を通じて、創造性、汎用性、物理世界を理解する能力における人工知能の問題を包括的に解決することを望んでいます。 将来的には、基盤となるインフラストラクチャは、最新の AI シナリオと、インターネットや IoT によって提供されるデータであり、これらは生産の原材料となります。 アルゴリズム層は、ディープラーニングと強化学習によって提供される現代の人工知能のコアモデルとなり、クラウドコンピューティングによって提供されるコアコンピューティングパワーによって補完されます。これらは生産のエンジンです。 これらに基づいて、コンピュータービジョン、自然言語処理、音声技術、ゲーム AI、ロボットなど、それらはすべて同じデータ、モデル、アルゴリズムに基づくさまざまなアプリケーションシナリオです。 まだ解決すべき緊急の問題がいくつかあり、これらの問題を解決することこそが、人々が AGI に向かって一歩ずつ進む唯一の方法です。 1つ目はビッグデータからスモールデータへです。 ディープラーニングのトレーニングプロセスには、手動で注釈を付けた大量のデータが必要です。たとえば、自動運転車の研究では、車、人、建物にラベルを付けたストリートビューの写真が大量に必要です。音声認識の研究では、テキスト読み上げ放送と音声テキスト化ディクテーションが必要です。機械翻訳には、バイリンガルの文章ペアが必要です。囲碁には、人間の達人による動きの記録が必要です。 しかし、大規模なデータのラベル付けは、特に基本データの収集さえも問題となるロングテールのシナリオでは、時間と労力を要する作業です。 そのため、欠損データがある状態でトレーニングするか、ラベルのないデータから学習するか、トレーニング用のデータを自動的にシミュレート(生成)するかが研究の方向性の一つとなっています。現在非常に人気のあるGANは、データ生成モデルです。 2つ目は、大型モデルから小型モデルへです。 現在、ディープラーニング モデルは非常に大きく、数百メガバイト (MB) になることも多く、大規模なモデルでは数ギガバイト (GB) や数十ギガバイト (GB) に達することもあります。 このモデルはPC上では問題なく操作できますが、モバイルデバイスで使用すると非常に面倒になります。その結果、音声入力、音声翻訳、画像フィルターなどのモバイルベースのアプリでは良好な結果を達成できなくなります。 この分野の研究方向は、モデルを直接圧縮したり、より洗練されたモデルを設計したりしてモデルのサイズを縮小し、モバイル端末での低電力コンピューティングとクラウドコンピューティングを組み合わせることで、大きなモデルの効果を小さなモデルで実現することです。 最終的には、知覚と認識から理解と意思決定へと進みます。 視覚や聴覚など、人間の知能の知覚や認知の側面に関しては、機械はすでに、特定の限られた条件下では十分にそれを実行できます。もちろん、これらの作業は難しいものではありません。機械の価値は、人間よりも速く、正確に、そして低コストで実行できることにあります。 しかし、これらのタスクは基本的に静的です。つまり、入力が与えられれば、出力結果は確実です。囲碁のゲームに勝つ方法、ある交差点から別の交差点まで運転する方法、株に投資してお金を稼ぐ方法など、いくつかの動的なタスクでは、不完全な情報による意思決定の問題で、環境との継続的な相互作用、フィードバックの収集、戦略の最適化が必要であり、これも強化学習の強みです。強化学習が根付き、芽生えるための土壌としての模擬環境(シミュレータ)も重要な研究方向です。 |
>>: マイクロソフトが新たな特許を取得: 移動中のダイナミックなドローン配達システム
人工知能は人間の弱点を補うものであり、人間に代わるものではない多くの人が「人工知能が人間に取って代わ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
化学合成に関する文献の量は急速に増加していますが、新しいプロセスを研究室間で共有し評価するには長い時...
より鮮明な写真を撮るには、カメラ レンズの優先フォーカスを使用して同じ写真を再度撮影するか、ディープ...
人工知能技術の応用により、コースの内容、教授法、教師と生徒の関係が変化しています。人工知能の利用によ...
昨日、コミュニティ全体で最もホットな話題となったのは、reddit の機械学習研究者が、Google...
[51CTO.com クイック翻訳] データから学習し、パターンを識別し、人間の介入を最小限に抑えて...
お腹が空いたら、キッチンロボットがミシュランレストランの基準に匹敵するステーキを調理します。運転した...
9月15日、北京人工知能産業サミットおよび中関村科学城科学技術イノベーションコンテスト授賞式において...
この不況は、私たちがこれまで経験したどの不況よりも深刻で、突然のものである。私たちは皆、嵐がすぐに過...