[詳細] 人工知能の生涯を10分で読む

[詳細] 人工知能の生涯を10分で読む

AIは2016年以来最もホットなキーワードであり、それについてはさまざまな意見があります。バブルがはじけようとしていると疑う人もいれば、この変化が大きなチャンスをもたらすと固く信じている人もいれば、脅威論を否定する人もいます。

このシリーズでは、さまざまな知識レベルの読者が恩恵を受けられるように、わかりやすいアプローチを採用しています。素人が人工知能を明確かつ客観的に理解できるようにし、内部関係者が AI によってもたらされる産業変革にうまく参加できるように支援します。

この記事では、AI の最も基本的なモジュール (コンピューター ビジョン、音声認識、自然言語処理、意思決定計画システム) から始めて、その発展の過程を振り返り、歴史を鏡として未来に目を向けていきます。

コンピュータビジョンの歴史

「見る」ということは人間が生まれながらに持っている能力です。新生児が両親の表情を真似ることを学ぶのに数日しかかからず、人間は複雑な構造の写真の中で焦点を見つけたり、薄暗い環境でも身近な人を認識したりできます。人工知能が発達するにつれ、機械はこの能力において人間に匹敵し、あるいはそれを凌駕しようとしています。

コンピュータ ビジョンの歴史は、人工知能科学者ミンスキーが学生たちに、カメラを通して見たものをコンピュータに伝えるプログラムを書くという課題を与えた 1966 年にまで遡ります。これは、コンピュータ ビジョンの最も初期のタスク記述とも考えられています。

1970 年代から 1980 年代にかけて、現代の電子コンピュータの出現により、コンピュータ ビジョン テクノロジも形になり始めました。人々はコンピューターに自分が見たものに答えさせようとし始めましたが、最初に思いついたのは、人間が物事を見る方法から学ぶということでした。

参考文献の 1 つは、当時の人々は、人間は 2 つの目を通して 3 次元で物事を観察できるため、物事を見て理解できると一般に信じていたというものです。したがって、コンピュータが見た画像を理解するためには、まず2次元画像から物体の3次元構造を復元する必要があります。これがいわゆる「3次元再構成」という手法です。

2 つ目の参考文献は、人間がリンゴを認識できるのは、リンゴが赤くて丸くて表面が滑らかであるなど、リンゴに関する事前知識をすでに持っているからだ、と人々が信じていることです。機械用にそのような知識ベースも構築し、機械が見た画像をベースに保存されている知識と照合できるようにすれば、機械が見たものを認識し、さらには理解できるようになるでしょうか。これはいわゆる「事前知識ベース」方式です。

この段階でのアプリケーションは、主に光学文字認識、ワークピース認識、顕微鏡画像/航空画像の認識などです。

1990 年代までに、コンピューター ビジョン技術はさらに進歩し、産業分野で広く使用されるようになりました。その理由は、一方ではCPUやDSPなどの画像処理ハードウェア技術が急速に進歩したこと、他方では統計的手法や局所特徴記述子の導入など、さまざまなアルゴリズムを試す人も現れ始めたことです。

「事前知識ベース」方式では、物体の形状、色、表面の質感などの特徴は、視点や観察環境の影響を受け、異なる角度、異なる光、異なる遮蔽条件の下で変化します。

そこで、人々は局所的な特徴を特定することで物事を判断する方法を見つけました。物事の局所的な特徴のインデックスを確立することで、視点や観察環境が変わっても、より正確に物事を一致させることができます。

21 世紀に入り、インターネットの普及とデジタルカメラの登場によってもたらされた膨大なデータ、そして機械学習手法の広範な応用により、コンピューター ビジョンは急速に発展しました。これまでのルールベースの処理方法の多くは、大量のデータからオブジェクトの特性を自動的に要約し、識別して判断する機械学習に置き換えられました。

この段階では、一般的なカメラの顔検出、セキュリティの顔認識、ナンバープレート認識など、多数のアプリケーションが登場しました。

データの蓄積により、権威ある顔認識および顔比較認識プラットフォームである FDDB や LFW など、多くの評価データセットも生まれました。これらの中で最も影響力があるのは ImageNet で、数万のカテゴリに分類された 1,400 万枚のラベル付き画像が含まれています。

2010 年以降、ディープラーニングの助けにより、コンピューター ビジョン技術は爆発的な成長と産業化を経験しました。ディープニューラルネットワークにより、さまざまな視覚関連タスクの認識精度が大幅に向上しました。

世界で最も権威のあるコンピュータービジョンのコンテストILSVR(ImageNet Large Scale Visual Recognition Competition)では、数千の物体を認識する際のトップ5エラー率は、2010年と2011年にそれぞれ28.2%と25.8%でした。2012年にディープラーニングが導入された後、その後の4年間のエラー率はそれぞれ16.4%、11.7%、6.7%、3.7%となり、大きな進歩を遂げました。

効果の向上により、コンピュータビジョン技術の応用シーンも急速に拡大しています。比較的成熟したセキュリティ分野での応用に加え、金融分野での顔認識による本人認証、電子商取引分野での商品写真検索、医療分野でのインテリジェント画像診断、ロボット/無人車両の視覚入力システムなどにも利用されており、自動写真分類(画像認識+分類)、画像説明生成(画像認識+理解)など、多くの興味深いシーンが含まれています。

音声技術の歴史

言語によるコミュニケーションは、人間にとって最も直接的かつ簡潔なコミュニケーション方法です。長い間、機械に「聞く」ことと「話す」ことを教え、人間とのバリアフリーなコミュニケーションを実現することは、人工知能と人間とコンピュータの相互作用の分野における大きな夢でした。

電子コンピュータが登場するずっと前から、人々は機械に音声を認識させることを夢見ていました。 1920年に製作されたおもちゃの犬「ラジオ レックス」は、世界初の音声認識装置かもしれない。誰かが「レックス」と叫ぶと、犬が台座から飛び出すことができた。

しかし、実際に使用されている技術は、真の音声認識ではなく、500 Hz の音を受信すると自動的に解放されるバネです。この音は、人が「レックス」と叫ぶときの母音の最初の共鳴ピークにあたります。

最初の真のコンピューターベースの音声認識システムは 1952 年に登場しました。AT&T ベル研究所が、10 個の英語の数字を最大 98% の精度で認識できる Audrey という音声認識システムを開発しました。

大規模な音声認識の研究は 1970 年代に始まりましたが、その技術はまだ初期段階にあり、孤立した単語や語彙の少ない文章の認識に限られていました。

[[232904]]

1980 年代は技術革新の時代でした。その重要な理由の 1 つは、世界的なテレックス事業によって大量のテキストが蓄積され、それがモデルのトレーニングや統計のための機械可読コーパスとして使用できるようになったことです。研究の焦点は、徐々に大語彙、非特定話者の連続音声認識へと移ってきています。

当時の最も大きな変化は、従来のマッチングベースの思考を統計ベースの思考に置き換えたことから生まれました。重要な進歩の 1 つは、隠れマルコフモデル (HMM) の理論と応用の完成でした。

産業界でも幅広く活用されています。テキサス・インスツルメンツ社は音声学習機「Speak & Spell」を開発し、音声認識サービスプロバイダーのSpeech Works社が設立されたほか、米国防総省の高等研究計画局(DARPA)も一連の音声関連プロジェクトを後援・支援しています。

1990年代は音声認識が基本的に成熟した時期でした。主流のガウス混合モデルGMM-HMMフレームワークは徐々に安定しましたが、認識効果は実用化にはまだ程遠く、音声認識研究の進歩も徐々に鈍化しました。

1980 年代後半から 1990 年代前半にかけてのニューラル ネットワーク技術のブームにより、ニューラル ネットワーク技術は音声認識にも使用されるようになり、多層パーセプトロン - 隠れマルコフ モデル (MLP-HMM) ハイブリッド モデルが提案されました。ただし、そのパフォーマンスは GMM-HMM フレームワークを上回ることはできません。

この画期的な進歩はディープラーニングの登場とともに始まりました。ディープ ニューラル ネットワーク (DNN) が音声の音響モデル化に適用されるにつれて、音素認識タスクと大語彙の連続音声認識タスクにおいて画期的な進歩が遂げられました。

GMM-HMMベースの音声認識フレームワークは、DNN-HMMベースの音声認識システムに置き換えられました。システムの継続的な改善により、長短期記憶モジュール(LSTM)を備えた深層畳み込みニューラルネットワークとリカレントニューラルネットワーク(RNN)が登場し、認識効果がさらに向上しました。多くの(特に近距離)音声認識タスクでは、人々の日常生活に統合できる基準に達しています。

そのため、Apple Siri が主導するスマート音声アシスタントや、Echo が主導するスマート ハードウェア ポータルなどが登場しています。

これらのアプリケーションの普及により、コーパス リソースを収集するチャネルがさらに拡大し、言語モデルと音響モデルのトレーニングに豊富な情報が提供され、大規模な一般言語モデルと音響モデルの構築が可能になりました。

自然言語処理の歴史

人間の日常の社会活動において、言語によるコミュニケーションは異なる個人間で情報を交換し、コミュニケーションをとる重要な手段です。そのため、機械にとって、人間と自然にコミュニケーションがとれ、人の意図を理解して適切な応答ができるかどうかは、機械の知能レベルを測る上で重要な基準と考えられており、自然言語処理は避けて通れない課題となっている。

1950 年代初頭、電子コンピュータの出現により、多くの自然言語処理タスクが登場しましたが、その中で最も典型的なのは機械翻訳でした。

当時、自然言語処理には、ルールベースの方法に基づく記号学派と確率的方法に基づく確率学派という 2 つの異なる学派がありました。当時のデータと計算能力の制限により、ランダム派は全力を発揮することができず、ルールベース派がわずかに有利になりました。

翻訳に関して言えば、機械翻訳のプロセスはコードを解読し、辞書を調べながら逐語的に翻訳しようとするようなものだと人々は考えています。この方法では翻訳結果の質が低く、使いにくいです。

当時の成果としては、1959年にペンシルバニア大学が開発したTDAPシステム(Transformation and Discourse Analysis Project、最も初期かつ最も完成度の高い英語自動構文解析システム)や、ブラウン系アメリカ英語コーパスの確立などが挙げられます。

IBM-701 コンピュータは世界初の機械翻訳実験を実施し、いくつかの簡単なロシア語の文章を英語に翻訳しました。その後、ソ連、イギリス、日本などの国々でも機械翻訳の実験が行われました。

1966年、米国科学アカデミーの自動言語処理諮問委員会(ALPAC)は「言語と機械」と題する研究報告書を発表し、機械翻訳の実現可能性を完全に否定し、機械翻訳は既存の困難を克服して実用化するには不十分であると主張した。

この報告書は、機械翻訳に対するこれまでの熱狂に水を差した。多くの国がこの分野への資金提供を削減し始め、多くの関連研究が中断を余儀なくされ、自然言語研究は低迷期に入った。

多くの研究者は失敗から学び、2つの言語の違いは語彙だけでなく、統語構造の違いにも反映されていることに気づきました。翻訳の可読性を向上させるために、言語モデルと意味分析の研究を強化する必要があります。

1976年、カナダのモントリオール大学とカナダ連邦政府の翻訳局が共同で、天気予報サービスを提供するためにTAUM-METEOと呼ばれる機械翻訳システムを開発し、画期的な出来事が起こりました。このシステムは、1時間あたり6万~30万語、1日あたり1,000~2,000件の気象データを翻訳し、テレビや新聞を通じて即時に公開することができます。

その後、欧州連合や日本も多言語機械翻訳システムの研究を始めたが、期待した成果は得られなかった。

1990 年代までに、自然言語処理は急速な発展の時期に入りました。インターネットの発展により、コンピュータの計算速度と記憶容量が大幅に向上し、大規模な実テキストが蓄積され、Web 検索に代表される自然言語ベースの情報検索と抽出のニーズが出現したことにより、自然言語処理に対する人々の関心はかつてないほど高まっています。

従来のルールベースの処理技術では、よりデータ主導型の統計手法が導入され、自然言語処理の研究は新たなレベルに押し上げられました。自然言語処理は、機械翻訳だけでなく、Web検索、音声対話、会話ロボットなどの分野にも応用されています。

2010 年に入ってからは、ビッグデータや浅い学習と深い学習の技術をもとに、自然言語処理の効果がさらに最適化されました。機械翻訳の有効性がさらに向上し、専門のインテリジェント翻訳製品が登場しました。会話型インタラクション機能は、顧客サービスロボットやスマートアシスタントなどの製品で使用されます。

この時期の重要な節目は、IBM が開発した Watson システムがバラエティ番組「Jeopardy」に参加したことでした。ワトソンは競技中インターネットに接続されていませんでしたが、4TBのディスクに収められた200万ページの構造化情報と非構造化情報を頼りに、人間のプレイヤーを打ち負かして優勝し、自然言語処理技術の威力を世界に示しました。

機械翻訳に関して言えば、Google のニューラル ネットワーク マシン翻訳 (GNMT) は、従来のフレーズベース マシン翻訳 (PBMT) と比較して、英語からスペイン語へのエラー率が 87% 削減され、英語から中国語へのエラー率が 58% 削減されるという、非常に大きな改善を達成しました。

計画と意思決定システムの歴史

人工知能による計画および意思決定システムの開発は、かつてはチェスゲームに基づいていました。 18 世紀初頭には、チェスをプレイできる機械が登場し、ナポレオンやフランクリンを含む当時のほぼすべての人間のチェス プレイヤーを打ち負かしました。しかし、結局、機械の中に人間のマスターが隠されていることが発覚し、複雑な機械構造を利用して観客を混乱させるという、単なる詐欺行為だった。

人工知能に基づく実際の計画および意思決定システムは、電子コンピュータの誕生後に登場しました。1962 年、アーサー サミュエルが作成したチェッカー プログラム Checkers は、度重なる改良を経て、ついに州のチャンピオンに勝利しました。

当時のプログラムはまだ知的ではありませんでしたが、予備的な自己学習能力はすでに備わっていました。この勝利は当時大きなセンセーションを巻き起こしました。何と言っても、知能の競争で機械が人間に勝ったのはこれが初めてだったのです。これにより、「10年以内に機械が人間のチェスチャンピオンに勝つだろう」という楽観的な予測も生まれました。

しかし、人工知能が直面する困難は人々の想像をはるかに上回り、チェッカープログラムは全国チャンピオンに敗れ、次のレベルに進むことができなかった。チェスはチェッカーよりもはるかに複雑です。当時の計算能力では、機械が力ずくの計算で人間のチェスプレイヤーに勝とうとすると、各動きの平均計算時間は数年単位になります。人々はまた、計算の複雑さを可能な限り減らすことによってのみ人間と競争できることを認識しています。

そのため、評価関数に「剪定法」を適用し、低確率の動きを排除することで最終的な評価関数の計算を最適化しました。ノースウェスタン大学が開発したチェス プログラム Chess 4.5 は、「剪定法」の助けを借りて、1976 年に初めて人間のトップ チェス プレイヤーに勝利しました。

1980 年代に入り、アルゴリズムの継続的な最適化により、機械チェス プログラムの重要な勝敗状況における判断能力と計算速度が大幅に向上し、現在ではほぼすべてのトップクラスの人間チェス プレイヤーに勝つことができるようになりました。

1990年代までに、ハードウェアの性能とアルゴリズムの能力は大幅に向上しました。1997年の有名な人間と機械の戦いでは、IBMが開発したディープブルーがチェスの名人カスパロフを破りました。人間はチェスのゲームで機械に勝つのは難しいことに気づきました。

[[232905]]

2016 年までに、ハードウェア レベルでは GPU と TPU に基づく並列コンピューティングが登場し、アルゴリズム レベルではモンテカルロ決定木とディープ ニューラル ネットワークの組み合わせが登場しました。

Alpha Goはイ・セドルを4対1で破り、Yefux Goのトッププレイヤーに60連勝し、世界一の囲碁プレイヤーである柯潔を3対0で破った。ボードゲームの最後の砦である囲碁もAlpha Goに征服され、人間は完全情報のゲームで機械に完全に負け、不完全情報によるテキサスホールデムと麻雀でしか生き残れない。

チェスゲームから人々が蓄積してきた知識と経験は、ロボット制御、無人車両など、意思決定と計画を必要とするより幅広い分野にも応用されています。ボードゲームは歴史的使命を果たし、人工知能を新たな歴史的出発点へと導きました。

今日の人工知能

今日、人工知能の発展は、ある「限界」を突破しました。これまでの流行と比べると、今回の人工知能はより「現実的」であり、この「現実」はさまざまな垂直分野におけるパフォーマンスの向上と効率の最適化に反映されています。コンピュータビジョン、音声認識、自然言語処理の精度はもはや「ままごと」のレベルではなく、応用シナリオも単なる目新しい「おもちゃ」ではなく、現実のビジネスの世界で徐々に重要なサポート役を果たしています。

音声処理の現在

完全な音声処理システムには、フロントエンドの信号処理、中間段階の音声意味認識と対話管理(自然言語処理をさらに含む)、および後期段階の音声合成が含まれます。

一般的に、音声技術の急速な発展に伴い、以前の制限条件は絶えず減少しています。たとえば、小語彙から大語彙、超大語彙へ、限定コンテキストから柔軟なコンテキスト、任意のコンテキストへ、静かな環境から近距離環境、遠距離雑音環境へ、読書環境から音声環境、任意の会話環境へ、単一言語から多言語、多言語混合へなどです。しかし、これにより音声処理に対する要求は高くなります。

音声のフロントエンド処理にはいくつかのモジュールが含まれます。

▵ 話者音声検出:話者音声の開始時間と終了時間を効果的に検出し、話者音声を背景音から区別します。

▵ エコーキャンセル:スピーカーで音楽を再生しているとき、音楽を一時停止せずに効果的な音声認識を実行するには、スピーカーからの音楽干渉を排除する必要があります。

▵ ウェイクアップワード認識:人間と機械の間のコミュニケーションのトリガー方法。日常生活で誰かと話す必要があるとき、まずその人の名前を呼びます。

▵ マイクアレイ処理:音源を特定し、スピーカーからの信号を強化し、他の方向からのノイズ信号を抑制します。

▵ 音声強調: 話者の音声エリアをさらに強調し、周囲のノイズエリアをさらに抑制することで、遠距離音声の減衰を効果的に低減します。

近距離相互作用であるハンドヘルド デバイスを除き、車内、スマート ホームなど、他の多くのシナリオは遠距離環境です。

遠距離環境では、音がマイクに到達したときに大幅に減衰し、近距離環境では言及する価値のないいくつかの問題が大幅に増幅される原因となります。これには、ノイズ、残響、エコーなどの問題を克服し、遠距離音の拾い上げをより適切に実現できるフロントエンド処理技術が必要です。

同時に、モデルを継続的に最適化し、結果を改善するには、遠距離環境でのトレーニング データもさらに必要です。

音声認識のプロセスには、特徴抽出、モデル適応、音響モデル、言語モデル、動的デコードなどの複数のプロセスが必要です。前述の遠距離認識問題に加えて、「カクテルパーティー問題」の解決に焦点を当てた最先端の研究が数多くあります。

「カクテル パーティー問題」は、人間の聴覚能力を示すもので、騒がしい環境での通常のコミュニケーションに影響を与えずに、複数人が集まる場面で音声とノイズが混ざった音声の中から少なくとも 1 つの音声を追跡して識別する能力です。

この機能は、次の 2 つのシナリオに反映されます。

1 つは、カクテル パーティーで友人と話しているときなど、特定の音に集中すると、周囲の環境が非常に騒がしく、音量が友人の声を超えている場合でも、友人が言っていることをはっきりと聞き取ることができるということです。

2つ目は、遠くから突然自分の名前を呼ばれたときや、母国語ではない環境で突然自分の母国語を聞いたときなど、人の聴覚器官が突然刺激されたとき、たとえ音が遠くから聞こえ、音量が非常に小さくても、私たちの耳はそれをすぐに捉えることができます。

機械にはこの能力がありません。現在の音声技術は、人の発言内容を認識する際には高い精度を発揮しますが、話者が 2 人以上いる場合は認識精度が大幅に低下します。

技術的な言葉で説明すると、問題の本質は、複数の人からの混合音声信号が与えられた場合、特定の話者の信号と他のノイズをどのように分離するかが単純なタスクであるのに対し、同時に話している各人の独立した音声信号を分離することが複雑なタスクであるということです。

これらのタスクに対して、研究者はいくつかの解決策を提案していますが、徐々にブレークスルーを達成し、最終的にカクテルパーティー問題を解決するには、さらに多くのトレーニングデータを蓄積し、トレーニングプロセスを改良する必要があります。

[[232906]]

意味認識と対話管理は自然言語処理の範疇に属することを考慮すると、残るのは音声合成だけです。

音声合成のいくつかのステップには、テキスト分析、言語分析、音の長さの推定、発音パラメータの推定などが含まれます。

既存の技術に基づいて合成された音声は、明瞭度と了解度において良好なレベルに達していますが、機械的なアクセントは依然としてかなり目立っています。

現在の研究の方向性としては、合成音声をより自然に聞こえるようにする方法、合成音声をより表現力豊かにする方法、自然で流暢な多言語混合合成を実現する方法などがあります。これらの分野で画期的な進歩を遂げることによってのみ、合成音声は人間の声と真に区別がつかなくなるのです。

ある程度の制限された条件下では、機械は確かにある程度の「聞くことと話すこと」の能力を持つことができることがわかります。したがって、音声検索、音声翻訳、機械読み取りなどの特定のシナリオでは確かに役立ちます。

しかし、普通の人間のように他の人と本当に流暢かつ自由にコミュニケーションできるようになるまでには、しばらく時間がかかるでしょう。

今日のコンピュータビジョン

コンピュータビジョンの研究方向は、技術的な難易度が簡単なものから難しいもの、商用化度が高いものから低いものの順に、処理、認識と検出、分析と理解となっています。

画像処理とは、高レベルのセマンティクスを含まず、基礎となるピクセルのみを対象とする処理を指します。画像認識検出には、音声情報の単純な探索が含まれます。画像理解は、さらに一歩進んで、より豊かで幅広く、深いセマンティクスの探索が含まれます。

現時点では、処理と認識検出の面での機械のパフォーマンスはすでに満足のいくものです。しかし、理解のレベルにおいては、まだ研究すべきことがたくさんあります。

画像処理では、大量のトレーニング データ (ノイズのある画像とノイズのない画像を組み合わせるなど) に依存して、ディープ ニューラル ネットワークを使用してエンドツーエンドのソリューションをトレーニングします。典型的なタスクとしては、ノイズ除去、ぼかし除去、超解像処理、フィルター処理などがあります。

ビデオに適用する場合、主にビデオをフィルタリングするために使用されます。これらの技術は現在では比較的成熟しており、さまざまな写真編集ソフトウェアやビデオ処理ソフトウェアに採用されています。

画像認識検出のプロセスには、画像の前処理、画像のセグメンテーション、特徴抽出、判断のマッチングが含まれ、ディープラーニングに基づくエンドツーエンドのソリューションでもあります。これは、分類問題 (写真の内容が猫であるかどうかを識別するなど)、位置決め問題 (写真内の猫の位置を識別するなど)、検出問題 (写真内のどの動物がどこにいるかを識別するなど)、セグメンテーション問題 (写真内のどのピクセル領域が猫であるかなど) などの解決に使用できます。

これらの技術も比較的成熟しており、画像での応用としては顔検出と認識、OCR(光学文字認識)などが挙げられ、動画では映画のスターの識別などに使用できます。

もちろん、ディープラーニングはこれらの各タスクにおいて重要な役割を果たします。

従来の顔認識アルゴリズムでは、色、形、質感などの特徴を考慮しても、精度は約 95% しか達成できません。ディープラーニングの助けにより、精度は 99.5% に達し、エラー率は 10 分の 1 に削減され、金融、セキュリティなどの分野での幅広い商用アプリケーションが可能になります。

OCR 分野における従来の認識方法では、テキストを認識して出力する前に、明瞭度判断、ヒストグラム均等化、グレースケール、傾き補正、文字切り取りなどの多数の前処理タスクを実行して、明瞭で正確な文字画像を取得する必要があります。

ディープラーニングの登場により、複雑で時間のかかる前処理と後処理の作業が不要になるだけでなく、単語の精度が 60% から 90% 以上に向上しました。

画像理解とは、本質的には画像とテキストの相互作用です。テキストベースの画像検索、画像説明生成、画像質問応答(画像と質問を与えると回答を出力する)などに使用できます。

従来の方法では、テキストベースの画像検索は、テキストに最も類似したテキストを検索し、対応するテキストと画像のペアを返します。画像の説明生成は、画像から認識されたオブジェクトに応じて、ルール テンプレートに基づいて説明テキストを生成します。画像質問応答は、それぞれ画像とテキストのデジタル表現を取得し、それらを分類して回答を取得します。

ディープラーニングを使用すると、画像とテキスト間のエンドツーエンドのモデルを直接構築して、結果を改善できます。画像理解タスクはまだ十分に成熟した成果が得られておらず、商用シナリオも検討されています。

コンピュータビジョンは、エンターテインメントやツールとして利用される初期段階に達していることがわかります。

自動写真分類、画像検索、画像説明生成などの機能はすべて、人間の視覚の補助ツールとして機能します。人間はもはや、情報を捉えるために自分の目、情報を処理するために自分の脳、そしてそれを分析して理解するために自分の脳に頼る必要はありません。代わりに、機械に情報を捉え、処理し、分析させ、その結果を人間に返すことができます。

将来的には、コンピューター ビジョンは、自律的な理解や分析的な意思決定の高度な段階にまで到達し、機械に真の「見る」能力を与え、スマート ホームや自動運転車などのアプリケーション シナリオでより大きな役割を果たす可能性があります。

今日の自然言語処理

自然言語処理におけるいくつかのコアリンクには、知識の獲得と表現、自然言語の理解、自然言語の生成などが含まれます。それに応じて、知識グラフ、対話管理、機械翻訳などの研究方向が出現し、前述の処理リンクと多対多のマッピング関係を形成しています。

自然言語処理には、機械が「理解」する能力が必要であり、これは「認識」する能力よりも難しいため、関連する問題の多くは今日まで十分に解決されていません。

ナレッジ グラフは、知識を意味レベルで整理することによって得られる構造化された結果であり、単純な事実の質問に答えるために使用できます。

これには、言語知識グラフ (上位語と下位語、同義語など)、常識知識グラフ (「鳥は飛べるが、ウサギは飛べない」)、およびエンティティ関係グラフ (「アンディ・ラウの妻は朱立謙です」) が含まれます。

ナレッジ グラフを構築するプロセスは、実際には知識を獲得し、知識を表現し、知識を適用するプロセスです。

たとえば、インターネット上の「アンディ・ラウと妻の朱立謙が映画祭に出席した」という文章では、「アンディ・ラウ」、「妻」、「朱立謙」というキーワードを抽出し、「アンディ・ラウ-妻-朱立謙」のような三元表現を取得できます。

同様に、「Andy Lau-Height-174cm」のような三進表現も得られます。異なる分野の異なるエンティティのこれらの三元表現をまとめて整理すると、ナレッジ グラフ システムが構成されます。

意味理解は自然言語処理における最大の課題です。この問題の核心は、形式と意味の間の多対多のマッピングから、現在のコンテキストに基づいて最も適切なマッピングをどのように見つけるかということです。

中国人を例にとると、解決する必要がある4つの困難があります。

まず、単語のあいまいさ(たとえば、「ダイビング」は水中スポーツを指すか、フォーラムで話すことができない)、フレーズのあいまいさ(たとえば、「インポートされたカラーテレビ」はインポートされたカラーテレビやアクションを参照することができます)、文章のあいまいさ(たとえば、父親が父親を務める父親を参照することができます。

2つ目は、参照解決を含む文脈的関連性です(例:「Xiao MingはXiao Liをいじめたので、私は彼を批判しました。」、あなたは私がいたずらなシャオミンを批判したことを知るために文脈に依存する必要があります)、Ellipsisの回復(例えば、「ラオワンの息子がよく研究します。

3番目は、名詞やコンテンツの意図の認識(「サニーデイ」が天気やジェイチョウの歌を参照することができます)、チャットと質問を回答した意図の認識(「今日は雨が降る」はチャットですが、「雨が降る」は天気と暗黙の意図的な認識を含む意図的な認識です。

最後の部分は、明示的かつ暗黙の感情認識(「私は不幸です」と「私は試験でうまくいきませんでした」を含む感情の認識です。

上記の困難を考慮して、セマンティック理解の可能性のある解決策は、知識の制約を使用して、知識グラフを通じて多くのマッピングとマシンの知識を補足することのジレンマを解決することです。

ただし、セマンティック理解の困難が克服されたとしても、マシンが愚かでないように見えるほど十分ではなく、対話管理のブレークスルーが依然として必要です。

現在、対話管理には、主に、一般的な知識から関与する職業知識、つまり、カジュアルなチャット、質問と回答、タスク主導の対話など、3つの状況が含まれています。

ちょっとした話は、「今日の天気はいい」などの感情的なつながりとチャットの個性との会話です。

質問の回答は、アンディ・ラウの妻である「アンディ・ラウの妻である」などの質問に応答するモデルと情報の検索に基づく対話です。質問の回答には、比較的完全な知識グラフだけでなく、直接的な答えがない場合に回答を得るための推論の使用も必要です。

タスク駆動型の対話には、通常は「ランニングのための曲」など、複数のラウンドで、「英語の歌を聴きたい」など、複数のラウンドで、「Eminem's "Notafraid" for Youの将来の監督の順になります。

歴史的に、自然言語生成の典型的な応用は機械翻訳でした。従来の方法は、フレーズベースの機械翻訳(PBMT)と呼ばれる方法です。最初に完全な文をいくつかのフレーズに分割し、これらのフレーズを個別に翻訳し、文法ルールに従って順序を調整して、それらをコヒーレント翻訳に復元します。

プロセス全体は複雑ではありませんが、中国語の単語セグメンテーション、一部のリンクのエラーが送信され、最終結果に影響を与える複数の自然言語処理アルゴリズムが含まれます。

一方、ディープラーニングは、大量のトレーニングデータに依存し、エンドツーエンドの学習方法を使用して、ソース言語とターゲット言語の間のマッピング関係を直接確立し、機能選択や手動パラメーター調整などの複雑な中間ステップをスキップします。

このアイデアを念頭に置いて、人々は1990年代に提案された「エンコーダーデコーダー」ニューラル機械翻訳構造を継続的に改善し、システムのパフォーマンスを大幅に改善するための注意メカニズムを導入しました。

その後、Googleチームはその強力なエンジニアリング機能を使用して、以前のSMT(統計機械翻訳)を新しい機械翻訳システムGNMT(Google Neural Machine Translation)に置き換えました。

不明な言葉の翻訳、不足している単語の欠落、繰り返し翻訳など、まだ多くの問題がありますが、神経機械の翻訳が実際にパフォーマンスに大きなブレークスルーをもたらし、アウトバウンド旅行、ビジネスミーティング、国境を越えた交換、その他のシナリオにおけるアプリケーションの見通しも非常に有望です。

インターネットの普及により、電子情報の程度も増加しています。大規模なデータは、トレーニングプロセスにおける自然言語処理の燃料であるだけでなく、その開発の幅広い段階を提供します。検索エンジン、会話ロボット、機械翻訳、大学の入学試験ロボット、インテリジェントなオフィスの秘書も、人々の日常生活でますます重要な役割を果たし始めています。

今日の機械学習

人工知能のレベルによると、機械学習は、コンピュータービジョン、自然言語処理、音声処理など、他の技術レベルよりも低いレベルの概念です。近年、テクノロジーの開発が活況を呈しており、アルゴリズムレベルでの機械学習もいくつかの重要な研究方向を生み出しています。

1つ目は、垂直フィールドでの幅広いアプリケーションです。

機械学習にはまだ多くの制限があり、普遍的ではないことを考えると、比較的狭い垂直フィールドでのその適用は、より良いエントリポイントになりました。

限られたフィールド内では、問題スペースは十分に小さくなり、第二にモデルの効果が蓄積され、モデルトレーニングはより効率的でターゲットです。

これらの3つのポイントにより、マシンはこの限られたフィールド内で十分なインテリジェンスを表示するため、最終的なユーザーエクスペリエンスが比較的優れています。

したがって、金融、法律、ヘルスケアなどの垂直分野では、ある程度の商業化を達成した成熟したアプリケーションを見てきました。垂直フィールドでの反復労働の大部分が将来人工知能に置き換えることが予見されることがあります。

2つ目は、単純な凸最適化問題の解決から、非凸最適化問題の解決に移行することです。

最適化の問題は、すべての考慮事項を一連の関数として表現し、それらから最適なソリューションを選択することです。凸最適化問題の優れた特性は、ローカルオプティムがグローバルな最適であることです。

現在、機械学習のほとんどの問題は、特定の制約を追加することにより、変換または凸最適化問題に近似することができます。

最適化の問題は、関数上のすべてのポイントを通過することで最適な値を見つけることができますが、計算量は非常に大きくなります。

特に多くの機能の寸法がある場合、次元の災害が発生します(機能の数は、既知のサンプル数に存在する機能の数の上限を超えて、分類器の性能が悪化します)。凸最適化の特性により、人々は勾配降下法を介して降下方向を見つけることができ、見つかった局所的な最適ソリューションはグローバルな最適ソリューションになります。

ただし、実生活では、凸最適化の問題に現在の焦点が解決しやすいため、真に多くの問題がありません。

夜に路上で鍵を失うのと同じように、人々はライトの下での検索を優先します。したがって、別の言い方をすれば、人々は依然として非凸最適化問題の効果的なアルゴリズムを欠いています。これは、人々の努力の方向でもあります。

3番目のポイントは、監督された学習から監視されていない学習と強化学習への進化です。

現在、ほとんどのAIアプリケーションは、監視された学習を使用して、必要なパフォーマンスを達成するために、監視された学習を通じて分類器のパラメーターを調整しています。しかし、実際の生活では、監督された学習は「知性」と呼ばれるのに十分ではありません。

人間の学習プロセスと比較して、それらの多くは物との相互作用に基づいており、人間自身の経験と理解を通して、物事の理解を得て、将来の生活に適用できます。機械の制限は、これらの「常識」がないことにあります。

畳み込みニューラルネットワークの父であり、Facebook AI Research InstituteのディレクターであるYann Lecunは、かつて「Black Forest Cake」の比phorを使用して、監督された学習、監視されていない学習、補強学習の関係を理解し​​たことを説明しました。

機械学習が黒い森林ケーキと見なされている場合、(純粋な)補強学習は、いくつかのビットを必要とするものです。

しかし、彼はまた、チェリーは必要な成分であることを強調しました。つまり、補強学習と監視されていない学習は補完的で不可欠であることを意味します。

監視されていない学習の分野では、「敵対的なネットワーク」(GANS)に焦点を当てています。

このプロセスでは、発電機は差別装置と対話して、予測機能を学習し、自動的に最適化して最適な予測モデルを作成します。

2014年にIan Goodfellowによる提案以来、Gansは主要な会議を席巻し、Yann Lecunによって「20年で機械学習の分野で最もクールなアイデア」と評価されてきました。

強化学習は、本質的に生物学的学習プロセスの起源に近いものです。自分が環境のエージェントとして自分自身を想像する場合は、一方では、新しい可能性を発見するために絶えず探求する必要があり、既存の条件下で究極を達成する必要があります。

正しい決定は間違いなくあなたに遅かれ早かれあなたに肯定的な報酬をもたらし、その逆もまた同様であり、最終的に問題に対する答えを習得するための最適なポリシーを知っています。

強化学習の重要な研究の方向性は、モデルをトレーニングするために、現実の世界と相互作用し、常に訓練し、さまざまなアクションをシミュレートし、さまざまなフィードバックを受け入れる効果的なシミュレーション環境を確立することです。

人工知能の未来

技術の急速な進歩により、人工知能はついに黄金時代を迎えました。過去60年間の人工知能の浮き沈みを振り返って、歴史はこれらの経験を語っています。

まず、インフラストラクチャによってもたらされる駆動効果は、データ、コンピューティングパワー、およびアルゴリズムの方法に繰り返しさらされています。

第二に、ゲームAIは開発プロセスで重要な役割を果たします。これは、ゲームには人間コンピューターの対立が含まれ、人々がAIをより直感的に理解し、感動したと感じるのに役立つため、運転の役割を果たすことができるためです。

最後に、人工知能は多くのタスクで人間に一致したり、それを上回ったりする可能性のある結果を達成しているが、ボトルネックはまだ非常に明白であることに注意する必要があります。

たとえば、コンピュータービジョンの観点から、自然条件(光、閉塞など)、および被験者の認識と判断の問題があります(音声技術の観点から焦点を合わせます)。世界(「常識の欠如」)、および長期尾のコンテンツの認識。

一般に、既存の人工知能技術は大量の高品質のトレーニングデータに依存していることがわかります。2つ目は、長期尾の問題が効果的ではなく、3つ目は独立した特定のアプリケーションシナリオに依存しており、非常に汎用性が低いことです。

将来的には、人工知能の人々の位置は、特定の分野で狭くて特定の小さなタスクを解決するためだけでなく、人間のようになり、同時に異なる種類の問題を解決することができ、いわゆる一般的な人工知能(AGI)である人間のような判断と決定を下すことができます。

具体的には、マシンは、一方で知覚​​学習と認知学習を通じて世界を理解し、一方で補強学習を通じて世界をシミュレートできる必要があります。

前者は、機械が情報を知覚し、知覚された情報を注意、記憶、理解などを通じて抽象的な知識に変換し、後者が蓄積された知識を迅速に学習し、マシンは試行とエラーを通じて環境と相互作用することにより、知識を継続的に最適化することができます。

人々は、アルゴリズムと規律の交差、統合、最適化を通じて、創造性、汎用性、および物理世界の理解における人工知能の問題を解決したいと考えています。

将来的には、基礎となるインフラストラクチャは、生産用の原材料であるインターネットとモノのインターネットが提供する最新の人工知能シナリオとデータになります。

アルゴリズム層は、生産エンジンであるクラウドコンピューティングによって提供されるコアコンピューティングパワーによって補足されるディープラーニングと強化学習によって提供される最新の人工知能コアモデルです。

これらに基づいて、コンピュータービジョン、自然言語処理、音声テクノロジー、ゲームAI、ロボットなどであろうと、同じデータ、モデル、およびアルゴリズムに基づいた異なるアプリケーションシナリオに基づいています。

これらの問題を解決する方法は、人々が段階的に移動する唯一の方法です。

まず、ビッグデータから小さなデータまで。

深い学習のトレーニングプロセスには、手動でマークされたデータが必要です。たとえば、無人車の調査には、車、人、建物の多数のストリート写真が必要です。音声認識の研究には、テキストからスピーチへの翻訳が必要です。

ただし、大規模なデータの注釈は、特にいくつかのロングテールシナリオでは、時間のかかる面倒なタスクです。基本データのコレクションでさえ問題です。

したがって、1つの研究の方向性は、欠落したデータの条件下でトレーニングするか、非標識データから学習するか、現在人気のあるGANがデータ生成モデルであるため、自動的に(生成)データがあります。

2つ目は、大規模なモデルから小さなモデルまでです。

現在、深い学習モデルは非常に大きく、数百のメガバイト(MB)があり、大規模なモデルはいくつかのギガバイト(GB)または数十ギガバイト(GB)に到達することさえあります。

モデルはPC側では問題ではありませんが、モバイルデバイスで使用したい場合は非常に面倒です。これにより、音声入力方法、音声翻訳、画像フィルターなどのモバイルベースのアプリがより良い結果を達成できなくなります。

この領域の研究の方向性は、モデルのサイズを、直接圧縮またはより洗練されたモデル設計を通じて、モバイル端子の低電力コンピューティングとクラウドコンピューティングの組み合わせを通じて、大きなモデルの効果を小さなモデルで達成する方法です。

最後に、知覚された認知から合理的な解決策まで。

人間の知性は、視覚や聴覚などの知覚と認知部分の特定の限られた条件下で十分に十分に行うことができます。もちろん、これらのタスクは、マシンの価値は、より速く、より正確で、より低いコストでそれを行うことができるという事実にまったく難しくありません。

ただし、これらのタスクは基本的に静的です。つまり、入力を考慮して出力結果は確実です。 GOのゲームを獲得する方法、ある交差点から別の交差点への運転方法、在庫への投資とお金を稼ぐ方法など、いくつかのダイナミックなタスクでは、不完全な情報に関する意思決定の問題には、環境との継続的な相互作用、フィードバックを収集し、戦略を最適化する必要があります。シミュレーション環境(シミュレータ)は、根を張って芽を出すための補強学習のための土壌としての重要な研究方向でもあります。

<<:  誇大宣伝サイクルを経ても、チャットボットがまだ普及していないのはなぜでしょうか?

>>:  中国の大学はいかにして「新世代の人工知能」をリードできるのか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIがテキストを元に「抽象画」を描いたらどうなるでしょうか? |DeepMindの新アルゴリズム

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

セマンティックAIとデータ管理の5つのトレンド

1. グラフデータベースとナレッジグラフが2022年に主流になる グラフ データベースが 2022 ...

Googleは従業員に対し、生成AIの秘密を「漏らしたり」、直接コードを書いたりしないように警告している。

ロイター通信によると、6月15日のニュースでは、Googleは生成AIの最も熱心な支持者の1つである...

ある日、お子さんが「お父さん、機械学習って何?」と尋ねたとします。

お父さん、機械学習って何ですか?答えるのは難しい!髪の毛が抜け始めた頭を掻いた後でも、お父さんはこの...

心理測定?犯罪の予感? AIは京都の痛みを軽減できるか?

[[271752]]画像出典: Qilu.com一つの火、二本の涙。 7月18日午前10時半頃(現...

OpenAI の組み込み検索は本当に便利ですか?定量的な評価により、より深い理解が得られます。

ベクターデータベースの強力なライバルが登場するか?トラック関連のスタートアップ企業がまたもや倒産しそ...

機械学習モデルの仕組み

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

人間と機械のインターフェースは一貫性があり、音声と触覚によるフィードバックを提供する必要がある。

[[187855]]仮想環境を体験し、対話する機能は、仮想現実 (VR) メディアの独自の機能です...

元従業員が内部事情を暴露: 10年経っても、なぜGoogleはナレッジグラフを解明できないのか?

[[258183]]この記事はWeChatの公開アカウント「AI Front」(ID: ai-fr...

人工知能は大学のキャンパスにどのような変化をもたらしたのでしょうか?

[[279290]] [51CTO.com クイック翻訳] 大学はどのようにして、個人の教育キャリ...

...

...

...

アルゴリズムを知的財産として保護する方法

Ogilvy は、ロボティック プロセス オートメーションと Microsoft のビジュアル AI...

視覚化と人工知能の強力な組み合わせ!

視覚化と視覚分析では、高帯域幅の視覚認識チャネルを使用してデータをグラフィック表現に変換し、インタラ...