ついに、人工知能の3つの重要な機能を説明する人がいた。

ついに、人工知能の3つの重要な機能を説明する人がいた。

これらすべての認知機能を 1 つのマシンに統合し、あらゆる一般的なシナリオを処理できる人工知能を汎用人工知能と呼びます。現時点では、汎用人工知能はまだ理論段階にあります。

しかし、現在のテクノロジーは、これまで人間の知能に依存してきた特定の種類のタスクの実行において、大きな成功を収めています。このタイプの人工知能を狭義の人工知能、あるいは弱い人工知能と呼びます。弱い人工知能とは、主に学習、知覚、認知の 3 つの機能を指します。

▲AI機能チートシート

上の図は、この記事で紹介した AI のコア機能の概要を示しています。

AI に関して、クライアントは「AI は機能しているのか」と尋ね続けます。AI が誇大宣伝されている世界では、AI が空想なのか現実なのか、実際の機能なのかマーケティングの宣伝なのかを判断するのは難しい場合があります。

これらすべての機能は今日現実のものとなっています。 AI は今や現実のものとなり、何千もの企業が AI を活用してビジネスを変革しています。 AI の将来の可能性に注目することは重要ですが、AI が現在何ができるかを理解することも必要です。

01 学習

▲学習 — 明示的なプログラミングなしで学習

機械学習の主な特徴は、明示的にプログラムすることなく、時間の経過とともに学習できることです。人間と同様に、機械学習アルゴリズムは、ステップバイステップの指示に従うのではなく、探索と実践を通じて学習します (ただし、皆さんの中には小さなお子様の親御さんもいらっしゃると思いますが、お子様にこれを実行させたくない場合もあります)。

機械学習アルゴリズムは、学習方法に応じて分類されます。現在最も人気のあるテクノロジーは、おそらくあなたの会社でも 90% の割合で使用されている、教師あり学習です。

教師あり学習では、入力と望ましい出力を含むデータセットを使用します。学習アルゴリズムは、反復的な最適化を通じて、入力が出力に変換される方法をモデル化する関数を見つけます。次に、モデルはトレーニング セット外の新しい入力に適用され、対応する出力を予測します。

適切なアルゴリズムとパラメータを見つけることは、科学の一部であり、創造性と直感の一部でもあります。このプロセスに機械学習をどのように適用するかは、それ自体が研究テーマであり、この手法は自動機械学習 (AutoML) と呼ばれます。

教師あり学習アルゴリズムにはすべて同じ欠点があります。それは、大量のデータが必要になることです。また、どんなデータでも良いわけではなく、対応する出力(ラベル付きデータとも呼ばれます)の入力データとトレーニング データの両方が含まれている必要があります。

場合によっては、記録システムやインタラクション システムにタグ付けされて保存されている履歴データが存在することがあります。たとえば、顧客離脱モデルの場合、離脱した顧客の履歴データと、顧客との過去のやり取りをトレーニング データの出力部分として確認できます。適切なアルゴリズムを使用することで、一連のやり取りを見るだけで将来の顧客離れを予測できます。

運が悪く、データにラベルが付いていない場合もあります。教師なし学習アルゴリズムは、ラベルのないデータのセットを取得し、その中の構造を見つけます。クラスタリング アルゴリズムは、最も人気のある教師なし学習アルゴリズムの 1 つです。さまざまな手法を使用して、データ内の共通点を見つけ、グループ化します。このアルゴリズムを使用して、顧客ベースまたは Web ページの訪問者をセグメント化できます。

その他のよく使用される教師なし学習アルゴリズムには、関連ルール (特定の製品を購入したユーザーは他の特定の製品にも興味を持つなど、データ間の関連性を定義する) や異常検出 (データの本体とは異なるデータのまれな部分や疑わしい部分を見つける) などがあります。

その他の場合には、トレーニング データをまったく使用しません。人々がビデオゲームの遊び方をどのように学ぶか考えてみましょう。この問題に対する教師ありアプローチは、何千ものゲームビデオを見て、そこから学ぶことです。これは多くのユーチューバーのビジネスモデルであり、私の子供たちもこの種の動画を見ていますが、私は非常に退屈だと感じています。

もっと楽しく学ぶ方法は、実際にゲームをプレイすることです。ゲーム中、何か正しいことをすると(ポイントを獲得するなど)、正の強化が得られ、何か間違ったことをすると(殺されるなど)、負の強化が得られます。強化学習アルゴリズムは、環境を探索し、正しい動作を強化することで機械学習機能を学習します。

強化学習は、データを必要としない性質のため、ビジネスにおいて非常に有望な機械学習手法となっています。これは、移動型(車両、遠隔操作航空機など)と固定型(空調システム、電力システムなど)の両方のシステム、および複雑なビジネス プロセスの自動化に特に適しています。強化学習は、AI の中で最も難しいテーマであるとよく考えられています。

02 知覚

▲知覚 - 周囲の世界を解釈する

人間に特有の領域が一つあるとすれば、それは知覚です。何十年もの間、私たちは周囲の世界を認識する人間の能力を模倣しようとしてきましたが、成功は限られていました。画像を理解したり、音声をテキストに翻訳したりする作業は複雑なため、プログラムで実現するのはほぼ不可能です。画像に写っている馬をステップバイステップの指示で定義することを想像してみてください。

機械学習アルゴリズムは、このような種類の問題を解決するのに適しています。しかし、従来の機械学習アルゴリズムの認識タスクを処理する際の精度は、人間が実行できるものとは程遠いものです (Windows Vista の音声認識機能を開発者にデモしたときのことを今でも覚えています...この経験から、私はもっと強い人間になることができました)。

画像分類を例に挙げてみましょう。 ImageNet は画像分類における最も有名なチャレンジです。 2010 年以来、世界中の参加者がアルゴリズムを提出し、最も正確なモデルを作成してきました。コンテスト開始時(2010 年)には、達成可能な最高のエラー率は約 25% でした。比較すると、同じデータセットにおける人間の対応するエラー率は約 5.1% です。

2012 年、アレックス・クリジェフスキー (トロント大学の学生) が、AlexNet と呼ばれる 8 層ニューラル ネットワークのソリューションを提出しました。 AlexNet は競合他社を圧倒し、次点の競合他社よりも 10 ポイント低い 15.3 パーセントのエラー率を達成しました。

その後数年間、彼が導入した技術は継続的に改良され、より多くの層が追加され、2014 年には、GoogLeNet と呼ばれる 22 層のニューラル ネットワークが 6.7% のエラー率を達成しました。

翌年、マイクロソフト リサーチのチームが新しいニューラル ネットワーク テクノロジを使用した研究成果を提出しました。ニューラル ネットワークの深さは 152 層という超大規模に達し、エラー率はわずか 3.57% で、初めて人間のパフォーマンスを超えました。

ディープラーニングはコンピュータービジョンを永遠に変えました。現在、このテクノロジーはコンピューター ビジョンのほぼすべての高精度シナリオで使用されており、企業で最も一般的な使用例となっています。以下に、コンピューター ビジョンの現在のアプリケーションの一部を示します。

  • 画像の内容を分類する(画像分類)
  • 画像内の複数のオブジェクトを識別し、各オブジェクトの境界を識別する(オブジェクト検出)
  • 画像内のシーンや動作を識別する(例:職場の危険な状況、小売店の棚の補充など)
  • 顔を検出し、身元を認識し、さらにそれぞれの顔の感情も識別します
  • 手書きテキストを含む書かれたテキストを認識する(光学文字認識)
  • 画像や動画で攻撃的な行動を特定する

研究者のハロルド・ストロヴィッチ氏とエリカ・キープス氏は、著書『Telling Ain't Training』(ASTD Press)の中で、私たちが受け取る情報の83%は視覚から得られ、聴覚は11%でそれに次ぐと主張しています。これらを合わせると、私たちが外界から得る情報の 94% を占めます。オーディオ処理は、間違いなくコンピューター ビジョンに次いで AI が重点を置くもう 1 つの大きな領域です。

同様のディープラーニング技術をオーディオ信号に適用して、コンピューターが音を認識できるようにすることができます。この能力を使えば、鳥の鳴き声を聞き分けたり、風力タービンの音から故障を予測したりすることが可能になる。

しかし、オーディオ処理における AI の最も興味深い側面は、音声認識です。音声認識に使用される参照データセットは Switchboard と呼ばれ、約 260 時間の電話会話の録音が含まれています。ヒトの転写エラー率は 5.9% と測定されました。このエラー率は、2016 年に Microsoft Research が設計したニューラル ネットワークと同等でしたが、1 年後にはエラー率 5.1% でその記録を破りました。歴史上初めて、機械が人間自身よりも人間を理解できるようになりました。

これらのブレークスルーにより、機械が人間をよりよく理解できるようになるだけでなく、機械が人間と自然な方法でコミュニケーションをとることも可能になります。 Azure は 2018 年に、ディープラーニングをベースとしたテキスト読み上げサービスを開始しました。このサービスでは、実際の人間と区別がつかない人間の声を合成できます。

これらの機能を組み合わせることで、コンピュータ サイエンスの究極の目標であるナチュラル ユーザー インターフェイス (NUI) が実現します。人間を見て理解し、自然言語を使ってコミュニケーションできる機械は、SF映画のファンタジーを実現したかのようです。しかし、私たちは本当にそれを実現したのでしょうか? コンピューターと本当に意味のあるコミュニケーションを行うには、コンピューターは私たちが言ったことを書き写すだけでなく、私たちが何を意味しているかを理解できなければなりません。

自然言語処理 (NLP) は、人間の言語を分析、理解し、意味を抽出する人工知能の分野です。 NLP の最も一般的な使用例の 1 つは言語理解であり、これはデジタル アシスタントなどの最新の会話型 AI エクスペリエンスの基盤となります。

Siri、Alexa、または Cortana に天気について質問すると、システムはまず会話の音声をテキストに変換し、次に自然言語理解モデルを通じて意図を抽出し、その意図 (「天気を取得する」など) を対応する出力 (この場合は、地域の天気情報の提供) にマッピングします。

NLP テクノロジーはここ数年で急速に発展しました。感情分析、キーワード抽出、個人の識別などの単純なタスクのみを処理できるものもあれば、テキストの要約や翻訳などのより複雑なタスクを処理できるものもあります。 2018 年、マイクロソフトの機械翻訳チームは、かつては不可能と思われていたほど複雑なタスクである自動翻訳において、初めて人間レベルのパフォーマンスを達成しました。

自然言語理解の最も興味深い応用例の 1 つは、機械による読解です。 2018 年 1 月、Microsoft Research Asia のチームは、Wikipedia の記事セットに関する質問で構成されたスタンフォード質問回答データセット (SQuAD) を使用して、人間レベルのパフォーマンスを達成しました。実際、このシステムはこれらの記事に関する自由形式の質問に対して、人間よりも優れた回答を出すことができました。多くの企業がこれに寄付し、さらなる発展に貢献しています。

それでも、これらのシステムは人間が達成する抽象化のレベルに到達することはできません。本質的には、質問応答アルゴリズムは、正しい答えにつながる手がかりをテキストから検索します。質問ごとに、システムはテキスト全体を検索して一致するものを探します。人間もこれと同じことを行います(特に急いでいるとき)。しかし、テキストを本当に理解したいときは、テキストから知識を抽出し、要約して、より理解しやすいものにします。

カリフォルニアを説明する文章を想像してください。人間はこのテキストから「カリフォルニア」という実体を推測し、それに属性(人口、面積など)や、他の実体(近隣の州、地方知事など)との関係性さえ割り当てるでしょう。要約すると、カリフォルニアについての質問に答えるためにその文章はもう必要ありません。関連する知識をまとめました。

人工知能における対応するプロセスは知識抽出であり、企業にとって広範囲にわたる意義を持っています。これらの技術を使用することで、混沌とした、無秩序な、さらには混乱した情報から高レベルの概念を抽出することができます。結果として得られるナレッジ グラフは、データ業界全体に関する幅広い質問に答えるだけでなく、この情報を閲覧して理解するためにも使用できます。

この抽象化のレベルは従来の NLP の能力をはるかに超えており、いわゆる認知に近づいています。

03 認知

▲ 認知 - データに基づいた推論

厳密に言えば、認知とは知識を獲得し、処理する能力です。人間の脳が推論、理解、問題解決、計画、意思決定を行うために使用する高レベルの概念が含まれています。

私たちが現在研究している技術には、必ずしも明白ではないにしても、ある程度の認知が関わっています。画像分類を例にとると、画像分類用のディープ ニューラル ネットワークを詳しく見ると、ニューラル ネットワークが各レイヤーで問題をより小さなステップに分割する方法が実際にわかります。

人間の介入なしに、ニューラル ネットワークはある程度の一般化を自動的に実証しました。最初のレイヤーは、エッジやテクスチャなどの単純な特徴を検出しました。さらに深く掘り下げていくと、各レイヤーはパターンや要素などのより複雑なプロパティを抽出できるようになります。ある意味では、ニューラル ネットワークはすでに何らかの知識を獲得し、その知識を使用して基本的な推論を行うことができます。

自然言語処理では、同様の固有の抽象化が見られます。現代の NLP 技術のほとんどは、本質的に単語埋め込みと呼ばれる技術を使用しています。単語埋め込み技術により、テキスト内の各単語は単語の意味を表すベクトルに変換されます。この新しい空間では、意味的に類似した単語(「天気」と「予報」など)は互いに近くにあります。

こうすることで、システムは「今日の天気はどうですか?」と「今後 24 時間の天気予報を取得します」を同じ意図として一致させます。単語は異なっていても、意味論が近いため、意味は似ています。翻訳も同様に機能します。単語の埋め込みを使用して入力テキストを抽象化し、言語に依存しない「アイデア」に変換してから、逆のプロセスを使用して任意の言語に翻訳します。

これらの例では、認知は知覚に内在しています。ただし、多くの AI シナリオは純粋に認知的です。彼らは、周囲の世界を認識することに焦点を当てるのではなく、その世界を抽象化し、その抽象化に基づいて推論することに焦点を当てます。これは、最も基本的な教師あり学習方法のいくつかに当てはまります。回帰分析とは、住宅の特性や立地に基づいて住宅の価値を評価したり、履歴データに基づいて売上を見積もったりするなど、既存の情報に基づいて価値を予測する機能です。

分類とは、たとえば家が特定の買い手に売れるかどうかなど、品目をその特性に基づいて等級付けまたは分類する機能です。最適化アルゴリズムは、病院でのリソースの割り当てなど、特定の結果を最大化するためのプロセスに基づいて推論を行います。

推奨システムは、映画、書籍、曲などのアイテムの評価や購入習慣を調べるだけで、それらの間の知られていない共通点を発見できます。前述のクラスター分析などの他の手法では、データ内のパターンを見つけ、教師なしで項目を分類できます。

強化学習技術にも認知能力が見られます。 2017 年、Microsoft Research Montreal (旧 Maroubra) は 100 万ポイントの大台を超え、パックマン ゲームの新記録を樹立しました。システムは何千ものゲームをプレイすることで自らをトレーニングします。

同様に、2018 年には、OpenAI Five (5 つのニューラル ネットワークのチーム) がゲーム Dota 2 で人間のチームに勝利しました。 OpenAI Five は自分自身と対戦することでトレーニングを行い、1 日のトレーニングは 180 年のゲーム時間に相当します。

最も有名な例は、おそらくGoogle DeepMindの成果でしょう。同社のシステムAlphaGoが、初めて9段のプロ囲碁プレイヤーに勝利しました。他のゲーム(チェスなど)と比較すると、囲碁はコンピュータにとってより難しいゲームであると考えられています。

AI システムがプレイするすべてのゲームを詳しく観察すると、AI システムが認知のもう 1 つの特性である計画性を発揮していることがわかります。システムは、長期的にポイントを最大化する最善の方法について事前に「考える」ことができます。

<<:  人工知能は伝染病との戦いにおいてどのような役割を果たすのでしょうか?

>>:  LSTMに匹敵するTransformerは機械学習界に火をつけました。それは万能です。

ブログ    
ブログ    
ブログ    

推薦する

チャットボットにおける2つの技術的火種: AIと機械学習

チャットボットの人気が高まるにつれて、競合するアプリケーション フレームワークが多数登場しました。 ...

機械学習の次元削減手法で「次元の呪い」を打破する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

今後数年間の人工知能研究が避けられない3つの重要な問題

現在、人工知能は産業のアップグレードを積極的に推進しており、製品の品質とコア能力を向上させています。...

...

Microsoft Megvii の顔認識は 100% 動作不能! 写真の「見えないマント」で写真のプライバシー データを保護

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIは病気の予防に役立つ

手術室で外科医をサポートするロボットや、X 線や MRI 画像の評価を支援するソフトウェアが登場して...

コンテンツ マーケティングにおいて自然言語処理はどのように機能しますか?

[[417909]] [51CTO.com クイック翻訳]自然言語処理 (NLP) はコンテンツ ...

MITの研究チームがスマート着替え補助ロボットの衝突防止アルゴリズムを改良

普通の人にとって、毎日起きて服を着るのはかなり簡単な作業です。しかし、身体に障害のある人にとって、着...

...

...

百度、599ドルのスマートビデオスピーカーを発売

[元記事は51CTO.comより]「アリスマートスピーカーTmall Genie原価499元、クーポ...

人工知能の終焉は人工性か?

先月外出した時、交差点の交通警察や補助警察の数が大幅に増えていることに気づきました。疑問に思わずには...

AI企業の成人式:自由が996と衝突し、技術的理想が地上戦争と衝突する

戦争の理由はすべて、例外なく一つのこと、つまり生き残ることにつながります。狼の本能がなければ、生き残...

人工知能時代の技術者が習得すべき5つのスキル

2016 年に AI 企業が獲得した資金は 80 億ドルと推定され、この数字は今後 3 年間で 5 ...

...