この記事では、「アルゴリズム」という単語を非常に簡略化して使用し、単一のアルゴリズム、モデル、または複数のアルゴリズムを使用するソフトウェアについて説明します。各カテゴリでは、データ入力の種類、ブラックボックスとしてのアルゴリズム、および出力について説明します (簡単にするために、実際のアルゴリズムがブラックボックスでなくても、ブラックボックスとして扱います)。
これは概要なので、興味のある特定のアプリケーションを詳しく調べて、それが自分の業界やビジネス活動にどのように適用されるかを正確に理解することをお勧めします。関連する技術的な詳細や特定のアルゴリズムを学習するためのリソースも多数あります。 01 予測分析予測は予測分析または予測モデリングの同義語であり、ラベル付きの、場合によってはラベルなしの入力データに基づいて出力データを決定するプロセスです。機械学習と人工知能では、予測分析は回帰と分類にさらに細分化できます。 以下では、ラベル付きデータ (教師あり) を予測に使用する 2 つのサブカテゴリについて説明します。 1. 回帰 図 1-1 は、ラベル付けされたデータが回帰アプローチに入力され、予測モデルによって処理され、その後、連続した系列 (株式市場の終値など) から数値が生成される様子を示しています。 ▲図1-1: 回帰 アプリケーションには、顧客ライフサイクル全体にわたる株式価値と純利益、収益と成長の予測、価格変動、信用デフォルトリスク、株式取引の計算などが含まれます。 2. 分類 分類とは、図 1-2 に示すように、ラベル付けされたデータを入力し、分類モデルによって処理された後、入力データを 1 つ以上のカテゴリに分割するプロセスを指します。 ▲図1-2: 分類 スパム フィルターは、バイナリ分類アプリケーションの典型的な例です。電子メールは分類モデルによって処理された後の入力データであり、出力データはスパムまたは非スパムとして判定された電子メールです。非スパム電子メールとは、具体的にはスパム コンテンツを含まない正常な電子メールを指します。スパムメールはゴミ箱フォルダに移動し、スパムでないメールは受信トレイに移動します。 3 番目のカテゴリ「不確実」が導入されると、分類器は入力された電子メールを 3 つのカテゴリに分類できるようになります。クラスが 2 つ以上あるため、これは多変量分類の例です。この例では、電子メール クライアントに「スパムの可能性が高い」フォルダーがあり、ユーザーはここで各電子メールを確認し、これを使用して分類子をトレーニングし、スパムと非スパムをより適切に区別できるようになります。 入力データを 3 つ以上のカテゴリに分類する場合、アルゴリズムは入力データに対して単一のカテゴリを選択するか、入力データが各カテゴリに属する確率を計算します。後者の場合、選択の結果として最も高い確率を持つカテゴリを使用することも、すべてのカテゴリの確率を使用して、独自にカスタマイズしたルールに従って処理することもできます。 この場合、新しく受信した電子メールがスパムである可能性が 85%、非スパムである可能性が 10%、不明である可能性が 5% であると判断されたと仮定します。スパムメールである確率が比較的高いため、そのメールがスパムメールであると判定されるか、または計算された確率が他の方法で使用される可能性があります。 最後に、一部のアルゴリズムでは、同じ入力に複数のラベルを割り当てることができます。これは画像認識に関連する例です。入力データが赤いリンゴの画像であるとすると、アルゴリズムは画像に赤、リンゴ、果物などの複数の異なるラベルを割り当てることができます。この場合、画像に 3 つのカテゴリすべてを割り当てるのが適切です。 アプリケーションには、信用リスク、ローン承認、顧客離れなどが含まれます。分類は、この記事の後半で説明する認識アプリケーションと組み合わせることができます。 02 パーソナライゼーションとレコメンデーションシステム推奨システムは、既存の情報に基づいてパーソナライズされた推奨を提供する形式であり、その結果は各ユーザーにとって非常に関連性が高いものになります。顧客のコンバージョン率、販売率、満足度、維持率を高めるために使用できます。実際、Amazon はこれらのエンジンを追加することで収益を 35% 増加させており、Netflix の視聴の 75% はこのような推奨によるものです。 推奨システムは、特別な種類の情報フィルタリング システムです。パーソナライズは、ユーザー検索、ランキング、評価を通じても実現できます。推奨システムは、図 2 に示すように、推奨モデルまたはエンジンによって処理された後、商品やユーザーなどの入力データに基づいて推奨 (製品、記事、音楽、映画など) を行います。 図2: 推奨システム レコメンデーション システムに関連する「コールド スタート問題」については言及する価値があります。コールド スタートとは、インテリジェント アプリケーションに、特定のユーザーまたはグループに対して高度にパーソナライズされた関連性の高い推奨事項を作成するための十分な情報がまだないことを意味します。たとえば、ユーザーは自分の好み、興味、購入履歴に関する情報をまだ生成していません。 もう 1 つの例としては、製品 (衣類、製品、ビデオ、曲など) が新しくリリースされた場合が挙げられます。この問題を解決するのに役立つテクニックはいくつかありますが、スペースの都合上、それらについて詳しく説明することはできません。 レコメンデーション システム アプリケーションには、製品、ビデオ、音楽、歌、書籍、テレビ番組 (Amazon、Netflix、Spotify など) の推奨が含まれます。これには、推奨事項に加えて、ニュース、レポート、電子メール、ターゲット広告 (Twitter など) などのパーソナライズされたコンテンツも含まれます。 その他の例としては、パーソナライズされたヘルスケアプラン、パーソナライズされた画像やアイコン(YouTube、Netflix、Yelp など)、ワインのおすすめ、パーソナライズされたショッピング(ジャケットの完璧な組み合わせなど)、ファッションの服装(StitchFix など)、自動化されたさまざまなおすすめなどがあります。 03 コンピュータビジョンコンピューター ビジョンは、画像やビデオなどの視覚情報を含むパターン認識を含む広範な分野です (別の手法については次のセクションで説明します)。コンピューター ビジョンは、写真、静止ビデオ画像、および一連の画像 (ビデオ) を入力として受け取り、モデルによって処理された後に出力を生成します (図 3 を参照)。 図3: コンピュータビジョン 出力は、オブジェクト、機能、またはアクティビティの認識、検出、発見になります。ビジョン関連のアプリケーションには、ある程度の自動化、特に自動ビジョンが伴い、通常はアプリケーションへの人間の関与(検査など)が必要になります。マシンビジョンという用語は、検査、プロセス制御、測定、ロボット工学などの産業用アプリケーションにおける類似または重複するテクノロジを表すために使用されます。 コンピューター ビジョンには興味深く強力なアプリケーションが数多くあり、アプリケーションの数は急速に増加しています。たとえば、コンピューター ビジョンは次のシナリオで使用できます。
無人航空機(UAV)は、ドローンと呼ばれることもあります。コンピューター ビジョンを適用することで、ドローンは検査 (石油パイプライン、無線塔など) を実行したり、建物やエリアの捜索を完了したり、マッピングを支援したり、配達を行ったりできるようになります。コンピューター ビジョンは現在、公共の安全、セキュリティ、監視の分野で広く使用されています。もちろん、このようなアプリケーションは倫理の遵守にも注意を払い、人々の利益を保護する必要があります。 コンピューター ビジョンについて最後に言及する価値のあることが 1 つあります。人間は、見る、嗅ぐ、聞く、触る、味わうという五感を通じて、周囲の環境や世界を知覚することができます。感覚が情報を捉え、それが神経系に渡されて変換され、どのような行動を取るべきか、どのような反応をすべきかが決定されます。コンピューター ビジョンは、人工知能の特定の応用である視覚の類似物です。 04 パターン認識パターン認識では、図 4-1 に示すように、非構造化データを入力し、モデルで処理して、特定のパターンが存在するかどうかを検出し (検出)、識別されたパターンにカテゴリを割り当て (分類)、識別されたパターンのテーマを発見します (認識)。 ▲図4-1: パターン認識 これらのアプリケーションへの入力には、画像 (一連の静止画像であるビデオを含む)、オーディオ (音声、音楽、サウンドなど)、テキストが含まれます。テキストは、その特性に基づいて、電子的、手書き的、または印刷されたテキスト(紙、小切手、ナンバープレートの番号など)にさらに細分化できます。 画像を入力として取得する目的は、オブジェクトの検出、オブジェクトの認識、オブジェクトの発見、またはこれら 3 つすべてである可能性があります。顔認識はその良い例です。画像内の顔を検出し、検出されたオブジェクトを分類して人物としてラベル付けするようにモデルをトレーニングすることは、認識されていない顔であるオブジェクト検出の例です。 「検出」は、背景と異なることが検出されたオブジェクトを指すために使用されます。また、オブジェクトの位置の測定値と、検出されたオブジェクトの周囲の境界ボックスの特定の測定値も含まれます。認識は検出されたオブジェクト (この場合は顔) を分類またはラベル付けするプロセスを指しますが、識別はさらに一歩進んで、認識された顔に ID を割り当てます。図4-2に画像認識の例をいくつか示します。 ▲図4-2: 画像認識と検出 顔認識などの生体認証技術を使用すると、画像内の人物に自動的にタグを付けることができます。生体認証のもう 1 つの形式は指紋に基づいています。 その他のアプリケーションには次のものがあります:
音声認識のアプリケーションには以下が含まれます。
最後に、手書きまたは印刷されたテキストは、光学文字認識 (OCR) と手書き文字認識によって電子文書に変換できます。文書を音声に変換することもできますが、これは認識アプリケーションというよりも AI の生成アプリケーションであると考えられています。生成アプリケーションについては、この記事の後半で説明します。 05 クラスタリングと異常検出図 5 に示すクラスタリングと異常検出は、最も一般的な教師なし機械学習手法の 2 つです。これらはパターン認識技術とも考えられています。 図5: クラスタリングと異常検出 どちらのプロセスも、ラベルのないデータを入力として受け取り、対応するアルゴリズム (クラスタリングまたは異常検出) によって処理され、クラスタリング シナリオではグループ化を完了し、異常検出シナリオでは異常かどうかを判断します。まずクラスタリングについて説明します。 クラスタリングは、ラベルのないデータ内の類似データをグループに集約します。グループの正確な数は、クラスタリングを実行する担当者 (通常はデータ サイエンティスト) によって決定されます。セット数に正解や不正解はありませんが、特定のアプリケーションに最適なセット数は通常、試行錯誤を通じて決定できます。 データにはラベルが付いていないため、クラスタリングでは各グループに何らかの意味やラベルを割り当てて、明確に説明できるようにする必要があります (例: スポーツファン)。次に、モデルを使用してグループに新しいデータを割り当て、グループのラベルまたは説明を想定します。このプロセスは、新しいデータ ポイントごとにクラスが割り当てられる (ラベルをグループ化することによって) 一種の予測分類と考えることができます。 新しいデータ ポイント (顧客など) をクラスター (セグメント) に割り当てると、製品を正確にターゲティング、パーソナライズし、戦略的に位置付け、各セグメントの顧客に適切な方法でマーケティングを行うためのより優れた方法が得られます。 クラスタリング アプリケーションには、市場と顧客のセグメント化とフォーカス、3D 医療画像分析、ショッピング習慣による製品の分類、ソーシャル メディア分析などが含まれます。 異常検出は、異常なデータ (非常に珍しい、標準から逸脱している、または不正な形式) パターンを検出するために使用される手法です。異常検出アプリケーションには、音声ベースの欠陥および亀裂検出、ネットワーク セキュリティ、品質管理 (製造欠陥検出など)、コンピューターおよびネットワーク システムの健全性 (NASA での欠陥およびエラー検出など) が含まれます。 ネットワーク セキュリティにおける異常検出アプリケーションに関して、一般的な脅威には、マルウェア、ランサムウェア、コンピューター ウイルス、システムおよびメモリ攻撃、サービス拒否 (DoS) 攻撃、フィッシング、不要なプログラムの実行、資格情報の盗難、データの転送と盗難などがあります。言うまでもなく、この点に関しては異常検出のシナリオは無数にあります。 06 自然言語自然言語は、人工知能の開発と応用において非常に興味深く刺激的な領域であり、通常、自然言語処理 (NLP)、自然言語生成 (NLG)、自然言語理解 (NLU) の 3 つのサブ領域に分けられます。それぞれについて個別に議論しましょう。 1. NLP 自然言語処理 (NLP) は、テキスト、音声、手書きの形式で言語を入力し、NLP アルゴリズムによって処理された後、図 6-1 に示すように構造化されたデータを出力します。潜在的な NLP シナリオと出力は多数あります。 図6-1: NLP NLP は NLG と NLU のスーパーセットと見なされることもあるため、AI 自然言語アプリケーション全体は NLP の一形態と見なすことができるということに言及する価値があります。他の人はそれを自然言語アプリケーションの特定のセットと見なしていますが、ここで議論しているのはそのサブセットです。 NLP に関連する具体的なタスクとテクニックは次のとおりです。
具体的な NLP アプリケーションとしては、会社の会議を記録し、それをテキストに変換し、さまざまなトピックに関する分析や会議のパフォーマンスを含む会議の概要を提供するものがあります (https://www.chorus.ai)。 別のアプリケーションでは、NLP を使用して就職面接を分析し、性別中立性、声のトーン、言葉遣いなどの要素に基づいて総合スコアを出します。また、評価と全体的な職務内容を改善するための最適化の提案も提供します。 その他のアプリケーションには次のものがあります:
現在、NLP サービスと API インターフェースを通じてこの機能の一部を提供するクラウド サービス プロバイダーは数多く存在します。 2. ノンレゾリューション NLG は構造化データの形式で言語を入力し、それを NLG アルゴリズムで処理し、図 6-2 に示すように対応する言語を出力として生成します。この言語出力は、テキストまたはテキスト読み上げの形式で行うことができます。構造化された入力データの例としては、試合中の選手に関する統計、広告の効果に関するデータ、企業の財務データなどが挙げられます。 ▲図6-2: NLG アプリケーションには以下が含まれます:
Andrei Kapasi 氏は、Wikipedia の記事、赤ちゃんの名前、数学の論文、コンピューター コード、シェイクスピアのモデルを自動的に生成できるモデルを作成しました。その他の用途としては、手書きのテキストの生成やジョークの作成などがあります。 3. ネイティブルー 最後に、NLU は言語 (テキスト、音声、または手書き) を入力として受け取り、それを NLU アルゴリズムで処理して、図 6-3 に示すように、理解可能な言語を出力として生成します。結果として得られる理解可能な言語は、アクションの実行、応答の生成、質問への回答、会話の実施などに使用できます。 図6-3: NLU 「理解」という言葉は本質的に非常に深遠かつ哲学的な意味を持ち、実現の概念を伴うことに注意することが重要です。理解する能力とは、情報を理解すること(暗記することとは対照的)だけでなく、理解した情報を既存の知識と統合し、それを知識の成長する基盤として使用することを指します。 人間のような言語理解力の欠如は、今日の自然言語ベースの人工知能アプリケーションの大きな欠点です。根本的な原因は、機械が人間のような言語理解力を獲得することが非常に難しいことです。人工知能の現状と課題についての前回の議論を覚えていますか? これは明確な証拠です。 本格的な哲学的議論には立ち入らずに、「理解」という用語を、アルゴリズム (これも大幅に簡略化されています) が入力言語を解析してテキスト分析などの単純なタスクを実行するだけでなく、入力言語でより多くのことを実行できるという意味で使用しましょう。 NLU が解決する必要のある問題は、明らかに NLP や NLG (汎用人工知能の問題) よりもはるかに困難であり、NLU は汎用人工知能 (AGI) を実現するための主要な基本コンポーネントです。 現在の NLU はますます洗練され、パーソナル仮想アシスタント、チャットボット、カスタマーサクセス(サポートとサービス)エージェント、セールスエージェントなどのアプリケーションがすでに存在します。これらのアプリケーションには通常、何らかの手書きコンテンツや音声ダイアログが含まれており、情報収集、質問への回答、または何らかの支援ツールを中心に展開されることが多いです。 パーソナルアシスタントの具体的な応用例としては、AmazonのAlexa、AppleのSiri、Google Assistant、NuanceのNinaなどが挙げられます。チャットボット アプリケーションの例としては、潤滑油の専門家、就職面接、学生ローン アドバイザー、ビジネス保険の専門家などが挙げられます。これは非常に活発で将来有望な AI 研究の分野であり、間違いなく注目する価値があります。 07 時系列データとシリーズベースデータほとんどの場合、データは順番に収集されるため、データの順序は非常に重要であり、特定のインデックスによって決定されます。 最も一般的なデータ系列のインデックスは時間であり、時間でソートされたデータは時系列データと呼ばれます。日々の取引時間中の株価変動、DNA配列、IoTセンサーデータ、風向などの科学現象はすべて時系列の良い例です。 時系列分析とモデリングは、傾向、季節性、サイクル、ノイズなどの時間ベースのイベントを学習、判断、予測するために使用できます。 特定のアプリケーションでは、文字や単語のシーケンスも有効なシーケンス データであり、n グラム、スキップ グラム、文、段落、さらには言語自体など、異なるラベルが付けられます。言語は、話し言葉、書き言葉、または電子形式で表現されます。また、音声や動画もシーケンスデータです。 アプリケーションには以下が含まれます:
08 情報の検索、抽出、分類、スコアリング多くの強力な AI アプリケーションは、情報の検索、抽出、ランク付け (スコアリング) を中心に展開されています。これは特に、テキスト ドキュメント、Web ページ、画像、ビデオなどの非構造化データおよび半構造化データに適用されます。 このデータは、構造化データで補完されることもあり、情報の抽出、検索や最適化プロセスの推奨事項の提供、関連性、重要度、優先度による項目のランク付けやスコア付けに使用できます。このグループのテクノロジの多くはパーソナライゼーションに関連しており、検索結果やその他の項目を特定のユーザーまたはグループとの関連性に応じてランク付けしたり、ランク付けしたりできます。 現在、多くの検索タスクは、Google 独自の人工知能検索アルゴリズムを使用したキーボード入力や音声を通じて Google などの検索エンジンに提供されています。電子商取引アプリケーションも独自のエンジンを使用して製品を検索し、検索プロセスはテキスト、音声 (スピーチ)、および視覚的な入力によって実行できます。 テキスト検索には、Google 検索、Microsoft の Bing、分散型、透過型、コミュニティ主導型の検索が含まれます。 音声および画像ベースの検索アプリケーションには次のものがあります。
ビデオ検索は画像コンテンツに基づいて検索します。ショッピングアプリは長い間このアプローチを採用してきました。ユーザーは撮影した写真をビデオ検索エンジンに送信します。この写真は、衣服などの類似検索結果を生成するために使用されます。一部の画像エンジンでは、他の類似製品や推奨事項を視覚的に表示することもできます。 分類手法に加えて、次のアプリケーションを含むランキングおよびスコアリング手法もあります。
09 強化学習強化学習 (RL) は、これまでここで説明してきた AI 技術とは大きく異なります (前述の人間の学習方法を思い出してください)。基本的な考え方は、仮想環境で行動してプラスの報酬を得るエージェントを用意することです。各アクションは環境の状態の変化を引き起こし、各アクションはポリシーと呼ばれるモデルによって決定されます。ポリシーは、特定の状態において実行すべき最善のアクションを決定しようとします。 今のところ意味がわからなくても心配しないでください。例を挙げて、よりわかりやすく説明します。図 9 は強化学習を非常に鮮明に示しています。 図9: 強化学習 Ms. Pac-Man というゲームを考えてみましょう (なぜ Ms. Pac-Woman ではないのでしょうか?)。 Ms. Pac-Man の目的は画面上のすべてのドットを食べることですが、より大きな目的は食べられるドットから最も多くのポイントを獲得することです。なぜ最も多くのポイントを獲得することが本当の目標なのでしょうか? あるいは、そもそもなぜこのゲームをプレイするのでしょうか? まず、獲得したポイントが多ければ多いほど、獲得できるフリーライフの数が増えます。フリーライフが長ければ長いほど、プレイできる時間が長くなり、獲得できるポイントも増えます。第二に、レースを完走したり世界記録を樹立したりできれば、公式の「自慢できる権利」を得ることができます。それを望まない人がいるでしょうか? この場合、ポイントは報酬、ミズ・パックマンはエージェント、環境は画面、そして人(プレイヤー)はジョイスティックを操作してどのようなアクションを取るかを決定する戦略となります。 もちろん、環境はステートフルです。ミズ・パックマンが画面上のドットやフルーツを食べながら追いかけてくるゴーストを避けなければならないという、通常の微妙な状況と、ミズ・パックマンが無敵の薬(名前がわかりません)を食べてゴーストを食べて大量の追加ポイントを獲得できる、負けられない状況があります。 無敵か無敵でないかを決定するのは、環境の状態の変化と、環境におけるエージェントの能力の変化です。 注目すべきは、人々が Ms. Pac-Man をプレイするとき、最も多くのポイントを獲得することよりも、画面上の目標を達成し、できるだけ多くのレベルをクリアすることに動機付けられる場合があるということです。この場合、プレイヤーは無敵状態を利用してスピードを上げ、妨害されないポイントをできるだけ多く獲得し、おそらくゴーストを食べずにポイントを最大限に獲得するでしょう。 最も多くのポイントを獲得することを目標とする強化学習アプリケーションがあるとします。この場合、アプリはまさにそれを実行する方法、つまりできるだけ多くのゴーストとフルーツを食べる方法を学習しようとします。 もう 1 つ言及しておくべきことは、スコアを獲得することはプラスの報酬であるということです。幽霊に命を奪われるのは、マイナスの報酬です。時間の経過とともに、強化アプリケーションはスコアを最大化し、ライフ損失を最小限に抑えるように努める必要があります。この例はゲームのコンテキストで構築されましたが、強化学習を使用できる方法は他にもたくさんあります。 アプリケーションには以下が含まれます:
10. ハイブリッド、自動化、その他実際のアプリケーションに関する最後のセクションでは、複数の組み合わせた技術を使用するか、またはこれまでに説明したカテゴリのいずれにも当てはまらないため、混合またはその他として分類されるアプリケーションをいくつか示します。 アプリケーション例には以下が含まれます。
AI 開発のもう 1 つの非常に興味深い分野は、生成アプリケーションです。これは基本的に、特定の種類の入力から特定のアプリケーション用に何かを生成できる AI です。例:
その他のアプリケーションには、スタイルの転送(一般的な画像をゴッホやピカソのスタイルの「芸術的な」複製に変換するなど)が含まれます。不足している3D画像データを生成して2D画像を3D画像に変換する超解像撮影という技術もあります。最後に、自動画像カラー化は AI のもう一つの興味深い応用です。 |
>>: 目標駆動型システムモデルは、人工汎用知能 (AGI) を実現するための鍵となるでしょうか?
[51CTO.com からのオリジナル記事] RPA は人間の働き方をシミュレートし、ルールベースの...
[[437564]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
[[434376]]当時、Dota 2 をプレイする OpenAI Five のトレーニングには ...
2018年世界ロボット会議が北京で開催され、ロボット産業の最先端技術が披露されました。世界的なロボ...
この ASO チュートリアル シリーズを初めて読む場合は、最初の記事から始めることをお勧めします。 ...
音声制御システムから今日のいくつかの無人技術まで、人工知能は徐々に成熟しています。ビッグデータセンタ...
「テクノロジーがなければ、金融は存在しない。」モバイルインターネット時代の到来により、テクノロジーや...
慢性閉塞性肺疾患を患っている女性は長い間病気で寝たきりの状態です。しかし、彼女の最後の願いは、アメリ...
最近、第7回ビジョンと学習セミナー(VALSE)が厦門大学で成功裏に終了しました。 VALSE は ...
センサーのコストは15ドルから1ドルまで幅があり、自動車メーカーは、車両を完全に自動運転にするにはど...