企業は、画像認識、音声認識、チャットボット、自然言語生成、感情分析がビジネスの運営方法にどのような変化をもたらすかを理解する必要があります。
AIテクノロジーはビジネスのあらゆる側面に組み込まれています。重要な AI テクノロジーには、画像認識、音声認識、チャットボット、自然言語生成、感情分析などがあります。 明確に言えば、各タイプの AI テクノロジーは、多くの場合、数十または数百の基礎コンポーネントを含む広範なカテゴリを表します。次に、これらのコンポーネントは、ビジネスに価値を生み出すより複雑なアプリケーションに再結合されることがよくあります。 例えば、百貨店の AI ロボットは、画像認識、ビデオ、音声認識の技術を業務に活用することができます。画像認識ソフトウェアにより、棚の在庫の位置、価格、数量を確認できる。ビデオにより、障害物を回避し、店内での位置を特定できる。音声認識コンポーネントにより、顧客を案内したり楽しませたりできる。 この偉業を達成するために、これらのビジネスにおける AI テクノロジーは通常、全体的なタスクの特定の部分に合わせて調整されたさまざまなアルゴリズムとテクニックを組み合わせます。これらには、記号処理、統計分析、ニューラル ネットワークなどが含まれます。 ここでは、時間の経過とともに進化し、企業がデータを処理、分析、生成する方法を劇的に変えてきた 5 つの AI テクノロジーについて詳しく説明します。 1. 画像認識 企業が画像認識を使用するさまざまな方法には、工場ラインの自動検査、保険における損害見積りの生成、画像内のオブジェクトの識別、人数のカウント、製造プロセスの制御、顧客の入店などのイベントの検出、現実世界のモデルの生成などがあります。 AI テクノロジーは、さまざまな AI アルゴリズムが処理できる数値を使用して世界を記述する方法を見つけなければなりません。視覚においては、研究者たちは画像をピクセルのグリッドに分割し、各ピクセルを数値として表す方法を発見しました。初期の頃は、各ピクセルの明るさを表すために 1 つの数値が使用されていました。その後、各ピクセルの異なる色の明るさを表すために 3 つ以上の数値を使用できることが発見されました。 1960 年代に、研究者たちは、光学式文字認識 (OCR) 技術の原始的な形態におけるソフトウェア画像認識機能を使用してデジタル文書内の文字を識別する方法を研究し始めました。他の研究者たちは、画像ベースのシーン解釈技術を研究し始め、2D 画像から 3D 画像を再構築しようと試みました。これらのテクノロジーは、長年にわたりマシンビジョン業界のツールキットの一部となってきました。 その後、研究者たちは、画像認識を階層的なプロセスとして整理することで、ますます複雑化する現象を説明しやすくなることを発見しました。たとえば、黒と白のピクセルは線や波線として認識され、それが数字の一部として認識される可能性があります。各ピクセルの明るさではなく、これらの波線パターンに基づいて文字を解釈するようにアルゴリズムをトレーニングする方がはるかに簡単です。同様に、各ピクセルの色の明るさだけに基づいて判断するよりも、画像に 2 つの目があり、耳の形が適切かどうかに基づいて画像が猫であるかどうかを判断する方が簡単です。 この種の処理により、画像認識の分野が進歩すると期待されています。しかし、画像認識をサポートするために設計された 8 層の畳み込みニューラル ネットワークである AlexNet が開発された 2012 年頃になって初めて、研究者たちはこのプロセスを拡張して何千もの異なる種類のオブジェクトを認識する方法を発見しました。 AlexNet などのディープラーニング技術の優れた点は、人間が各ステップをプログラムで指定する必要なく、モデルがさまざまな画像認識タスクの実行を自動的に学習できることです。研究者たちは、ニューラル ネットワークをさまざまな種類の問題に適用する方法を解明しました。この機能により、他の種類のアプリケーションにおけるディープラーニングの使用も促進されました。 現在、画像認識は、店頭の商品、写真や動画に映っている人物、生産ラインの欠陥、自動運転車が路上で遭遇する物体などを識別するために使用されています。コロナウイルスのパンデミックの到来に伴い、多くの企業が社会的距離のルールを監視するためのアプリを開発しています。 ビジネス リーダーにとって重要な洞察は、アプリケーションで複数の種類の画像認識を使用することで、より多くの価値を生み出せることが多いということです。たとえば、インテリジェント ドキュメント処理とドキュメント インテリジェンスは、自然言語処理や機械学習などの一連の AI テクノロジを組み合わせて、認識が難しい形式のデータを取得して分類します。光学文字認識 (OCR) と組み合わせて使用すると、インテリジェント ドキュメント処理によってドキュメントの視覚的なレイアウトを分析し、どのセクションが製品、請求金額、または販売条件を表しているかを判断し、その情報を他のビジネス アプリケーションで利用できるようになります。 企業における画像認識アプリケーションのほとんどがコンテキストに大きく依存していることは注目に値します。ベンダーや研究者は、腫瘍の特定において医療専門家を上回るソフトウェアなど、画像認識の新たな改善点を頻繁に宣伝している。しかし実際には、AI は、画像が正しい角度で撮影された場合にのみ、特定の機器を使用してこれらの放射線画像を処理できます。一方、人間は、さまざまな角度から撮影された多種多様な画像を分析することに長けています。 研究者らは、これらの画像認識アプリケーションの一部の実装にバイアスが潜んでいることも発見した。バイアスを減らすために、専門家は、処理する特定の種類の画像を代表するデータでこれらのアプリをトレーニングすることを推奨しています。 2. 音声認識 音声をテキストに変換し、デジタル処理できるように準備するには、いくつかのアルゴリズムが必要です。音声認識システムは改良されつつありますが、現在最も優れたシステムでもエラーが発生しやすいため、医療データのキャプチャなど安全性が重要視されるアプリケーションでは、何らかの検証が必要になります。 ベル研究所の研究者は 1952 年に、数字 1 桁を識別する最初の音声認識システムを開発しました。 1962 年までに、IBM は 16 語を理解できる Shoebox マシンを発表しました。 1980 年代半ばまでに、研究者たちは隠れマルコフ モデルなどの統計的手法を使用して、単語間に休止を含めて 20,000 語を理解できるアプリケーションの開発を開始しました。最初の消費者向けディクテーション製品である Dragon Dictate は 1990 年にリリースされ、音声に基づいてテキストを自動的に入力することができました。その後、AT&T は人間を介さずに通話をルーティングできる音声認識アプリケーションを導入しました。これらの初期のシステムでは、特定のコンテキストに合わせた小さな語彙が用意されていたり、単一の音声からの広範なトレーニングが必要であったりしました。 研究者たちは2010年にディープニューラルネットワークを音声認識に適用する方法を発見し始めました。この成長の主な原動力の 1 つは、さまざまな種類のスマート スピーカーの音響特性をより適切に表現する方法を見つける必要性です。これには、生の音声データを、人間が聞き慣れている音素と呼ばれる特徴的な音(たとえば、「car」という単語の「c」)に変換するより優れた方法を模索する必要があります。 研究者らはまた、基本的な音声認識の結果と、同音異義語(bear/bare)を区別するためのより優れたシナリオを組み合わせました。クラウド コンピューティング サービスでは現在、さまざまなコア音声テキスト変換サービスが提供されており、開発者はそれをさまざまなエンタープライズ ワークフローに組み込むことができます。 基本的な音声認識機能は、Microsoft Cortana、Google Now、Apple Siri などのクラウド コンピューティング サービスを通じて、最新のスマートフォンやコンピューターに組み込まれています。アマゾン・ドット・コムは音声認識技術を活用し、Alexa音声サービスを通じてスマートフォン以外でインターネットに接続する新しい方法を発表した。これらのサービスは通常、クラウド内で重い処理を実行します。最近、Google は Pixel スマートフォン上で音声認識アプリをネイティブに実行するためのより効率的なアルゴリズムを開発することで、基準を引き上げました。 企業における音声認識技術の利用が増加しています。一部のベンダーは、コンプライアンス目的や意思決定プロセスのより適切な文書化を目的として、電話会議や対面会議を自動的に記録するアプリケーションの開発も開始しています。自動音声認識は、コールセンターの活動を監視して作業員が正しい手順に従っていることを確認するのにも役立ち、管理者がすべての通話を聞く必要がなくなります。音声認識アプリケーションは、海外旅行者向けの言語翻訳を自動化するためにも使用されています。この AI テクノロジーの他の商用アプリケーションには、ホームオートメーション、ビデオゲームのインタラクティブ性、ビデオのインデックス作成のための自動クローズドキャプションなどがあります。 3. チャットボット 会話型 AI テクノロジーにより、アプリケーションは人間と自然な方法で対話できるようになります。最初のチャットボットである Eliza は、1964 年から 1966 年にかけて MIT 人工知能研究所で開発されました。初期のチャットボットは、使用できる語彙や可能なやり取りの種類が限られていました。これらのアプリケーションは、クエリまたは質問に対するユーザーの回答に基づいてさまざまなパスをたどる決定木を使用します。 1980 年代と 1990 年代には、これらのテクノロジーは、IVR テクノロジーを使用してダイヤル トーン応答または簡単な単語で対話が制御される自動電話アプリケーションにまで拡張されました。 チャットボット アプリケーションは、テキスト クエリを解釈して応答するための自然言語処理テクノロジの向上と、他のサービスとの統合の向上により、最近急増しています。これにより、企業は一般的な質問に答えたり、コマンドを実行したり、特定のユーザーへの応答をカスタマイズしたりできるチャットボットを自動的に設定することが容易になります。最近のチャットボット アプリケーション開発における重要な洞察は、ユーザーの意図と適切な応答を表すアプリケーション プログラミング フレームワークの開発です。 外部向けチャットボットは、顧客とのやり取りのさまざまな側面を自動化するのに役立ちます。また、企業はさまざまなソーシャル メディア チャネル (Facebook など) を通じて、より魅力的な方法でプロモーションを行うこともできます。 企業のアプリケーション開発および展開側では、チャットボットと、アプリケーションとインフラストラクチャを自動的に構成し、レポートを生成する運用ツールを組み合わせたチャットボット テクノロジの使用が急増しています。チャットボットの統合により、チームはプロセスを文書化できるため、繰り返し発生する問題への対応や、特定のプロセスが過去にどのように実行されたかの特定が容易になります。 特に Slack や Microsoft Teams などのメッセージング アプリを導入する企業が増えるにつれ、チャットボット ツールは、部門内または部門間のさまざまなコミュニケーションを記録するために、ビジネスの他の側面にも導入され始めています。財務部門はチャットボットを使用して、重要なビジネス指標のステータスを生成および追跡できます。営業チームはチャットボットを使用して主要顧客に関するデータを収集できます。 チャットボットは、他の種類の社内のやり取りを促進するのにも役立ちます。たとえば、従業員が HR チャットボットに福利厚生の状況について質問したり、休暇を申請したりする場合があります。企業はチャットボットを使用して、IT システム管理とのやり取りを自動化し、単純な問題を処理したり、より複雑な問題を自動的にトリアージしたりしています。 4. 自然言語生成 データ量が増加すると、従業員や顧客にとって適切な情報を優先することが難しくなる可能性があります。自然言語生成 (NLG) アプリケーションは、特定のユーザーにとって最も適切な洞察を見つけ、整理し、要約するのに役立ちます。 この AI テクノロジーは、ビジネスユースケースに応じてさまざまな種類があります。自然言語生成は、ガートナーが考案した新しいアプリケーション カテゴリの一部として、ビジネス インテリジェンスおよび分析アプリケーションのフロントエンドとして追加され始めています。これらの技術は、プレーンテキストのクエリを解釈する機能と、プレーンな英語の分析の適切な要約を生成する機能を組み合わせたものです。たとえば、USAA は、さまざまな保険商品の販売についてビジネス ユーザーに提供する回答を改善するために、自然言語生成 (NLG) アプリケーションを構築しました。 この AI テクノロジーのもう 1 つの特徴は、製品情報をユーザーに提示する方法が改善されたことです。このようなタイプのアプリケーションでは、自然言語生成エンジンがユーザーの好みに基づいて製品の説明をカスタマイズできます。たとえば、新しい電話ヘッドセットのような製品の場合、テクノロジー ユーザー向けにはその技術的な特徴について詳しく説明し、ファッションに敏感な購入者には外観や感触の美的説明を提供するといったことが考えられます。自然言語生成 (NLG) は、コンテンツを新しい市場に翻訳する方法の改善にも役立ちます。 Trulia は、自然言語生成 (NLG) を使用して、不動産物件の近隣地域の説明を自動的に生成しています。自然言語生成 (NLG) は、Associated Press の基本的なニュース記事の作成にも使用されます。エスクァイア・シンガポールは、AI アプリケーションに関する記事を特集した特別号も作成しました。しかし、この AI テクノロジーはまだ初期段階にあり、専門家は、企業や医療などのミッションクリティカルなアプリケーションでは新しいタイプの品質管理が必要になると警告しています。 それでも、企業は自然言語処理フレームワークの最近のさまざまな改善から恩恵を受ける可能性があります。企業が特定のフレームワークの有用性を評価し、自然言語生成 (NLG) アプリケーションの実装を改善するのに役立つ新しい自然言語処理メトリックが登場しています。 5. 感情分析 人々は、出来事、ブランド、政治家などについて書くときに、さまざまな種類や強さの感情を表現することがよくあります。感情分析の分野は、マーケティング担当者が文書の調子を分析した 1950 年代に始まりました。しかし、これは非常に手作業を要するプロセスです。しかし、今ではほぼすべての人が、ソーシャル メディア、ブログ、ニュース レビュー、コメント、サポート フォーラム、企業とのやり取りなどに感情的なデジタル トレースを残しています。 自然言語処理、機械学習、統計などのさまざまな AI 技術を使用して、これらのデジタル フットプリントの感情的なトーンを分析します。これらのツールは、直接顧客に尋ねることなく、製品やサービスの変更が顧客にどのような影響を与えるかを追跡するのに役立ちます。また、競合他社の製品や活動を監視するのにも役立ちます。 感情分析のもう 1 つの使用例としては、いわゆるブランド インフルエンサーを特定し、企業が自社のサービスや製品を改善する方法についてよりよいアドバイスを提供できる個人とより強固な関係を構築できるようにすることが挙げられます。 感情分析は、顧客や潜在顧客が何に興味を持っているかという重要な傾向を特定するのにも役立ち、企業は現在の製品を改善したり、ニーズを満たす新しい製品を開発したりすることができます。企業は感情分析を使用して、待ち時間の長さ、品質の低さ、構想の悪さなど、ブランドが損なわれる可能性のある具体的な理由を特定することもできます。 企業は、従業員の士気や幸福度を理解し、向上させるために、この AI テクノロジーを社内で活用しています。このユースケースでは、感情分析によって従業員の投稿を分析し、重要な問題や経営陣の変更が従業員に与える影響を理解するのに役立ちます。 より洗練された感情分析アプリケーションでは、AI を使用して音声や表情によって伝えられる感情を理解します。この分析は、サポートコール中の感情の変化を特定したり、店頭の新製品に対する顧客の感情を測定したりするのに役立ちます。 Netflix は、映画の予告編を改善するために、表情感情分析を使用する実験も行っています。しかし、一部の研究者は、感情分析のこれらの応用は信頼性、特異性、一般化可能性の問題に悩まされる可能性があると警告しています。 |
<<: 機械学習を使用すべきでないのはどのような場合ですか?
>>: データサイエンスを始めるにはどの程度のレベルの数学が必要ですか?
視覚的なプロンプトを使用するとどのような感じでしょうか?写真をランダムにフレームに入れるだけで、同じ...
[[393200]] [51CTO.com クイック翻訳]人工知能は企業に競争上の優位性をもたらし...
[[204836]]基本概念先月、私は機械学習を原理レベルから理解し始め、オンライン電子書籍「ニュー...
オープンソースの「ビッグコードモデル」が登場しました。 UIUC 清華大学の研究者チームは、70 億...
ガートナーによれば、2023年までにプライバシーコンプライアンス技術の40%以上が人工知能(AI)に...
新興技術の発展とビジネス、公共福祉、社会統治などの分野におけるその応用をどのように促進、保護、規制す...
Transformer モデルは、Google チームが 2017 年に発表した論文「Attent...
[[272601]] 1. 対称暗号化アルゴリズムの概要対称暗号化アルゴリズムは、成熟した技術を備...
ABIリサーチは、ドローン市場は今後10年間で大きく成長し、2030年までに920億ドルの価値に達す...
[[431427]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...
Safetensor とは何ですか? 【セーフテンソル】:https://huggingface....