ビッグデータ、クラウド コンピューティング、高度なアルゴリズムという 3 つの主要なトレンドのユニークな融合により、AI が普及し、日常のアプリケーションに広く普及するようになりました。今日、AI はソフトウェアの作成方法を根本的に変えており、電子メールの作成、Web の検索、洋服の買い物、音楽の検索と視聴、Web サイトの構築など、日常的なデジタル体験に統合されています。しかし、製造、運輸、航空、発電、金融サービスなどの業界における世界的なインフラシステムへの AI の普及は鈍化しています。 これらの業界には大量のデータがありますが、そのデータは通常次のようなものです。
これらの非常に現実的な課題により、インターネット検索、請求書の読み取り、言語の翻訳、会話の実施に革命をもたらした AI テクノロジーを、そのまま専門分野に適用することは不可能になります。 業界の AI 実践者は、従来の教師あり機械学習アプローチや、学術界や研究機関による大規模モデルは専門分野では失敗することが多く、商業企業でビッグデータを運用化することが非常に困難であることを認識しています。ガートナーのシニアディレクターアナリストであるチラグ・デカテ氏は2019年に次のように述べています。「パイロットを開始するのは簡単そうに思えるかもしれませんが、それを本番環境に展開するのは非常に困難です。」 業界全体での導入の鍵は、データ サイエンティストやソフトウェア開発者に頼るのではなく、プロセスとデータについて深い理解を持つ専門家 (SME) に力を与えることです。しかし、発電所運営者、金融アナリスト、通関業者などの中小規模の組織が、独自の専用 AI を直感的かつ迅速に定義、構築、展開できるようにするには、データの検出、ツール、自動化、検証に対する新しいアプローチ、つまりデータ サイエンスが必要です。 企業内で最も一般的な形式のビッグデータを実装するための実証済みの手法には、次のものがあります。 デジタル センサー データの通常の動作をモデル化することで、計画外の資産ダウンタイムの早期警告を作成します。 産業活動では、ガスタービンなどの重要かつ価値の高い資産に依存することがよくあります。計画外の停電や停電が 1 日発生すると、電力会社や公共事業体は約 30 万ドルの収益を失う可能性があり、消費者への影響はさらに深刻になる可能性があります。これらのシステムはその重要性から、冗長性が過剰に構築され、包括的な予防保守プログラムが備えられていることがよくあります。皮肉なことに、システムのライフサイクル中に障害が発生することはほとんどないため、従来の教師あり機械学習は困難になります。 通常動作モデリングは、ドメインに依存しない半教師あり機械学習手法であり、プロセス パラメータの組み合わせとして表現することで、あらゆるシステムを迅速にモデル化するために使用できます。 SME は履歴データで通常のシステム動作の時間枠を特定し、その後 AI がプロセス パラメータ間の基本的な関係を学習し始めます。オートエンコーダーは、履歴データに基づいてトレーニングされ、潜在的な関係を重みのセットとして保存するニューラル ネットワークです。オートエンコーダーをトレーニングすると、入力プロセス パラメータを予測または再生成するために使用できるようになります。プロセス パラメータの予測値または再現値が測定された履歴値と一致しない場合、正規化されたエラーが「異常」または異常性の尺度として使用されます。 このタイプの通常の動作モデルを製品化する前に、システム内の実際の停止やイベントの履歴に対してバックテストを行う必要があります。選択したプロセス パラメータがシステムの動作を適切に表している場合、中断が発生する前に、一部またはすべてのパラメータが異常な範囲に向かって傾向を示し始めるはずです。正常な動作モデルは、異常レベルを上げることによってこれを予測する必要があります。停電前に異常レベルが十分に高くなり続ける場合、将来の停電に対する早期警報システムを作成するために使用できます。 実際には、ハイパーパラメータ最適化を使用して、数十または数百の通常の動作モデルを自動的にトレーニングできます。予測の精度と警告の長さを測定するための目的関数を作成します。この目的関数により、すべてのモデルバリアントをプログラムで評価およびランク付けし、最適なモデルを本番環境に展開することが可能になります。異常レベルとユーザーの好みに基づいて、アラートの正しい動的しきい値を選択するために、追加のチューニング レイヤーを追加できます。 従来のモデリングと比較して、通常の動作モデリングには次の利点があります。
アドホック密度ベースのクラスタリングを使用して自然言語トランスクリプト内のパターンを見つけます。 自然言語ログは産業環境では非常に一般的であり、製品テスト、アプリケーション/セキュリティ ログ、機器メンテナンス、物流、輸送などの幅広いプロセスの基礎を形成します。実際には、企業内のほとんどのレコードは半構造化レコードであり、通常は人間が使用するために作成された、構造化データ (数値、日付、カテゴリ) の列が 1 つ以上と、自然言語テキストの列が 1 つ以上あります。半構造化レコードの必要性は、企業内のほぼすべての場所で生じています。理想的には、プロセスに関して収集されるすべてのデータは、数値、日付、および複数選択のカテゴリ要素になります。ただし、実際には、レコードに自然言語を導入する理由は複数あります。 設計時にすべてのプロセス パターンがわかっているわけではないため、「その他」またはすべてを網羅するカテゴリに分類されます。 指示や手順は自然言語で表現するのが最適であり、時間の経過とともに改善されます。 トラブルシューティング、診断、調査などでは、これまで知られていなかった知識が生成されることが多く、自然言語が必要になります。 企業の運営記録は機能的/簡潔であることが多く、スペルミスや口語表現が含まれ、頭字語や専門用語が含まれることもよくあります。これにより、標準的な検索および自然言語モデリング技術は、ある程度効果が低下します。さらに、自然言語を使用する方法は潜在的に多数あるため、包括的な正規化スキームは維持できません。例えば。上記の事故は、重症度(軽傷など)または負傷部位(手の負傷など)によって分類できます。これら 2 つのカテゴリは相互に排他的ではなく、別々の分類スキームとして考慮する必要があります。中小企業の努力がなければ、ほとんどの自然言語の書き起こしはほとんど分析されず、活用されないままになります。 自然言語のトランスクリプトから有用なパターンを見つける実用的なアプローチは、ピアツーピア クラスタリングです。中小企業は、情報を取得するために、まず自社の記録に対して一般的な検索手法を使用します。ただし、何百もの結果を読むのは面倒なことが多く、最初の「n」個の結果だけを消費すると、情報が漏れてしまう可能性があります。これらの落とし穴を避けるために、AI は検索結果に密度ベースのクラスタリングを適用します。 DBSCAN や HDBSCAN などの密度ベースの方法を記録された文の埋め込みに使用すると、スペル、活用、タイプミス、口語表現にあまり敏感にならずに、意味的に類似した言語をクラスター化する傾向があります。中小企業は、クラスター内のいくつかの代表的なレコードを簡単に読み取って、完全に理解することができます。さらに、上位「n」個のクラスターを分析すると、通常、検索結果の主要な情報パターンが明らかになります。これらのクラスターは、データの周囲に分類構造を徐々に作成できる分類スキームの初期候補にもなります。この手法は、SME の意図を事前に正確かつ完全に理解することはできないが、時間をかけて定義して適用できるロングテール検索の問題において高い価値を示し続けています。 ディスカバリーループを使用してドキュメントから情報や知識を取得するあらゆる業界、政府機関、軍事部門のアナリストは、重要な時間的制約のある意思決定を行うために、膨大な量のコンテンツを処理する必要があります。経営幹部は、自信を持って熟考した意思決定を行うために、レポート、ニュース、勧告、調査を正確に解釈するアナリストを頼りにしています。探索的な読書を通じて適切なコンテンツを見つけることは認知的に負担が大きく、意思決定疲労を引き起こす可能性があります。さらに、アナリストは、標準的な検索ツールに必要なキーワードや論理ルールを使用して明確に表現することが難しい難解な概念を調査することがよくあります。 ” 上記のニュース抜粋の物語テキストの例を考えると、 2 番目の例では、実際には「アウトブレイク」という言葉は使用されていませんが、中小企業はこれをアウトブレイクの先行指標としてすぐに評価する可能性があります。このような難解な知識獲得シナリオに対処するために、中小企業はまず、見つけたいアイデアを表す複数のキーワードの 1 つを使用してドキュメントを検索します。 DiscoveryLoop AI は、結果から最も代表的な 25 ~ 50 の文を選択し、簡単なタップ操作で、中小企業が結果を 1 つ以上の意味のあるカテゴリに分類できるようにします。あるいは、SME は文から部分文字列を指定して単語ごとに抽出することもできます。 AI は、SME によって割り当てられたカテゴリを学習するために CNN 分類器をトレーニングします。分類されていない文は自動的に「興味深くない」カテゴリに割り当てられました。このようにトレーニングされたモデルは、元の検索結果のすべての文に対して推論を実行します。推定されたカテゴリ予測とその相対的な予測信頼度に基づいて、AI は、最初の 25 ~ 50 の文に割り当てられたカテゴリ ラベル「ラベル x に最も似ている」と「ラベル x に最も似ていない」に基づいて、SME によるレビューや修正のために少なくとも 2 つの文のグループを提示します。 AI は 25 ~ 50 の文でモデルをトレーニングし、検索結果について推論を行うだけなので、サイクルにかかる時間は通常数分だけです。同様に、各レビュー グループには 25 ~ 50 文しか含まれていないため、SME によるレビューには数分しかかかりません。この迅速な反復はディスカバリー ループと呼ばれ、中小企業はキーワードに焦点を当てることなく情報をすばやく発見し、読むだけで集中的な意思決定を行うことができます。 SME がより多くのラベル付き文を管理するにつれて、AI は分類モデルまたは抽出モデルを再トレーニングして精度を向上させ、ラベル付き文から抽出されたキーワードを使用してクエリ拡張を実行することでドキュメント セットの範囲を拡大します。いつでも、ドキュメント セット内のすべての文に対してモデルを実行して、SME によって定義された難解な概念に一致する包括的な文のサブセットを取得し、それを引用したり、アナリスト レポートで証拠として引用したりできます。 従来の教師あり分類方法と比較して、ポイントツーポイントの密度ベースのクラスタリングと検出ループには、次の利点があります。
すべてのテクノロジーに共通する特徴は、AI を使用して中小企業の知識と直感を強化し、価値の高い意思決定に集中できるようにすることです。これらの技術は、学術界で一般的な従来の教師ありモデリング手法を避け、中小企業の手元に即時のインテリジェンスを提供することで、迅速な実用性に重点を置いています。 |
<<: 10人が2か月かけて大型模型を製作しました! 1年間でトップカンファレンスで発表された16本の論文: 市場で最も優れた論文はどれもオープンソースではない
>>: オープンワールドでテストセグメントトレーニングを実行するにはどうすればいいですか?動的プロトタイプ拡張に基づく自己トレーニング法
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[433164]] [51CTO.com クイック翻訳]周知のように、小売業界の競争は激しく、人工...
[[416193]]近年、民間ドローンの急速な発展に伴い、航空写真撮影市場におけるドローンの応用はま...
COVID-19 パンデミックにより、増大するデータ量を管理し、そこから洞察を得るための IoT に...
10月10日のニュース、過去1年間、生成AIの流行は多くの企業に莫大な利益をもたらしました。最大の受...
脅威の状況が絶えず変化する中、高度なサイバー攻撃に対する防御手段として、生成型人工知能 (GAI) ...
Microsoft は、Windows 10 の次期メジャー バージョンで人工知能 (AI) と機械...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
長年にわたり、強力なパスワード、定期的なデータ バックアップ、多要素認証は、個人情報を安全に保つため...
[[430922]]文中の次の単語を予測するようにトレーニングされた機械学習ベースの言語モデルは、ま...