AIと自動化を活用して機密データを大規模に識別する方法

AIベースの機密情報検出サービスプロバイダーであるText IQのCEO、Apoorv Agarwal氏は、業界メディアとのインタビューで、非構造化データの潜在的なリスクと、大規模な機密データを識別するためのAIと自動化技術の使用について分析し、詳しく説明しました。

[[426575]]

企業が侵害やランサムウェア攻撃に対処しようとするとき、データ内に隠された機密情報を見落としてしまうことがよくあります。この状況の主な原因は何ですか?

Agarwal: 理想的には、企業は自社が所有するデータ内のどこに機密情報が存在するかを把握する必要があります。一般的に、企業は収集した情報を、たとえそれが実際には役に立たないとしても、長期間保持します。これは、データガバナンスというより広範な問題に帰着すると思います。

ある程度の自動化を実現しなければ、強力なデータガバナンスは実現できません。たとえば、企業によって生成されるデータの量は飛躍的に増加しており、データベース内に隠れている未発見の機密情報をすべて人間が評価することに依存し、多くの場合、データを非構造化形式で処理する必要があるため、大規模な作業を行うことは不可能になります。

データ侵害やランサムウェア攻撃の件数は今後も増加し続けるでしょうが、企業は AI テクノロジーを活用して、機密データや個人データを大規模にプロアクティブに特定することでこれに対抗することができます。データが特定されると、悪意のある者の手に渡らないように、編集、削除、暗号化、または保護するために必要な措置を講じることができます。

非構造化データはどのようにリスクをもたらし、それに対して何ができるでしょうか?

Agarwal: 企業データの 80% 以上は構造化されておらず、攻撃対象領域が広いため、サイバー攻撃者の格好の標的となっています。第二に、この非構造化データには、企業秘密、個人情報、健康情報、知的財産など、さまざまな種類の機密情報が含まれています。たとえば、企業秘密を含む構造化データベースを構築できる人はいません。企業秘密は、電子メール、チャット記録、Excel テーブル、その他の非構造化データに散在している可能性が高いからです。

非構造化データがもたらす課題は、データの量が膨大で、その中から機密情報を見つけるのは干し草の山から針を探すようなものであるため、スケーラブルな機械学習テクノロジーが必要になることです。

自動化が唯一の前進方法なのでしょうか、それとも人間的要素にはまだ価値があるのでしょうか?

アガルワル氏：データは明らかに人口よりも速いペースで増加していると思います。十分な人員がなければ、タスクの量と複雑さを処理する能力が不足します。

AI テクノロジーやロボットを使用するということは、単にボタンを押すだけでこれらのタスクを自動的に完了するということではなく、人間の助けが必要であることにも留意することが重要だと思います。そして、この作業は機械や人間だけではできません。

AI が機密情報を識別して保護する仕組みを説明していただけますか?

アガルワル氏： AI は機密情報を保護するわけではありませんが、識別はします。機密情報が特定されると、組織はそれを削除、編集、暗号化、またはアクセス制御を変更することで、それを保護するための措置を講じることができます。

課題は識別そのものにあります。識別に関しては、RegEx や検索用語など、いくつかの時代遅れの方法やテクノロジーが現在使用されています。これらの労働集約的な方法は、時間がかかり、スケーラビリティが低いだけでなく、不正確な結果を生み出す可能性があります。

しかし、9 桁の数字すべてが社会保障番号 (SSN) というわけではありません。一方、AI システムは、情報が出現するコンテキストを調べて、その情報が機密情報であるかどうかをより正確に判断できます。たとえば、電子メール。電子メールの機密情報を分析する際、AI は、電子メールチェーンを誰が書いたか、誰が入手したか、誰がコピーされたかなどの関係ネットワークなどのコンテキストを考慮して、一部の電子メールが機密情報であるかどうかを判断できます。

理論上は、人間はこれらすべてのシナリオを評価して比較検討することができますが、それを実行できるほどの人間の数はいません。さらに、人間は計算タスクは得意ではありませんが、抽象的な思考は得意です。

組織がデータを保護する方法は、その組織のビジネス全体と評判に大きな影響を与える可能性があります。彼らはこのことにどの程度気づいていると思いますか? どのような点を改善すべきだと思いますか?

アガルワル氏：多くの企業は、データ侵害がビジネス全体と評判に与えるコストと影響について十分に認識しています。データ侵害の影響をまったく受けないと考えている企業は存在しません。企業の取締役がこれを理解することが重要です。

ここは改善の余地ありです。長い間、多くの企業はデータ損失防止、検索用語、手動レビューに依存してきました。彼らは本当に方向転換し、人工知能のような新しいテクノロジーを活用する必要があります。

<<: AI が生活に統合されると、能力が高ければ高いほど、管理が難しくなります。

>>: 毎日のアルゴリズム: バランスのとれた二分木

ブログ

AIと自動化を活用して機密データを大規模に識別する方法

企業が侵害やランサムウェア攻撃に対処しようとするとき、データ内に隠された機密情報を見落としてしまうことがよくあります。この状況の主な原因は何ですか?

非構造化データはどのようにリスクをもたらし、それに対して何ができるでしょうか?

自動化が唯一の前進方法なのでしょうか、それとも人間的要素にはまだ価値があるのでしょうか?

AI が機密情報を識別して保護する仕組みを説明していただけますか?

組織がデータを保護する方法は、その組織のビジネス全体と評判に大きな影響を与える可能性があります。彼らはこのことにどの程度気づいていると思いますか? どのような点を改善すべきだと思いますか?

人工知能が農業市場に浸透：機械農業は従来の農家よりも優れている

人工知能を背景にした教育の未来を探る

一目でわかるアルゴリズム「選択ソート」

必要なものを教えていただければ、当社のAIがコードを作成します

ディープラーニングの悪循環は驚くべき結果をもたらすだろう

臨床研究における人工知能と機械学習の活用の機会をいかに捉えるか

推薦する

0.5秒、GPU不要、安定性AIと中国チームVASTオープンソース単一画像生成3DモデルTripoSR

2021 年の人工知能データ収集および注釈業界の 4 つの主要トレンド予測

Microsoft は「プロンプトエンジニアリング」のみを使用して GPT-4 を医療の専門家にします。高度に調整された数々のモデルを上回り、専門的なテスト精度が初めて90％を超える

人工知能は新しいシナリオに応用されています: スマートな観光地の知能はどこにありますか?

「アルゴリズムの構成」は「ブラックボックス」を明らかにする：アルゴリズムは数学に関するものだが、人間に関するものである

すぐに理解できます: 電流制限におけるリーキーバケットとトークンバケットアルゴリズム

ちょうど今、ビートルズはAIがプロデュースした「最後の」新曲をリリースした。

家庭では人工知能がどのように活用されているのでしょうか?

機械学習研究動向の分析: TensorFlow が Caffe を上回り、最も一般的に使用される研究フレームワークに

アルゴリズムについていつも心配しているなら、脳を鍛えるのに役立つ12のアルゴリズム設計プロジェクトを紹介します