AIと自動化を活用して機密データを大規模に識別する方法

AIと自動化を活用して機密データを大規模に識別する方法

AIベースの機密情報検出サービスプロバイダーであるText IQのCEO、Apoorv Agarwal氏は、業界メディアとのインタビューで、非構造化データの潜在的なリスクと、大規模な機密データを識別するためのAIと自動化技術の使用について分析し、詳しく説明しました。

[[426575]]

企業が侵害やランサムウェア攻撃に対処しようとするとき、データ内に隠された機密情報を見落としてしまうことがよくあります。この状況の主な原因は何ですか?

Agarwal: 理想的には、企業は自社が所有するデータ内のどこに機密情報が存在するかを把握する必要があります。一般的に、企業は収集した情報を、たとえそれが実際には役に立たないとしても、長期間保持します。これは、データガバナンスというより広範な問題に帰着すると思います。

ある程度の自動化を実現しなければ、強力なデータ ガバナンスは実現できません。たとえば、企業によって生成されるデータの量は飛躍的に増加しており、データベース内に隠れている未発見の機密情報をすべて人間が評価することに依存し、多くの場合、データを非構造化形式で処理する必要があるため、大規模な作業を行うことは不可能になります。

データ侵害やランサムウェア攻撃の件数は今後も増加し続けるでしょうが、企業は AI テクノロジーを活用して、機密データや個人データを大規模にプロアクティブに特定することでこれに対抗することができます。データが特定されると、悪意のある者の手に渡らないように、編集、削除、暗号化、または保護するために必要な措置を講じることができます。

非構造化データはどのようにリスクをもたらし、それに対して何ができるでしょうか?

Agarwal: 企業データの 80% 以上は構造化されておらず、攻撃対象領域が広いため、サイバー攻撃者の格好の標的となっています。第二に、この非構造化データには、企業秘密、個人情報、健康情報、知的財産など、さまざまな種類の機密情報が含まれています。たとえば、企業秘密を含む構造化データベースを構築できる人はいません。企業秘密は、電子メール、チャット記録、Excel テーブル、その他の非構造化データに散在している可能性が高いからです。

非構造化データがもたらす課題は、データの量が膨大で、その中から機密情報を見つけるのは干し草の山から針を探すようなものであるため、スケーラブルな機械学習テクノロジーが必要になることです。

自動化が唯一の前進方法なのでしょうか、それとも人間的要素にはまだ価値があるのでしょうか?

アガルワル氏:データは明らかに人口よりも速いペースで増加していると思います。十分な人員がなければ、タスクの量と複雑さを処理する能力が不足します。

AI テクノロジーやロボットを使用するということは、単にボタンを押すだけでこれらのタスクを自動的に完了するということではなく、人間の助けが必要であることにも留意することが重要だと思います。そして、この作業は機械や人間だけではできません。

AI が機密情報を識別して保護する仕組みを説明していただけますか?

アガルワル氏: AI は機密情報を保護するわけではありませんが、識別はします。機密情報が特定されると、組織はそれを削除、編集、暗号化、またはアクセス制御を変更することで、それを保護するための措置を講じることができます。

課題は識別そのものにあります。識別に関しては、RegEx や検索用語など、いくつかの時代遅れの方法やテクノロジーが現在使用されています。これらの労働集約的な方法は、時間がかかり、スケーラビリティが低いだけでなく、不正確な結果を生み出す可能性があります。

しかし、9 桁の数字すべてが社会保障番号 (SSN) というわけではありません。一方、AI システムは、情報が出現するコンテキストを調べて、その情報が機密情報であるかどうかをより正確に判断できます。たとえば、電子メール。電子メールの機密情報を分析する際、AI は、電子メール チェーンを誰が書いたか、誰が入手したか、誰がコピーされたかなどの関係ネットワークなどのコンテキストを考慮して、一部の電子メールが機密情報であるかどうかを判断できます。

理論上は、人間はこれらすべてのシナリオを評価して比較検討することができますが、それを実行できるほどの人間の数はいません。さらに、人間は計算タスクは得意ではありませんが、抽象的な思考は得意です。

組織がデータを保護する方法は、その組織のビジネス全体と評判に大きな影響を与える可能性があります。彼らはこのことにどの程度気づいていると思いますか? どのような点を改善すべきだと思いますか?

アガルワル氏:多くの企業は、データ侵害がビジネス全体と評判に与えるコストと影響について十分に認識しています。データ侵害の影響をまったく受けないと考えている企業は存在しません。企業の取締役がこれを理解することが重要です。

ここは改善の余地ありです。長い間、多くの企業はデータ損失防止、検索用語、手動レビューに依存してきました。彼らは本当に方向転換し、人工知能のような新しいテクノロジーを活用する必要があります。

<<:  AI が生活に統合されると、能力が高ければ高いほど、管理が難しくなります。

>>:  毎日のアルゴリズム: バランスのとれた二分木

推薦する

...

ロボットの開発について冷静に考える:ロボットは本当にあなたの仕事を奪うのでしょうか?倫理的価値観の再構築のきっかけとなるか?

2017年世界ロボット会議の開催を機に、ロボットに関する話題が一気に盛り上がってきました。では、ロ...

AIGC に向けてビジネスを準備するために CIO が尋ねるべき 8 つの質問

企業は現在、AIGC の可能性を活かすためにデータ、人材、プロセスを準備することが今後の課題であると...

...

...

アルゴリズム問題演習 - 大規模ブラックリスト IP マッチング

多くの IT 企業では、アルゴリズムは面接で非常に重要な部分を占めていますが、実際の仕事でアルゴリズ...

XiaoIce がクローンを正式にリリース: すでに年間 100 万元を稼いだ人もいます!

AIの助けを借りれば、月に10万元、年に100万元稼ぐことができます。想像できますか?信じないでく...

次世代人工知能の開発方向(第2部)

[[349523]]人工知能は半世紀以上前から存在していますが、人工知能の分野は過去 10 年間で...

...

...

機械学習の7つの大罪

機械学習実験の信頼性を損なう7つのよくある間違い[[328516]]機械学習は私たちの世界を変える素...

...

止まらないAIブームに一部の企業は慌てている

AMD は、世界中の IT リーダーを対象にした新しい調査の結果を発表し、多くのリーダーが最近の人工...

人工知能はディープラーニング技術を使用して先進運転支援システム(ADAS)を強化します

翻訳者 |李睿レビュー | Chonglou人工知能と機械学習は、ディープラーニング技術の力を活用し...

...