機械学習を使用して暗号プロジェクトのリスクを特定するにはどうすればよいでしょうか?

機械学習を使用して暗号プロジェクトのリスクを特定するにはどうすればよいでしょうか?

暗号通貨と規制の必要性

暗号通貨は、デジタル世界に存在する交換手段(別の支払い形式)であり、取引を安全に行うために暗号化技術に依存しています。暗号通貨の背後にあるテクノロジーにより、ユーザーは銀行などの第三者を介さずに他の人に直接送金できるようになります。こうした取引を行うには、ユーザーはデジタルウォレットを設定する必要がありますが、ID番号やクレジットスコアなどの個人情報を提供する必要がないため、擬似的に匿名になります。

通常の暗号通貨ユーザーにとって、この匿名性は、個人情報や取引データがハッカーに盗まれることはないという安心感をもたらします。しかし、取引の匿名性が高まると、犯罪者が簡単に悪用して、マネーロンダリングやテロ資金供与などの違法行為を実行する可能性もあります。この違法行為は、ブロックチェーンウォレットのユーザーと暗号通貨事業者の両方に多大な損失をもたらしました。金融活動作業部会(FATF)などの規制機関は、これらの事業体の規制において標準化されたガイドラインを導入していますが、日々多数の暗号通貨事業体と取引が行われているため、暗号通貨分野の監視は困難な作業となっています。

解決

[[377572]]

そのため、ニュース Web サイトやソーシャル メディア プラットフォームなどのオープン ソース情報を活用して、潜在的なセキュリティ侵害や違法行為を特定することに関心が集まっています。私たち(シンガポール国立大学の学生チーム)は、Lynx Analytics と共同で、オープンソース情報を収集し、各ニュース記事のリスク スコアを予測し、リスクのある記事にフラグを立てる自動ツールの開発に取り組んできました。このツールは、さまざまな情報ソースを使用して規制当局がブロックチェーンの活動を監視できるようにするために Lynx Analytics が開発したツールである Cylynx プラットフォーム (https://www.cylynx.io/) に統合されます。

オープンソース情報のデータ取得

私たちは、暗号通貨分野における不審な活動を検出するのに役立つ貴重な情報を提供できるオープンソース データの 3 つのカテゴリを特定しました。これらのカテゴリは次のとおりです。

  1. Google ニュースなどの従来のニュース サイトでは、大規模なハッキングが報道されるでしょう。
  2. Cryptonews や Cointelegraph などの暗号通貨に特化したニュース サイトでは、小規模な組織や軽微なセキュリティ インシデントに関するニュースを報道する可能性が高くなります。
  3. TwitterやRedditなどのソーシャルメディアサイトは、ハッキングの公式ニュースが発表される前に暗号通貨の所有者がハッキングに関するニュースを投稿できる場所です。

記事やソーシャル メディアの投稿のコンテンツを取得し、感情分析モデルを構築します。モデルは、記事に記載されているエンティティに危険な活動の確率を割り当てます。

感情分析モデル

感情分析には、VADER、Word2Vec、fastText、BERT モデルという 4 つの異なる自然言語処理ツールを試しました。選択された主要なメトリック (再現率、精度、F1) を使用してこれらのモデルを評価した結果、RoBERTa モデル (BERT のバリアント) が最も優れたパフォーマンスを発揮し、最終モデルとして選択されました。

RoBERTa モデルは、ニュース記事 (見出しと抜粋) またはソーシャル メディアの投稿のテキストを処理し、特定のテキストにリスク スコアを割り当てます。このテキストはデータ収集プロセス中にすでにエンティティとしてラベル付けされているため、暗号化されたエンティティに関連するリスク指標が得られます。後の段階で、複数のテキストのリスク スコアを組み合わせて、エンティティの全体的なリスク スコアを算出します。

RoBERTa は、もともとニューラル ネットワーク構造を使用して構築された感情分析モデルでした。最後のレイヤーを注釈付きリスク スコアにマッピングして、リスク スコアリング環境に適応させました。将来のテキスト データに対するモデルの一般化可能性を向上させるために、エンティティの置換、URL の削除、ハッシュの置換など、いくつかのテキスト処理方法を実行しました。次に、この最高のパフォーマンスを発揮するモデルをリスク スコアリングに使用しました。

リスクスコアリング

現在、各記事には、関連付けられたソース (ニュース/reddit/twitter)、リスク確率、記事がリツイート、共有、または再投稿された回数が記録されています。これらのリスク確率を暗号通貨エンティティの単一のリスクスコアに変換するために、まず記事の確率値を 0 ~ 100 の範囲にスケーリングし、リスクスコアと記事の数を組み合わせて、各ソースの加重平均を取得しました。加重平均は、共有数が記事の関連性や重要性を示すものである可能性が高いため、共有数が多い記事に大きな重みを与えるために使用されます。

各ソースのリスク スコアを計算した後、各ソースのリスク スコアの加重合計を実行して総合スコアを取得します。計算式は次のとおりです。

従来のニュースソースは、大規模なセキュリティ侵害(単一ユーザーのハッキング事件と比較して)について報道する可能性が高いため、より高い重み付けが与えられます。

ソリューションの有効性

私たちは、2020 年 1 月 1 日から 2020 年 10 月 30 日まで、174 の暗号通貨エンティティのリストに対してソリューションをテストし、その結果をこの期間中の既知のハッキング事例と比較しました。私たちのリスク スコアリング アプローチは、既知のハッキング事例 37 件のうち 32 件を特定し、かなり良好なパフォーマンスを示したことがわかりました。また、単一のエンティティに対するソリューションの有効性も分析します。下のグラフは、2020年1月1日から2020年10月30日までのBinanceのリスクスコアを示しています。赤い破線は既知のハッキング事例を表しています。図から、当社のソリューションでは、既知のハッカー 5 人のうち 4 人のリスク スコアが増加したと報告されていることがわかります。既知のハッキング事件と一致しない急増もいくつかあります。しかし、私たちのモデルでは、できるだけ多くのハッカーを識別し、未確認のハッカーの数を減らすことの方が重要なので、これは大きな問題にはなりません。

興味深い発見

リスク スコアリング プロセス中に、大規模なエンティティのリスク スコアでは、小規模なエンティティと比較して、誤検知レコードの割合が高くなる傾向があることに気付きました。これは、大規模な組織は話題になりやすく、そのため否定的な投稿や誤った噂が多くなり、不正確さの割合が高くなるためです。

注目に値するもう 1 つの興味深い傾向は、ハッキング攻撃には通常、いくつかの明確なピークがあるということです。これは、データ ソースごとに応答時間が異なるためです。ソーシャル メディア サイトの Twitter や Reddit は、高リスク イベントが発生すると、ユーザーが観察した異常 (ユーザーに事前に通知せずに組織の Web サイトがダウンするなど) について投稿するため、最初に急増することがよくあります。公式ニュースは通常、公式発表の後に発表されます。

制限

私たちのソリューションには 2 つの潜在的な制限があることがわかりました。1 つ目は、コレクターを継続的にメンテナンスする必要があることです。ウェブサイトのデザインは時間の経過とともに変更される可能性があり、リスク スコアリングの目的で関連情報を引き続き取得できるように、これらのウェブサイトのスクレーパーを更新する必要があります。

2 番目の制限は、記事が暗号通貨エンティティとして正しくラベル付けされているかどうかを確認するのが難しいことです。たとえば、Bancor での不審な活動を報じる記事では、無関係な事件について Binance についても言及されている可能性があります。私たちの解決策では、ニュースを誤って 2 つのエンティティとしてラベル付けし、テキスト内の主要なトピックではないにもかかわらず、Binance をリスクとしてフラグ付けします。ただし、リスク スコアリングにはニュース記事のタイトルと抜粋のみを使用し、通常は記事の主要な情報のみが含まれているため、これは大きな制限ではありません。

結論

私たちのプロジェクトにより、規制当局はオープンソース情報を簡単にマイニングし、暗号通貨分野で発生するリスクイベントをより適切に特定できるようになります。記事を分析してリスクスコアを予測する言語モデルと、エンティティとソース情報に基づいてこれらのスコアを集計する方法を紹介します。これらのメソッドは、エンドツーエンドで実行できる自動化されたパイプラインに組み込まれます。このプロジェクトを Cylynx プラットフォームに統合することで、既存の機能が補完され、規制当局がリスクの高い暗号通貨エンティティを特定する際に大きな支援が提供されます。

<<:  2021年以降の人工知能トレンドに関する5つの予測

>>:  清華大学人工知能開発報告:中国は過去10年間のAI特許出願で世界第1位

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

2020 年の優れた産業用人工知能アプリケーション

人工知能技術は今、世界を変えつつあります。多くの業界はすでに、ビジネス プロセスを改善するために A...

...

ビッグデータと機械学習を駆使して12星座の素顔を明らかにする!

[[201919]] 「なぜ論文が出版されないのでしょうか?私は研究に向いていないのでしょうか?」...

携帯電話の顔認識は本当に安全ですか?

​​​ [51CTO.com クイック翻訳]顔認識は、セキュリティメカニズムとして、ますます多くの携...

アルゴリズム | ダブルポインタはリンクリストを破る優れた魔法の武器です

今は少し理解できました。面接の過程で、面接官が私たちにコードを手書きで書くように頼むことがあります。...

今後10年間でAIはどのように発展するでしょうか? iFLYTEKの劉清鋒氏はこう語った。

[[379731]] iFLYTEKは、流行病によって大きな影響を受けているにもかかわらず、人工知...

機械学習入門メソッドの最も価値のあるコレクションを今日あなたと共有します

元のタイトル: 機械学習を始める方法!動画紹介: https://v.qq.com/iframe/p...

口の中に124個のセンサーを埋め込み、Google Glassの創設者の新プロジェクト:舌でメッセージを送信

不運なGoogle Glassはスマートデバイスの波の中で大きなインパクトを与えることはできなかった...

...

ロボット導入の「秘密」:継続的な学習、知識の伝達、自律的な参加

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

1760億のパラメータを持つBLOOMZの推論、パフォーマンスレイテンシはわずか3.7秒

大規模言語モデル (LLM) のサイズが大きくなるにつれて、これらのモデルを本番環境で推論に導入して...

GPTストアはオンラインになるとすぐに混乱に陥り、偽造品、偽のトラフィック、禁止されたコンテンツが次々と出現します

新しくオープンしたGPTストアが「混沌」していることで有名になるとは思ってもいませんでした。見てくだ...

...

機械学習に必要な確率論の基礎

この記事を読んでいただければ、確率の基本原理を機械学習に応用できる可能性が 100% あります。機械...