サイバーセキュリティの専門家が知っておくべきAI用語

人工知能の急速な発展により、私たちは第四次産業革命の真っ只中にいます。このデジタル時代において、サイバーセキュリティはあらゆる業界で重要な問題となっています。サイバーセキュリティの専門家として、従来のセキュリティ分野の知識に精通しているだけでなく、絶えず変化するサイバー戦場で情報資産を保護するために、人工知能を深く理解し、応用する必要もあります。人工知能は、ネットワークセキュリティに革新的なソリューションを提供するだけでなく、潜在的な攻撃の標的にもなります。防御側は、ますます高度化する脅威を検出し、対応するために、機械学習やディープラーニングなどの高度な AI 技術を活用する必要があります。同時に、AI自体のセキュリティを確保し、モデルへの攻撃や悪用を防ぐことも特に重要です。ここに専門用語をいくつか挙げます。

1. 人工知能（AI）

簡単に言えば、人工知能は人間の知能をシミュレート、拡張、拡大するための理論、方法、技術、アプリケーションシステムを研究および開発する新しい技術科学です。人工知能は、まず「人工的」であり、次に「知的」です。人工知能業界には、「どれだけの知能があるか、どれだけの人間の努力がその背後にあるか」という格言があります。人工知能は新たな産業革命です。人工知能をマスターする者は未来をマスターするでしょう。

2. 人工知能の5つのコア技術

主にコンピュータービジョン、機械学習、自然言語処理、ロボット工学、音声認識が含まれます。

3. 人工知能の3つの段階

一般的に、人工知能は計算知能、知覚知能、認知知能の 3 つの段階に分けられます。計算知能はデータの計算と統計であり、知覚知能は視覚、触覚、聴覚などの要素の検出と知覚、要素の識別と分類であり、認知知能は取得した情報の理解、推論、意思決定であり、人間の基本的な思考と認知能力を備えています。

4. 人工知能の3大流派

象徴主義学派は、知識と推論を表現するために記号と規則を使用することに重点を置いています。この学派は、知性は記号処理と論理的推論を通じて達成されると信じています。代表的なシステムとしては、推論にルールベースを使用するエキスパートシステムなどがあります。

コネクショニスト学派は、人間の脳の神経ネットワークの動作モードを模倣することを重視します。この学派では、学習にニューラルネットワークと分散表現を使用し、データからのパターンと特徴の抽出を重視します。ディープラーニングはコネクショニスト学派に属し、特にディープニューラルネットワークに基づく手法を指します。

ダーウィンの進化論に触発された進化論派は、知能は進化と遺伝的メカニズムを通じて徐々に発達すると信じています。遺伝的アルゴリズムと進化的アルゴリズムは進化学派の代表的な手法であり、探索空間内の特定のタスクに適したソリューションを見つけるために使用されます。

5. 人工知能の3つの中核要素

アルゴリズム: 人間の思考方法を参考にしたアルゴリズムは、コアの中のコアです。それは、哲学、数学、生物学、心理学、音楽学、神学、形而上学などに基づく思考論理とトップレベルのシステム認識に基づいた知恵の結晶です。

データ: ラベル付きデータとラベルなしデータを含む、トレーニングに使用されるデータ。

計算能力: コンピューターの処理能力。

適切なアルゴリズムがなければ、理論的には問題を解決できません。大量のデータがなければ、モデルをトレーニングできません。高性能なコンピューター (計算能力) がなければ、トレーニング速度は非常に遅くなります。

6. 計算能力に必要なXPU

CPU: 中央処理装置

GPU: グラフィックスプロセッシングユニット、画像プロセッサ

TPU: テンソル処理ユニット、テンソルプロセッサ

DPU: ディープラーニングプロセッシングユニット、ディープラーニングプロセッサ

NPU: ニューラルネットワーク処理ユニット、ニューラルネットワークプロセッサ

BPU: 脳処理ユニット

7. データ注釈

データにラベルを付けたり、マークを付けたり、色付けしたり、強調表示したりすることで、対象データの相違点、類似点、またはカテゴリをマークし、機械学習を有効にすることができます。 AI アルゴリズムはデータトレーニングを通じて継続的に改善する必要があり、データのラベル付けはほとんどの AI アルゴリズムが効果的に動作するための重要なリンクです。

8. 機械学習（ML）

機械学習とは、新しい知識やスキルを習得し、既存の知識構造を再編成してパフォーマンスを継続的に向上させるために、機械を通じて人間の学習行動をシミュレートまたは実装するプロセスです。

9. ディープラーニング（DL）

人間が脳で問題を層ごとに考えるのと同じように、ディープニューラルネットワークを使用して特徴表現の問題を解決する学習プロセス。1 つの知識と複数の知識/結果を組み合わせて層ごとに推論と思考を実行し、最終的に正しい/間違った決定や実行する知識を導き出します。

10. 自然言語処理（NLP）

人間の言語を処理して、文のパターン、文法などの構造化され定義可能な言語データを生成します。

11. 自然言語理解（NLU）

コンピュータは人間の言語を理解し、生成し、人間と同じくらい簡単にコミュニケーションをとることができます。

12. 音声認識（ASR）

人間の音声の語彙内容をコンピューターが読み取り可能な入力に変換します。

13. テキスト読み上げ（TTS）

コンピュータ自体が生成したテキスト情報や外部から入力されたテキスト情報を、理解しやすく流暢な言語出力に変換する技術。

14. コンピュータービジョン（CV）

コンピュータが画像から物体、シーン、活動を認識する能力は、人間が日常生活で行う視覚的なやりとりに似ています。

15. ニューラルネットワーク（CNN）

ニューラルネットワークは、人間の脳の神経系の構造にヒントを得た計算モデルです。これはニューロンと階層構造で構成されており、各ニューロンは他のニューロンに接続され、学習した重みを通じて入力データを処理します。ニューラルネットワークは、教師あり学習、教師なし学習、強化学習を実行でき、機械学習タスクで広く使用されています。ディープニューラルネットワーク (DNN) は、複数の層と複雑な構造を持つニューラルネットワークの一種です。画像認識、音声認識、自然言語処理など、大規模で高次元のデータを処理するのに特に適しています。ニューラルネットワークはさまざまな分野で目覚ましい成果を上げ、人工知能の発展を促進しました。

16. 人工知能、機械学習、ディープラーニングの関係

機械学習は人工知能を実装する方法であり、ディープラーニングは機械学習を実装する方法です。

17. 教師あり学習

教師あり学習は機械学習における分類方法の一つで、サンプルデータと期待される結果との関連性を確立します。既知の結果と既知のサンプルデータの継続的な学習とトレーニングを通じて、特徴抽出方法を継続的に調整および最適化し、サンプルデータの特徴値を抽出して、期待される結果とのマッピング関係を形成します。新しいデータの場合は、サンプルデータの特徴抽出法を使用して、新しいデータの特徴値を抽出し、新しいデータの結果を予測します。

18. 教師なし学習

教師なし学習とは、サンプルデータの結果にラベルを付ける必要がないことを意味します。データ取得コストが低く、手動でデータにラベルを付ける必要がありません。主に、データの固有の構造とデータ自体の固有の特性を分析して発見し、誘導と分類を行います。教師なし学習は、一般的にクラスタリングと次元削減の 2 つのカテゴリに分けられます。

19. 半教師あり学習

半教師あり学習は、教師あり学習と教師なし学習を組み合わせた学習方法です。ラベル付きデータはラベルなしデータのトレーニングを支援するために使用され、ラベルなしデータはラベル付きデータのトレーニングを支援するために使用されます。ラベル付きデータとラベルなしデータは、2 つの方法を通じて異なる次元で学習され、単一の方法の効果が向上します。

20. 転移学習

転移学習は機械学習の手法の 1 つで、事前にトレーニングされたモデルを別のタスクで再利用して、部分的な知識やモデルを他のタスクに適用することを意味します。これは特定の種類のアルゴリズムではなく、問題解決についての考え方です。

21. フェデレーテッドラーニング

フェデレーテッドラーニングは、複数のデータソース間でローカルデータを使用して分散モデルトレーニングを実行し、仮想融合データに基づいてグローバルモデルを構築する分散機械学習技術です。ローカルの個体やサンプルデータの交換を必要とせず、モデルパラメータまたは中間結果のみを交換するため、データプライバシー保護とデータ共有コンピューティングのバランスを実現します。たとえば、携帯電話の入力方法では、さまざまな端末上のユーザーのローカルデータに基づいてモデルをトレーニングします。

22. 強化学習

強化学習は機械学習の手法であり、目標指向の学習と意思決定を理解し自動化するための計算アプローチであり、監督や環境の完全なモデルを必要とせずに、個人が環境と直接対話することで学習することを強調しています。学習プロセスと同様に、自己規律の強い学生は、自分自身の目標と報酬を設定し、ある段階で目標と報酬を達成し、その後、自分自身の目標と報酬の基準を継続的に改善し、この強化学習法を通じて学習効果を継続的に向上させます。

23. トレーニングセット

トレーニングセットは、授業や宿題と同様に、機械学習モデルをトレーニングするために使用されるデータのコレクションです。モデルがパラメータを学習および調整するために使用するサンプルデータが含まれており、各サンプルには対応する入力機能とターゲットラベルがあります。トレーニングセットを繰り返しトレーニングすることで、モデルはデータ内のパターンと関係性を学習し、タスクの要件に適応できるようになります。モデルの一般化能力は、トレーニングセット内のさまざまな状況やパターンをどれだけうまく学習できるかによって決まるため、トレーニングセットの品質と多様性はモデルのパフォーマンスにとって重要です。トレーニングが完了すると、モデルを使用して、新しい未知のデータに対して予測や分類を行うことができます。

24. 検証セット

検証セットは、授業後のクイズと同様に、機械学習モデルのパフォーマンスを評価するために使用されるデータのコレクションです。通常、元のデータとは独立して分離され、モデルのトレーニングプロセスには参加しません。検証セットは、モデルのハイパーパラメータを調整し、未知のデータに対するモデルの一般化能力を評価し、モデルが過剰適合しているか不足しているかを検出するために使用されます。トレーニング中にパフォーマンス評価のために検証セットを定期的に使用することで、モデルをより適切に調整し、未知のデータに対する予測精度を向上させることができます。検証セットはモデルの開発とチューニングのプロセスにおいて重要な役割を果たし、最適なモデルとパラメータ構成を選択するのに役立ちます。

25. テストセット

テストセットは、中間試験や期末試験と同様に、機械学習モデルのパフォーマンスを最終的に評価するために使用される独立したデータセットです。トレーニングセットや検証セットとは異なり、テストセットは、モデルの開発およびチューニングプロセス全体を通じてモデルのトレーニングや調整には使用されません。テストセットの目的は、実際のアプリケーションでは見られなかった新しいデータに直面したときのモデルのパフォーマンスをシミュレートすることです。テストセットで評価することで、モデルの一般化パフォーマンスをより正確に推定し、モデルが実際のシナリオで効果的に予測や分類を行うことができるかどうかを判断できます。テストセットの評価結果は、モデルの信頼性を確認し、実際の使用におけるモデルの予想されるパフォーマンスに自信を与えるのに役立ちます。

26. 過剰適合

オーバーフィッティングとは、機械学習モデルがトレーニングデータでは適切に機能するが、未知のテストデータでは適切に機能しないという現象です。オーバーフィッティングは、モデルが非常に複雑で、データの一般的なパターンを学習するのではなく、トレーニングデータ内のノイズと詳細を記憶する場合に発生します。過剰適合モデルは、トレーニングデータの特定の機能に過度に適合し、他のデータに一般化できないため、新しいデータへの一般化が不十分になります。過剰適合を防ぐために、トレーニングデータの量を増やす、正規化手法を使用する、モデルの複雑さを軽減する、または、トレーニングデータの詳細を単に記憶するのではなく、モデルが全体的なデータ分布にうまく適応するように早期停止などの戦略を採用するなどの方法を使用できます。

27. アンダーフィッティング

アンダーフィッティングとは、機械学習モデルがトレーニングデータから十分な情報を学習できず、トレーニングデータとテストデータの両方でパフォーマンスが低下する状況を指します。これは通常、モデルが単純すぎる場合、または特徴抽出機能が不十分な場合に発生します。適合度の低いモデルでは、データの複雑な構造や関係性を捉えることができず、予測や分類を効果的に行うことができません。アンダーフィッティングを克服するには、モデルの複雑さを増やしたり、機能を追加したり、モデルアーキテクチャを調整したり、より複雑なアルゴリズムを使用したりすることで、モデルがトレーニングデータに適合し、一般化パフォーマンスが向上するようにすることができます。

28. 生成的敵対ネットワーク

生成的敵対ネットワーク (GAN) は、ジェネレーターと識別器で構成されるディープラーニングアーキテクチャです。ジェネレーターはランダムノイズから現実的なデータサンプルを生成する役割を担い、ディスクリミネーターは生成されたサンプルと実際のデータとを区別しようとします。両者は敵対的トレーニングを通じて互いのパフォーマンスを向上させ、ジェネレーターによって生成されたサンプルを実際のデータと区別することがますます困難になります。 GAN は画像生成やスタイル転送などの分野で成功を収めており、リアルな画像やコンテンツを生成できます。ただし、トレーニングプロセスでは、トレーニングの不安定性などの課題に直面する可能性があります。 GAN の革新性は、幅広い応用可能性を秘めた敵対的学習を通じて高品質な生成を実現することにあります。

29. 正確性

精度は分類モデルのパフォーマンスを評価するために使用される指標であり、モデルによって正しく予測されたサンプルの総数に対する割合を示します。正しく予測されたサンプルの数をサンプルの総数で割って計算され、0 ～ 1 の間の値になります。精度が高ければ高いほど、モデルはサンプルをより適切に分類します。ただし、クラスのバランスが崩れている場合、精度は偽陽性と偽陰性を考慮しないため、包括的な評価指標にならない可能性があります。場合によっては、モデルのパフォーマンスをより包括的に評価するために、リコールや F1 スコアなどの他の指標が必要になります。

30. 思い出す

再現率は、分類モデルのパフォーマンスを評価するために使用される指標であり、実際に陽性と予測されたサンプルの数と、実際に陽性と予測されたサンプルの総数の比率を示します。計算方法は、正しく予測された陽性クラスサンプルの数を実際の陽性クラスサンプルの総数で割り、0 から 1 の間の値を取得します。リコールは、モデルが正のクラスサンプルをカバーしている範囲、つまりモデルが識別できる真の正の例の数を測定します。一部のアプリケーションでは、特に医療診断や不正検出など、肯定的な例の欠落が懸念される状況では、再現率が精度よりも重要です。

31.F1値

F1値は適合率と再現率を総合的に考慮した評価指標であり、分類モデルの性能を評価するために使用されます。 F1値はこれら2つの値の調和平均であり、2 * (適合率 * 再現率) / (適合率 + 再現率)として計算されます。 F1 値の範囲は、精度と再現率のバランスに応じて 0 ～ 1 になります。これは、2 つの間のバランスをとるため、クラスの不均衡の問題を解決するのに特に役立ちます。モデルが精度とカバレッジの間でトレードオフを行う必要がある場合、F1 値は包括的な評価指標を提供し、さまざまなカテゴリでのモデルの全体的なパフォーマンスを評価するのにさらに意味があります。

32.AIGC

AIGC とは、人工知能技術を使用してテキスト、画像、音声、ビデオなどのコンテンツを生成する方法を指します。これには、テキスト生成モデル、画像生成モデル (GAN など)、音声合成などのさまざまな生成 AI モデルが含まれます。 AIGC は、クリエイティブコンテンツの生成、芸術作品の創作、自動メディア制作など、幅広い応用可能性を秘めており、さまざまな分野に革新と利便性をもたらします。

<<:

>>: 規制がなければ、AIは金融危機を引き起こす可能性がある