機械学習における線形代数の理解に役立つ 10 の例

機械学習における線形代数の理解に役立つ 10 の例

線形代数は、ベクトル、行列、線形変換を扱う数学の分野です。

これは機械学習の重要な基盤であり、アルゴリズムの動作を記述する記号からコード内でのアルゴリズムの実装まですべてがこの分野の研究範囲に含まれます。

線形代数は機械学習の分野に不可欠な要素ですが、両者の密接な関係は説明されないことが多く、ベクトル空間や特定の行列演算などの抽象的な概念を使用することでしか説明できません。

この記事を読むと、次のことが分かります。

  • 表形式のデータセットや画像などのデータ構造を操作するときに線形代数を使用する方法。
  • ワンホットエンコーディングや次元削減など、データ準備で使用される線形代数の概念。
  • 深層学習、自然言語処理、推奨システムなどのサブフィールドにおける線形代数表記法と手法の詳細な使用。

始めましょう。

機械学習の 10 の例は次のとおりです。

  • データセットとデータファイル
  • 画像と写真
  • ワンホットエンコーディング
  • 線形回帰
  • 正規化
  • 主成分分析
  • 特異値分解
  • 潜在的意味解析
  • レコメンデーションシステム
  • ディープラーニング

1. データセットとデータファイル

機械学習では、データセットにモデルを適合させます。

これは表形式の数値のセットであり、各行は観測のセットを表し、各列は観測の特徴を表します。

たとえば、次のデータはアイリス データ セットの一部です。

データセットのアドレス: http://archive.ics.uci.edu/ml/datasets/Iris

  1. 5.1,3.5,1.4,0.2,アイリス・セトサ
  2. 4.9,3.0,1.4,0.2,アイリス・セトサ
  3. 4.7,3.2,1.3,0.2,アヤメ
  4. 4.6,3.1,1.5,0.2,アイリス・セトサ
  5. 5.0,3.6,1.4,0.2,アイリスセトサ

このデータは実際には行列であり、線形代数における重要なデータ構造です。

次に、データは入力データと出力データに分割され、教師あり機械学習モデル(測定値や花の品種など)に適合され、行列(X)とベクトル(y)が生成されます。ベクトルは線形代数におけるもう一つの重要なデータ構造です。

各行の長さは同じ、つまり各行のデータ数は同じなので、データはベクトル化されていると言えます。これらの行は、一度にすべてまたはバッチでモデルに入力することができ、固定幅の行を想定するようにモデルを事前構成できます。

2. 画像と写真

おそらく、コンピューター ビジョン アプリケーションで画像や写真を処理することに慣れているでしょう。

使用する各画像自体は、固定の幅と高さのテーブル構造であり、各セルには白黒画像の場合は 1 ピクセル値、カラー画像の場合は 3 ピクセル値が設定されます。

写真も線形代数行列の一種です。

切り抜き、拡大縮小、せん断などの画像関連の操作は、線形代数の記号と操作を使用して記述されます。

3. ワンホットエンコーディング

機械学習ではカテゴリデータが使用されることがあります。

これは、分類問題のクラス ラベルまたはカテゴリ入力変数である可能性があります。

カテゴリ変数をエンコードして、特定のテクニックで操作したり学習したりしやすくするのは一般的です。ワンホットエンコーディングは、カテゴリ変数の一般的なエンコーディングです。

ワンホットエンコーディングは、データセット内の各カテゴリを表す列と各例を表す行を持つテーブルを作成することとして理解できます。列内の特定の行のカテゴリ値にチェックまたは「1」の値を追加し、他のすべての列に「0」の値を追加します。

たとえば、3 行の color 変数:

  1. ...

これらの変数は次のようにコード化できます。

  1. 赤、緑、青
  2. 1、0、0
  3. 0、1、0
  4. 0、0、1
  5. ...

各行はバイナリ ベクトルとしてエンコードされ、ベクトルには「0」または「1」のいずれかの値が割り当てられたものになります。これは、線形代数のサブフィールド全体であるスパース表現の例です。

4. 線形回帰

線形回帰は、変数間の関係を記述するために使用される従来の統計手法です。

この方法は、機械学習において、より単純な回帰問題の数値を予測するためによく使用されます。

線形回帰の問題を記述して解決する方法は多数あります。線形回帰の問題は、各入力変数を乗じて合計すると、出力変数の最適な予測が得られる係数のセットを見つけることです。

機械学習ツールまたは機械学習ライブラリを使用したことがある場合、線形回帰問題を解決する最も一般的な方法は、線形回帰の行列分解法 (LU 分解や特異値分解など) を使用して解決される最小二乗最適化です。

線形回帰方程式を要約する一般的な方法でも、線形代数表記法が使用されます。

  1. y = A . b

ここで、y は出力変数、A はデータセット、b はモデル係数です。

5. 正規化

機械学習を適用する場合、問題を解決するために最善のスキルを引き出す、最もシンプルで実行可能なモデルを求めることがよくあります。

多くの場合、より単純なモデルの方が、特定の例から未知のデータまで一般化するのに優れています。

回帰法や人工ニューラル ネットワークなど、係数を伴う多くの方法では、より単純なモデルでは一般に係数の値が小さくなります。

モデルをデータに適合させるときに係数の値を最小化するためによく使用される手法は、正則化と呼ばれます。一般的な実装には、L2 形式と L1 形式の正則化があります。

これら 2 つの形式の正規化は、実際には係数ベクトルの大きさまたは長さの尺度であり、ベクトルノルムと呼ばれる線形代数法から直接導出されます。

6. 主成分分析

通常、データセットには多数の列があり、その数は数十、数百、数千、またはそれ以上になる場合があります。

多くの機能を持つデータをモデリングするのは困難です。さらに、無関係な特徴を含むデータから構築されたモデルは、最も関連性の高いデータでトレーニングされたモデルよりも劣ることがよくあります。

データのどの特徴が関連していて、どの特徴が関連していないかを知ることは困難です。

データセット内の列の数を自動的に減らすことは次元削減と呼ばれ、おそらく最も一般的な方法は主成分分析 (略して PCA) です。

この方法は、機械学習で、視覚化とモデリングのために高次元データの投影を作成するために使用されます。

PCA 法の中核は線形代数の行列分解法であり、固有値分解を使用することがありますが、より一般的な実装では特異値分解 (SVD) を使用できます。

7. 特異値分解

もう一つの一般的な次元削減法は、特異値分解法 (略して SVD) です。

上で述べたように、この方法の名前が示すように、これは線形代数の分野からの行列分解法です。

この方法は線形代数において幅広い用途があり、特徴選択、視覚化、ノイズ低減などに直接適用できます。

機械学習で SVD が使用されるシナリオは 2 つあります。

8. 潜在意味解析

自然言語処理として知られる、テキストデータを処理する機械学習のサブフィールドでは、文書は多くの場合、単語の出現の大きなマトリックスとして表現されます。

たとえば、マトリックスの列は語彙内の既知の単語、行は文、段落、ページ、またはテキストのドキュメントであり、マトリックス内のセルには単語の出現回数、つまり頻度のラベルが付けられます。

これはテキストのスパース行列表現です。この疎行列には、特異値分解などの行列分解法を適用することができ、行列表現の最も関連性の高い部分を抽出できます。この方法で処理されたドキュメントは、比較やクエリが容易になり、教師あり機械学習モデルの基礎として機能します。

この形式のデータ準備は、潜在的意味解析 (略して LSA) と呼ばれ、潜在的意味索引 (LSI) とも呼ばれます。

9. 推薦システム

製品の推奨を含む予測モデリングの問題は、機械学習のサブフィールドである推奨システムと呼ばれます。

たとえば、Amazon でのあなたの購入履歴やあなたに似た顧客の購入履歴に基づいて本をおすすめしたり、Netflix でのあなたの視聴履歴やあなたに似たユーザーの視聴履歴に基づいて映画やテレビ番組をおすすめしたりします。

レコメンデーション システムの開発には、主に線形代数の手法が使用されます。簡単な例としては、ユークリッド距離やドット積などの距離メトリックを使用して、疎な顧客行動ベクトル間の類似性を計算することが挙げられます。

特異値分解などの行列分解法は、クエリ、検索、比較のためにアイテムとユーザー データの有用な部分を抽出するために、レコメンデーション システムで広く使用されています。

10. ディープラーニング

人工ニューラル ネットワークは、脳内の情報処理の要素にヒントを得た非線形機械学習アルゴリズムであり、その有効性はさまざまな問題、特に予測モデリングで実証されています。

ディープラーニングは、新しい手法とより高速なハードウェアを使用した人工ニューラル ネットワークの最近の復活であり、非常に大規模なデータセット上で、より大規模でより深い (より多くのレイヤー) ネットワークを開発およびトレーニングすることを可能にします。ディープラーニング手法は、機械翻訳、写真キャプション作成、音声認識など、さまざまな難しい分野で常に最先端の結果を達成しています。

ニューラル ネットワークの実行には、線形代数データ構造の乗算と加算が含まれます。ディープラーニング手法は、複数の次元に拡張され、ベクトル、行列、さらには入力と係数のテンソルを処理できます。テンソルは、2 次元を超える行列です。

線形代数は、名前に「テンソル」という単語が含まれる Google の TensorFlow Python ライブラリなどの行列表現を通じて実装されるディープラーニング手法を記述する上で中心的な役割を果たします。

オリジナルリンク: https://machinelearningmastery.com/examples-of-linear-algebra-in-machine-learning/

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  救急室のAIにはもう少し人間的なケアが必要

>>:  2018年、ブロックチェーンは監査人の仕事を破壊するでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

再帰アルゴリズムと最適化アルゴリズムの比較

以前、「【インタビュー】 - 低速反応再帰」で 3 つの再帰アルゴリズムを読みました。フィボナッチ数...

2022 年に AI はサイバーセキュリティ分野に何をもたらすでしょうか?

[[439421]] [51CTO.com クイック翻訳]近年、人工知能(AI)は私たちの日常生活...

今日のアルゴリズム: 文字列内の単語を反転する

[[423004]]文字列が与えられたら、文字列内の各単語を 1 つずつ逆にします。例1:入力: 「...

AIカメラとLiDARがスマート道路にとって重要な理由

今年 1 月の Consumer Electronics Show は、今後数年間に自動車市場に参入...

2021年には、人工知能が私たちの生活にさらに統合されるでしょう。これは何を意味するのでしょうか?

人工知能の歴史は、アラン・チューリングがチューリングテストを発明した 1950 年代にまで遡ります。...

ロボットの黄金時代が来るのか?協働ロボットが主流になりつつある

海外メディアの報道によると、2018年のホリデーショッピングシーズンは、オンライン売上高が1,260...

看護師の負担を軽減し、病院の効率化を実現します!医療物流ロボットが「新たな人気」に

[[399194]]ロボット産業は、我が国のインテリジェント製造業の発展における重要なリンクであり、...

K平均法アルゴリズム Java実装 クラスタ分析 681 三国志の将軍

1. k-meansアルゴリズムの紹介: k-means アルゴリズムは入力量 k を受け取り、n ...

連合転移学習の最新の進歩: 計算と転送はモデルのパフォーマンスをどのように「制限」するのでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

新型コロナウイルスが猛威を振るう中、AI技術は流れを変えることができるのか?

最近、謎の新型コロナウイルスが驚くべき速さで猛威を振るっています。先週木曜日、世界保健機関(WHO)...

...

PaLMを超えて!北京大学のマスターがDiVeRSeを提案し、NLP推論ランキングを一新した。

1,750億のパラメータを持つGPT-3や5,400億のパラメータを持つPaLMなど、大規模言語モ...

Photoshop 2020が登場、人工知能でデザインが簡単に

Photoshop Elements 2020エディション数日前、Adobe は最新バージョンの ...

...