無料の Python 機械学習コース 1: 線形回帰アルゴリズム

最も基本的な機械学習アルゴリズムは、単一の変数を持つ線形回帰アルゴリズムです。現在、非常に多くの高度な機械学習アルゴリズム、ライブラリ、およびテクニックが利用可能であるため、線形回帰は重要ではないと思われるかもしれません。ただし、基本を学ぶことは常に良い考えです。こうすることで、概念を非常に明確に理解できるようになります。この記事では、線形回帰アルゴリズムを段階的に説明します。

[[358749]]

アイデアと公式

線形回帰では、予測の非常に基本的な考え方が使用されます。式は次のとおりです。

Y = C + BX

私たちは皆、学校でこの式を学びました。覚えておいてください、これは直線の方程式です。ここで、Y は従属変数、B は傾き、C は切片です。通常、線形回帰の場合は次のように記述されます。

ここで、「h」は仮説または予測された従属変数、Xは入力特徴、theta0とtheta1は係数です。シータ値は最初からランダムに初期化されます。次に、勾配降下法を使用して、コスト関数を最小化するようにシータ値を更新します。これはコスト関数と勾配降下法の説明です。

コスト関数と勾配降下法

コスト関数は、予測が元の従属変数からどれだけ離れているかを決定します。式は次のとおりです

あらゆる機械学習アルゴリズムの考え方は、仮説が元の従属変数に近くなるようにコスト関数を最小化することです。これを行うには、theta の値を最適化する必要があります。コスト関数の偏微分を theta0 と theta1 に関して別々に取ると、勾配降下法が得られます。シータ値を更新するには、対応するシータ値から勾配降下法を減算する必要があります。

偏微分すると、上記の式は次のようになります。

ここで、m はトレーニングデータの数、alpha は学習率です。 1 変数の線形回帰についてお話します。そのため、シータ値は 2 つしかありません。変数が多数ある場合、各変数にはシータ値が存在します。

動作例

私が使用するデータセットは、Andrew Ng の Coursera 機械学習コースからのものです。ここでは、Python での線形回帰の実装を段階的に示します。

（1）パッケージとデータセットをインポートします。

 numpyをnpとしてインポートする
pandasをpdとしてインポートする
df = pd .read_csv('ex1data1.txt',ヘッダー=なし)
 df.head()

このデータセットでは、列 0 が入力機能であり、列 1 が出力変数または従属変数です。上記の直線式を使用して、列 0 を使用して列 1 を予測します。

（２）列１を列０に揃える。

入力変数と出力変数の関係は線形です。線形回帰は、関係が線形である場合に最も効果的に機能します。

（３）シータ値を初期化する。シータ値をゼロに初期化しています。ただし、他の値でも同様に機能するはずです。

シータ= [0,0]

（４）前述の式に従って仮定とコスト関数を定義する。

 def hypothesis(theta, X):
    theta[0] + theta[1]*Xを返す
 
 def cost_calc(theta, X, y):
    (1/2*m) * np.sum((hypothesis(theta, X) - y)**2) を返します。

（５）トレーニングデータの数をDataFrameの長さとして計算します。次に、勾配降下関数を定義します。この関数では、コスト関数が最小値に達するまでシータ値を更新します。任意の数の反復が必要になる場合があります。各反復で、シータ値を更新し、更新された各シータ値を使用してコストを計算し、コストを追跡します。

 m =長さ(自由度)
定義gradient_descent(theta, X, y, エポック, アルファ):
コスト= []
私= 0  
    私は<  エポック：  
 hx =仮説(theta, X)
        シータ[0] - =アルファ*(合計(hx-y)/m)
        シータ[1] - = (アルファ * np.sum((hx - y) * X))/m
        コスト.append(cost_calc(theta, X, y))
        私 += 1
    リターンシータ、コスト

（６）最後に予測関数を定義する。勾配降下関数から更新されたシータを取得し、仮説または予測された出力変数を予測します。

 def predict(theta, X, y, エポック, アルファ):
    シータ、コスト=勾配降下法(シータ、X、y、エポック、アルファ)
    仮説(theta, X)、コスト、thetaを返す

（７）予測関数を使用して仮説、コスト、更新されたシータ値を求めます。学習率として 0.01 を選択し、このアルゴリズムを 2000 エポックまたは反復で実行しました。

 y_predict、コスト、 theta = predict (theta、df[0]、df[1]、2000、0.01)

最終的なシータ値は -3.79 と 1.18 です。

（８）元のyと仮説または予測されたyを同じグラフ上にプロットします。

 %matplotlib インライン
matplotlib.pyplot を plt としてインポートします。
 plt.figure()
 plt.scatter(df[0], df[1], label = '元のy' )
 plt.scatter(df[0], y_predict,ラベル= '予測されたy' )
 plt.legend( loc = "左上" )
 plt.xlabel("入力機能")
 plt.ylabel("元の出力と予測出力")
 plt.show()

グラフが式から予想されるように直線であり、その線が最適な位置を通過していると仮定します。

（９）各反復でコスト関数を追跡することを覚えておいてください。コスト関数をプロットしてみましょう。

 plt.figure()
 plt.scatter(範囲(0, len(コスト)), コスト)
 plt.show()

前述したように、私たちの目標は、コストを最小限に抑えるためにシータの値を最適化することです。グラフからわかるように、コストは最初は急激に低下し、その後安定します。これは、シータ値が期待どおりに正しく最適化されたことを意味します。

これがお役に立てば幸いです。この記事で使用したデータセットへのリンクは次のとおりです。

https://github.com/rashida048/Machine-Learning-With-Python/blob/master/ex1data1.txt を参照してください。

<<: PyTorch を使用した文字ベースの再帰型ニューラルネットワークの実装

>>: 1日で6つの賞を獲得！ PATEOの自動車インターネットが高工インテリジェント車両ゴールデングローブ賞を受賞

人工知能やモノのインターネットから仮想現実やブロックチェーンまで、将来の技術進歩の大部分はクラウドで起こるだろう。

ブログ

グラフ分野における初のユニバーサルフレームワークが登場しました。 ICLR'24 Spotlightに選ばれ、あらゆるデータセットと分類問題を解決できる

無料の Python 機械学習コース 1: 線形回帰アルゴリズム

人工知能やモノのインターネットから仮想現実やブロックチェーンまで、将来の技術進歩の大部分はクラウドで起こるだろう。

機械学習とAIが飲食業界に与える影響

業界の開発者にとって朗報です! Baidu PaddlePaddle のディープラーニング機能が Inspur AI サーバーに導入

AIが復活！ GPT-3を使用して亡くなった婚約者を複製し、アメリカ人男性は愛する人をデジタル形式で永遠に生きさせました

グラフ分野における初のユニバーサルフレームワークが登場しました。 ICLR'24 Spotlightに選ばれ、あらゆるデータセットと分類問題を解決できる

世界図書デー: スマートテクノロジーがいかにして優れた読書環境を作り出すか

人工知能の7つの応用シナリオ

AI はどのようにして既存の人間の偏見を強化するのでしょうか?

推薦する

AIとクラウドコンピューティングの深い統合は何をもたらすのでしょうか?

パートナーはいますか？ Facebookの従業員が休暇中にロボットを家に持ち帰り、死に関する質問に答える

IDCは、年平均成長率31.4%で、世界のAIソフトウェアの収益は2027年に2,790億ドルに達すると予測している。

脳コンピューターインターフェースと仮想世界: 頭の後ろにチューブを挿入することは、必ずしもマトリックスのようになるわけではない

40の言語を同時に理解する人工知能が異言語コミュニケーションを支援

Microsoft Megvii の顔認識は 100% 動作不能! 写真の「見えないマント」で写真のプライバシーデータを保護

Transformer には新しいバリアント ∞-former があります: 無限の長期メモリ、任意の長さのコンテキスト

AI監視の影響について知っておくべき3つのこと

TensorFlow が素晴らしい機械学習データセット 30 選

スマートカーの時代において、あなたの安全とプライバシーを誰が保証するのでしょうか?

チューリング賞受賞者のヤン・ルカン氏：今後数十年間の AI 研究の最大の課題は「予測世界モデル」

「AI＋コンピューティングパワー」が海外企業に「活力」を与えた

地球全体をシミュレート: Nvidia の Earth-2 スーパーコンピューターが間もなくオンラインになります