機械学習の新たな嵐: ML モデルを使用して住宅価格を予測する方法とは?

機械学習の新たな嵐: ML モデルを使用して住宅価格を予測する方法とは?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。

車の運転から音声認識や翻訳まで、機械学習はソフトウェアを使用して常に変化する現実世界を予測することで、人工知能の分野に旋風を巻き起こしています。

[[352721]]

では、機械学習とは何でしょうか?

機械学習とは、フィードバックされた古いデータを使用して予測を行うようにコンピュータ システムを教育するプロセスであり、基本的には過去のデータに基づいて将来のデータを予測するようにコンピュータをトレーニングします。これらの予測は、写真に写っている動物が猫か犬かを識別するといった単純なものから、音声を正確に認識して Web サイトのキャプションを生成したり、ビデオや音楽を再生したりするといった複雑なものまであります。

機械学習の種類

機械学習は、大きく分けて教師あり学習と教師なし学習の 2 つのカテゴリに分けられます。

教師あり学習は、例を使って機械に教える方法です。これらのマシンは大量のデータでトレーニングされ、パターンを認識することを学習し、トレーニング データに基づいてデータを識別および区別できるようになります。

一方、教師なし学習では、データ ポイントが分類もラベル付けもされていないデータ セット内のパターンを識別するためにアルゴリズムを使用します。アルゴリズムは、データ セットから有用な情報や特徴を抽出し、その基礎となる構造を分析して、それに応じてデータを分類します。

教師あり学習を使用して機械学習モデルを構築する方法を見てみましょう。

ステップ1: データを理解する

あらゆる機械学習プロジェクトの最初のステップは、データに精通することです。これには Pandas ライブラリを使用できます。 Pandas は、データ サイエンティストがデータを探索および操作するための主要なツールです。

Pandas ライブラリで最も重要なものは DataFrame です。 DataFrame は、SQL データベースのテーブルと同様に、データを格納するテーブルに相当します。 Pandas には、DataFrame 内のデータを操作するための強力なメソッドがあります。たとえば、カリフォルニア州の住宅価格データを例に挙げてみましょう。 (ファイル パス: ../input/california-housing-prices/housing.csv) 次のコマンドを使用して、データを読み込んで調査します。

ステップ2: モデリングデータを選択する

DataFrame のデータを調べてみると、10 列あり、そのうち 9 列は数値データで、「Ocean proximity」列には文字列型データがあることがわかります。数値データのみを使用して任意のモデルを構築できるため、「海洋近接性」列を削除するだけで済みます。

次に、次のように空の値を持つ列を削除します。

ステップ3: 予測対象(Y)と特徴(X)を選択する

次のステップは、予測ターゲット(Y)である「median_house_value」列を選択することです。したがって、Y を「median_house_value」に割り当てます。残りの機能はXです。データセットから「median_house_value」列を削除し、残りを次のように X として割り当てます。

ステップ4: モデルを構築する

このモデルは scikit-learn ライブラリを使用して作成されました。ライブラリはコード内で sklearn 形式で記述されています。 DataFrames に保存されたデータ型を使用してモデリングする場合、最も人気のあるライブラリは Scikit-learn です。モデルを構築して使用するための手順は次のとおりです。

  • 定義: モデルの種類は何ですか? 線形回帰ですか、それとも他のものですか?
  • フィッティング: 既存のデータからパターンを抽出します (モデリングの中核)。
  • 予測: 予測対象
  • 評価: モデルの予測の精度を判断します。

ここで、scikit-learn(sklearn)を使用して線形回帰モデルを定義し、それを特徴量とターゲット変数に適合させて、「median_house_value」の予測値を取得します。 scikit-learn (sklearn) を使用するには、次のライブラリをインポートします。

線形回帰モデルの変数を作成します。また、train_test_split 関数を使用して、データをトレーニング データとテスト データに分割します。ここでは、データの 25% をテストに使用し、残りの 75% をモデルのトレーニングに使用しました。

ステップ5: モデルを適合させる

トレーニング データに線形回帰モデルを適合します。

完了すると、予測関数は X のテスト値を使用して住宅価格を予測します。次に、スコアリング関数を使用して、次のようにモデルを通じて予測値の精度を取得します。

モデルの予測精度は約66%であることがわかります。

ステップ6: 描画

ここで、X テスト値と予測値 (出力) を次のようにプロットします。

これで、予測に使用できる適合モデルができました。実際に使用すると、今後売りに出されそうな新築住宅について予測することができます。

この例では、線形回帰モデルをデータセットに適合させ、それを使用して住宅価格を予測する方法について説明します。同じデータを決定木またはサポートベクターマシンに適合させて、どちらのモデルの予測がより優れているかを比較することもできます。

この記事が、初めての機械学習線形回帰モデルを構築しようとしている皆さんのお役に立てば幸いです。

<<:  自動運転:距離推定にステレオビジョンをどのように活用するのか?

>>:  AIの終末: 人間は本当の自己認識を持っていない

推薦する

企業に利益をもたらす 5 つの AI トレンド

市場の状況がますます複雑化する今日の不安定なビジネス環境では、組織が分析に基づく意思決定を行うために...

...

Python の基本 + モンテカルロ アルゴリズム (ソース コード付き) を使用して、順列と組み合わせに関する質問を共有します。

[[433465]]みなさんこんにちは。私は Python の専門家です。この記事のタイトルを考え...

危険が迫っています!マスク氏、AIが5年以内に人間を超える可能性があると警告

[[335742]]メディアの報道によると、7月30日、マスク氏はニューヨークタイムズ紙との独占イン...

人工知能の技術的・経済的特徴とその「活性化効果」

人工知能(AI)とは、人間の知能をシミュレート、拡張、拡大するための理論、方法、技術、アプリケーショ...

現在最も興味深い AI は、実は系図会社から生まれたものなのでしょうか?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

スペルミスを心配する必要はありません。Microsoft Edge ブラウザに新しいウェブ「スマート検索」AI 機能が追加されます。

8月23日、Microsoft Edgeブラウザは、ユーザーがウェブ上で関連コンテンツを簡単に検索...

これらは、データ構造とアルゴリズムにおける動的プログラミングのコツです。

[[442276]]動的計画法理論の基礎動的プログラミングとは何か動的プログラミング (英語: D...

...

あなたのビジネスに最適なRPAコンサルタントを見つける方法

RPA 導入を成功させるために、この記事では、ビジネスに最適な RPA コンサルタントを選択するプロ...

マテリアル界のImageNet、大規模6次元マテリアル実写データベースOpenSVBRDFを公開

計算グラフィックス分野では、マテリアルの外観は、実際のオブジェクトと光の間の複雑な物理的相互作用を表...

人力資源社会保障省:人工知能人材の不足は500万人を超える

最近、人力資源・社会保障省は、新しい職業である人工知能工学・技術人材の現在の雇用状況に関する分析レポ...

人工知能とクラウドコンピューティングの組み合わせは、企業ビジネスの飛躍的成長をどのように促進するのでしょうか?

Statistaの最近のレポートによると、「AI市場の世界的価値は2025年までに年間890億ドル...

AIが初めて新型コロナウイルスの警告を発するのか?人工知能はあなたが思っている以上に信頼できるものです!

2019年12月30日に武漢で新型肺炎が発生してから1か月以上が経ちました。マスクの値上げや品切れ...