家賃決定問題を用いてK近傍法アルゴリズムを学ぶ

[[405033]]

k 近傍法の考え方は、私の意見では最も純粋で明確な考え方であり、k 近傍法アルゴリズム (KNN) は、この考え方をデータ分野に適用したものにすぎません。

あなたの給料はあなたの周りの人々によって決まります。

あなたのレベルは、あなたに最も近い人々のレベルによって決まります。

あなたが見る世界は、あなたの周りの人々によって決まります。

思考は思考です。エンコードできなければ、データサイエンスの分野に適用することはできません。

質問をし、その方法を適用して問題を解決することで、方法の理解を深めます。

質問: Airbnb プラットフォームの家主の場合、家賃はどのように設定しますか?

分析: 入居者は、主に価格、寝室数、家屋タイプ、場所などを含む Airbnb プラットフォーム上の賃貸情報に基づいて、満足できる家屋を選択します。家賃は市場の動向と密接に関係しています。同じタイプの家でも家賃が高すぎると、入居者は間違いなく借りてくれません。家賃が低すぎると、利益は上がりません。

回答: 私たちの家と似た条件の家をいくつか集めて、最も似ている家を特定し、それらの価格の平均を計算して、私たちの家の家賃として使用します。

これは K 最近傍法 (KNN)、つまり k 最近傍アルゴリズムです。 KNN の中心的な考え方は、ラベル付けされていないサンプルのカテゴリが、その k 個の最近傍による投票によって決定されるというものです。

この記事では、家賃価格設定の問題に基づいてこのアルゴリズムを適用するプロセス全体を整理します。これには次の部分が含まれます。

データの読み込み
データ処理
手書きアルゴリズムコード予測
モデル予測にsklearnを使用する
ハイパーパラメータの最適化
クロス検証
要約する

このデータセットは公開されていることをあらかじめ述べておきます。インターネット上では関連トピックに関する資料が多数見つかります。この記事では、それを完全かつ正確に説明することを目指しています。より詳細な学習資料が見つかったら、大変助かります。

1. データを読み込む

まず、データを読み込んで、データの状況を把握します。ターゲット変数 price、cleaning_fee、security_deposit の形式に問題があることがわかります。他の変数は文字型であるため、処理する必要があります。見やすくするためにデータフレームを転置しました。

2. データ処理

まず価格のみを扱い、アルゴリズムのアイデア自体に焦点を当ててみます。

 # ターゲット変数価格を処理し、数値型に変換します
カンマを削除 = dc_listings[ 'price' ].str.replace ( ' ,' , '' )
 stripped_dollars = stripped_commas.str.replace ( '$' , '' )
 dc_listings[ 'price' ] = stripped_dollars.astype( 'float' ) 
 
 # k近傍法もモデルであり、トレーニングセットとテストセットを分割する必要がある。
サンプル番号 = len(dc_listings)
 # ここでは、データセットがランダムかつ効果的に分割されるように、まずデータをランダムに分割します。
 dc_listings = dc_listings.loc[np.random.permutation(len(sample_num))]
 train_df = dc_listings.iloc[0: int (0.7*sample_num)]
 test_df = dc_listings.iloc[ int (0.7*sample_num):]

3. 手書きアルゴリズムコード予測

k 最近傍アルゴリズムの定義に従って直接コードを記述します。簡潔さと効率性のため、単一の変数に対してのみ予測を行います。

家に住む人数は家賃と高い相関関係にある情報であるはずであり、エリアも同様であるはずです。ここでは前者を採用します。

私たちの目標はアルゴリズムのロジックを理解することです。実際の操作では、通常、単一の変数のみが考慮されるわけではありません。

 # 注意: これは train_df です
def predict_price(new_listing):
    temp_df = train_df.copy()
    temp_df[ '距離' ] = temp_df[ '収容' ].apply(lambda x: np.abs ( x - new_listing))
    temp_df = temp_df.sort_values( '距離' )
    最も近い価格 = temp_df.iloc[0:5][ '価格' ]
    予測価格 = 最近隣価格.mean()
リターン（予測価格） 
 
 # ここはtest_dfです
test_df[ '予測価格' ] = test_df[ '収容可能' ].apply(予測価格)
 # MAE(平均絶対誤差)、MSE(平均二乗誤差)、RMSE(平均二乗誤差)
 test_df[ 'squared_error' ] = (test_df[ 'predicted_price' ] - test_df[ 'price' ])**(2)
 mse = test_df[ 'squared_error' ].mean()
 rmse = mse ** (1/2)

モデルアルゴリズムの構築はトレーニングセットに基づいており、予測評価はテストセットに基づいていることを強調しておく価値があります。厳密に言えば、アプリケーション評価には、クロスタイムサンプルという別の種類のサンプルがあります。

結果から判断すると、変数調整のみを使用して最近傍選択を行う場合でも、予測結果は依然として非常に効果的です。

4. モデル予測にsklearnを使用する

今回は、文字列と説明のない変数のみを削除し、使用できる残りの変数をすべて使用して、さらに多くの変数を使用します。

複数の変数を使用する場合、これらの不変量の次元は異なるため、標準化する必要があります。変数を重ね合わせることができることを保証しながら、各変数の分布の違いを保証します。

 # 数値以外の変数と不適切な変数を削除する
drop_columns = [ '部屋タイプ' 、 '都市' 、 '州' 、 '緯度' 、 '経度' 、 '郵便番号' 、 'ホスト応答率' 、 'ホスト承認率' 、 'ホストリスト数' ]
 dc_listings = dc_listings.drop (drop_columns、軸=1 )
 # 欠損率が高すぎる列（変数）を削除する
dc_listings = dc_listings.drop ([ '清掃料' , '保証金' ], axis=1 )
 # 欠損値のある行（サンプル）を削除する
dc_listings = dc_listings.dropna(軸=0)
 # 複数の変数は異なる次元を持ち、標準化する必要がある
正規化されたリスト = (dc_listings - dc_listings.mean())/(dc_listings.std())
 normalized_listings[ '価格' ] = dc_listings[ '価格' ] 
 
 # モデリングに使用できるデータセットが7:3でトレーニングセットとテストセットに分割されました
train_df = 正規化されたリスト.iloc[0: int (0.7*len(正規化されたリスト))]
 test_df = normalized_listings.iloc[ int (0.7*len(normalized_listings)):]
 # 価格はy、残りの変数はXです
特徴 = train_df.columns.tolist()
機能を削除します( '価格' )

処理されたデータセットは次のとおりです。ここで、price は予測するターゲットであり、残りは利用可能な変数です。

 sklearn.neighborsからKNeighborsRegressor をインポートします
sklearn.metricsからmean_squared_errorをインポートする
 
 knn = KNeighborsRegressor(n_neighbors=5, アルゴリズム= 'brute' )
 knn.fit(train_df[特徴], train_df[ '価格' ])
予測 = knn.predict(test_df[特徴])
 mse = 平均二乗誤差(test_df[ '価格' ], 予測)
 rmse = mse ** (1/2)

最終的なrmse = 111.9は単変量knnの117.4よりも小さく、結果は最適化されています。厳密に言えば、この比較は、特徴が欠落している少数のサンプルが失われたため、完全に公平ではありません。

5. ハイパーパラメータの最適化

パート 3 と 4 では、k = 5 と仮定しましたが、これは衝動的な決定でした。この値が妥当かつ最適であるかどうかは、さらに判断する必要があります。

このうち、この k はハイパーパラメータです。どのデータセットでも、knn を使用する限り、k 値を決定する必要があります。

k 値はデータに基づいてモデルによって学習されるのではなく、事前に設定され、結果に基づいて逆選択によって決定されます。あらゆるハイパーパラメータはこのように決定され、他のアルゴリズムでも同様です。

 matplotlib.pyplot をpltとしてインポートします。
 %matplotlib インライン
 
 hyper_params = [x が範囲(1,21)内の場合のx ]
 rmse_values = []
特徴 = train_df.columns.tolist()
機能を削除します( '価格' ) 
 
 hyper_paramsのhpの場合:
    knn = KNeighborsRegressor(n_neighbors=hp、アルゴリズム= 'brute' )
    knn.fit(train_df[特徴], train_df[ '価格' ])
    予測 = knn.predict(test_df[特徴])
    mse = 平均二乗誤差(test_df[ '価格' ], 予測)
    rmse = mse**(1/2)
    rmse_values.append(rmse) 
     
 plt.plot(hyper_params、rmse_values、c= 'r' 、線種= '-' 、マーカー= '+' )

k が大きいほど、トレンドに関して予測価格と実際の価格の偏差がより正確になることがわかりました。ただし、k が大きくなるほど、計算量も大きくなることに注意してください。

k 値を決定するときは、アルボー法を使用できます。つまり、上の図の変曲点、つまり比喩的に手の肘に注目します。

k=5 よりも k=7 または 10 の方が良い結果になる可能性があります。

6. クロスバリデーション

上記の計算結果は、トレーニングセットとテストセットの分割においてランダム性を考慮していますが、完全にそれらに依存しています。しかし、特にサンプルサイズが十分に大きくない場合は、単一の結果が偶然である可能性があります。

クロス検証はこの問題を解決するために設計されています。同じサンプルセットを異なるトレーニングセットとテストセットに分割できます。各分割ごとに再トレーニングと予測を実行し、結果を総合的に確認します。

最も広く使用されているのは n 倍交差検証であり、これはデータセットをランダムに n 個の部分に分割し、n-1 個のサブセットをトレーニングセットとして使用し、残りの 1 つのサブセットをテストセットとして使用するものです。このようにして、合計 n 回のトレーニングと予測を実行できます。

次のように、ロジックを直接手動で記述できます。

サンプル数 = len(正規化されたリスト)
 normalized_listings.loc[ normalized_listings.index [0: int (0.2*sample_num)], "fold" ] = 1
 normalized_listings.loc[normalized_listings.index [ int ( 0.2*sample_num): int (0.4*sample_num)], "fold" ] = 2
 normalized_listings.loc[normalized_listings.index [ int ( 0.4*sample_num): int (0.6*sample_num)], "fold" ] = 3
 normalized_listings.loc[normalized_listings.index [ int ( 0.6*sample_num): int (0.8*sample_num)], "fold" ] = 4
 normalized_listings.loc[normalized_listings.index [ int ( 0.8*sample_num ):], "fold" ] = 5 
 
折り畳みID = [1,2,3,4,5]
 def train_and_validate(df, 折り畳み):
    折り畳み率 = []
折り畳みの場合:
        ＃ 電車
        モデル = KNeighborsRegressor()
        訓練 = df[df[ "折り畳み" ] != 折り畳み]
        テスト = df[df[ "fold" ] == fold].copy()
        model.fit(train[特徴], train[ "価格" ])
        ＃ 予測する
        ラベル = model.predict(テスト[特徴])
        test[ "predicted_price" ] = ラベル
        mse = 平均二乗誤差(テスト[ "価格" ], テスト[ "予測価格" ])
        rmse = mse**(1/2)
        fold_rmses.append(rmse)
戻り値(fold_rmses) 
 
 rmses = train_and_validate(正規化されたリスト、fold_ids)
平均rmse = np.mean(rmses)

エンジニアリングでは、ツールとリソースを最大限に活用する必要があります。 sklearn ライブラリには、一般的に使用される機械学習アルゴリズムの実装が含まれており、検証に直接使用できます。

 sklearn.model_selectionからcross_val_score、KFold をインポートします
kf = KFold(5, シャッフル= True , ランダム状態= 1)
モデル = KNeighborsRegressor()
 mses = cross_val_score(モデル、正規化されたリスト[機能]、正規化されたリスト[ "価格" ]、スコアリング= "負の平均二乗誤差" 、cv=kf)
 rmses = np.sqrt( np.absolute (mses))
平均rmse = np.mean(rmses)

クロス検証の結果により、特に小規模なデータセットでは信頼性が高まります。偶発的なエラーをある程度軽減できるからです。

クロス検証とハイパーパラメータ最適化を組み合わせると、通常、このデータセットでは knn アルゴリズムによって予測される最良の結果が得られます。

 # ハイパーパラメータの最適化
num_folds = [x が範囲(2,50,2)内の場合のx ]
 rmse_values = [] 
 
 num_foldsの折り畳みの場合:
    kf = KFold(fold、シャッフル= True 、ランダム状態= 1)
    モデル = KNeighborsRegressor()
    mses = cross_val_score(モデル、正規化されたリスト[機能]、正規化されたリスト[ "価格" ]、スコアリング= "負の平均二乗誤差" 、cv=kf)
    rmses = np.sqrt( np.absolute (mses))
    平均rmse = np.mean(rmses)
    std_rmse = np.std(rmses)
    rmse_values.append(平均rmse) 
     
 plt.plot(num_folds, rmse_values, c= 'r' , 線種= '-' , マーカー= '+' )

同じ傾向が見られ、k が大きいほど効果は高くなります。同時に、クロスバリデーションによって過剰適合の問題がある程度解決されるため、理想的な k 値が大きいほど、モデルはより複雑になる可能性があります。

7. まとめ

k近傍法アルゴリズムの核となる考え方と上記のコーディングプロセスから、このアルゴリズムはトレーニングセット内のインスタンスに完全に依存するため、インスタンスベースの学習方法であることがわかります。

このアルゴリズムは数学的な手法を必要とせず、理解しやすいものです。しかし、k 最近傍アルゴリズムの各予測では、トレーニングセット全体のデータから予測対象のデータまでの距離を計算し、それを昇順に並べる必要があり、膨大な計算量が必要になるため、大規模なデータセットへの適用には適していません。

数学関数を使用してデータセットの特性変数とターゲット変数の関係を記述できる場合、トレーニングセットを使用して関数表現を取得すると、予測は単純な数学計算問題になります。計算の複雑さが大幅に軽減されます。

他の古典的な機械学習アルゴリズムは、基本的に関数式の問題です。後で見てみましょう。

この記事はWeChatの公開アカウント「thunderbang」から転載したもので、以下のQRコードからフォローできます。この記事を転載する場合は、thunderbang公式アカウントまでご連絡ください。

<<: UdeskブランドアップグレードWofeng TechnologyはAIコア技術を深化させ、5つの主要製品ラインでトップ1または2戦略を全面的に推進

>>: 快手テクノロジー副社長の王中元氏：ユーザーの90％はショートビデオに音楽を使用することを期待しています。快手は「AI+音楽」を使用してショートビデオの作成を支援します。

Google Cloud が AI を活用したパーソナライズされたおすすめ商品をオンライン小売業者向けに提供開始

家賃決定問題を用いてK近傍法アルゴリズムを学ぶ

1. データを読み込む

2. データ処理

3. 手書きアルゴリズムコード予測

4. モデル予測にsklearnを使用する

5. ハイパーパラメータの最適化

6. クロスバリデーション

7. まとめ

Google Cloud が AI を活用したパーソナライズされたおすすめ商品をオンライン小売業者向けに提供開始

人工知能を活用して顧客サービス体験を向上させる 5 つの方法

最新の Claude 200K は本当に「誤ったラベル」が貼られているのでしょうか?神は1016ドルを費やしてテストしましたが、90Kを超えるとパフォーマンスが急激に低下しました。

AI バイブル PRML「パターン認識と機械学習」が Microsoft によって正式にオープンソース化されました。

エッジAIはテクノロジー業界に大きな変化をもたらしている

IoTミツバチ：私たちの未来を救う技術

推薦する

この戦略は不安定なGANを安定させるのに役立ちます

一貫性ハッシュアルゴリズムの使い方がわからない場合は、履歴書に負荷分散に取り組んだと書かないでください。

AIアルゴリズムがARライブブロードキャスト体験を向上させ、Taobao Maker Festivalのリアルで幻想的な体験をもたらします

サイバーセキュリティにおける機械学習の適用における困難さと対策

Intel がオープンソースの大規模スパースモデルトレーニング/予測エンジン DeepRec の構築を支援

モデル融合、ハイブリッド専門家、小規模LLM、2024年のLLMの発展方向を理解するためのいくつかの論文

大手モデルは「チャートをブラッシュアップ」するために近道をとっているのでしょうか?データ汚染問題は注目に値する

自動運転チップの秘密を解明

清華大学などは、シンボリックメモリと組み合わせて、大規模モデルの複雑な推論能力を向上させるChatDBを提案した。

新しいAI技術がアルツハイマー病の薬のターゲット発見に役立つ

AI時代の従業員のスキルアップのための5つのヒント

DeSRAは欠陥を検出して除去し、実際のシーンの超解像におけるGANをより完璧にします

1 つの記事で NLP 実装の難しさを理解する

最初の機械学習APIをデプロイする

脳コンピューターインターフェースツール：脳波からテキストまで、必要なのは機械翻訳モデルだけ