回帰は幅広い概念です。その基本的な概念は、変数のグループを使用して別の変数を予測することです。簡単に言えば、相関関係に基づいて、いくつかのものを使用して別のことが起こる確率を予測することです。最も単純なものは、線形2変数問題(つまり、単純線形)です。たとえば、妻が午後にバッグを購入したいが、私が購入しないとします。その結果、私は間違いなく夕食を食べません。より複雑なものは、多変量(つまり、多変量線形)です。ここで注意すべきことが1つあります。これは、私が以前に犯した間違いです。つまり、予測変数が多ければ多いほど良いと考えていたことです。モデルを作成するときは、常に予測する指標を数十個選択したいと考えています。しかし、ご存知のように、変数を追加するたびに、変数は、この変数に誤差を追加することと同等であり、これは偽装して全体の誤差を拡大し、特に独立変数が適切に選択されていない場合、影響は大きくなります。一方、2つの独立変数の相関が高く独立していない場合、2つの指標は結果に2倍の影響を与えることに相当します。上記の例を引き続き使用すると、義母が来たら、妻が料理をする可能性が非常に高くなります。別のイベントを追加すると、義父も来たら、妻は間違いなく料理をします。なぜこれらの判断があるのかというと、これらは以前にも何度も起こっているので、これらのことに基づいて妻が夕食を作るかどうかを予測できるからです。 もちろん、あなたはあなたの裸の目でのビッグデータの時代を見ることができません、さもなければ、私たちはしばしば多項式の回帰を使用します耳の回帰、時系列回帰、自己網目抑制など、ここではいくつかの一般的に使用されやすいモデルについて話します(すべてのモデルについて1つの問題に注意を払う必要があります。そして、基本的に昇進と給与の増加はありませんその結果、安価でおいしいブドウの販売量は間違いなく大きくなります。別の例を挙げると、ある石油生産地域でコーヒーの販売量が増えれば、国際的な石油価格は下がります。この2つは関連しています。リーダーにこの2つが関連していることを伝えるだけでなく、なぜ関連しているのかも調べる必要があります。コーヒーは労働者のエネルギーを高めるための主な飲み物です。コーヒーの販売量が増えると、追跡により労働者の労働強度が増し、石油の輸送と輸出が増えることが明らかになり、石油価格の下落とコーヒーの販売の関係が明らかになります(これは単純な例なので、あまり考えないでください。船舶情報を取得するためにリモートセンシング情報に基づいて食品価格を予測した実際のケースを参考にしました。十分に典型的ではないと思ったので、別の例に変更しました。実際の石油価格は人為的に操作されています)。 リグレッションツール - 素晴らしい数学者ガウスが使用する最小二乗法(別のフランスの数学者はそれを最初に作成しましたが、この方法は主にサンプルデータと予測の間の予測を見つけたので、妻が夕食をとることができます。確率がどれほど高いかは、最小二乗法と式について話すことはありません。私がここで何を言うかを知っているはずです。 1. 正規性: 独立変数が固定されている場合、従属変数は正規です。つまり、同じ答えに対して、ほとんどの理由が集中しています。回帰モデルを作成するときは、多数の Y~X マッピング サンプルを使用して回帰を行います。Y の原因となるサンプルが非常に乱雑な場合は、回帰を実行できません。 2. 独立性: 各サンプルの Y は互いに独立しています。これは簡単に理解できます。答えの間に関連性があってはなりません。コインを投げるのと同じように、1 回目が裏で、2 回目に裏が出る可能性を予測するように求められた場合、結果を予測する必要はありません。 3. 線形性: X と Y は関連しています。実際、世の中のあらゆるものは関連しています。蝶と竜巻 (または津波) は関連しています。これは直接的または間接的な相関関係にすぎません。ここでの相関関係は、独立変数と従属変数の間の直接的な相関関係を指します。 4. 等分散性: 従属変数の分散は独立変数のレベルによって変化しません。記述統計分析における分散について書きました。これはデータ セットの変動性を表すので、ここでの要件は結果の変動性が一定であることです。たとえば、頭が混乱していて例が思い浮かばないので、図を描いて説明します。 (各独立変数に対応する結果が可能な限り小さい範囲にあることを期待します) モデル化には回帰法を使用しますが、上記の点の影響を排除するようにする必要があります。以下は、単純な回帰プロセスの詳細な説明です (他のプロセスも実際には同様であり、これが明確に説明できる場合は、他のプロセスも同様です)。 まず、指標を見つけ、予測したい変数の関連指標を見つけます(最初のステップは、予測したい変数を見つけることです。このトピックは少し広く、ビジネス目標、上司の目標、目標を達成するための最も重要なビジネス指標などが関係します。このトピックについては後で説明します。ここで最初に方法を明確に説明しましょう)。関連指標を見つけます。標準的な方法は、ビジネスの専門家がいくつかの指標を考え出し、これらの指標のどれに高い相関関係があるかをテストすることです。しかし、私が経験したほとんどの会社のビジネス担当者は、モデリングの初期段階では信頼できない(本当に信頼できない、アイデアも考えも意見もない)ので、私のアプローチは、ビジネス目的に関連するすべての指標(時には数百)を取得し、相関分析を実行してから主成分分析を実行することです。フィルタリングがほぼ完了したら、ビジネスの専門家にそれを見せます。この時点で、彼らにはアイデアがあり(最初にそれらをアクティブにする必要がある何か)、予想していなかったいくつかの指標を提供してくれるでしょう。予測子は最も重要であり、結果と出力に直接関係するため、これは複数ラウンドの最適化プロセスです。 次に、データを見つけます。これについては詳しく説明しません。タイムラインに沿って探すか(ほとんどの場合、規則性があるため、より良い方法だと思います)、断面に沿って探すことができます。つまり、断面上のさまざまなポイントが大きく変動する可能性があるため、注意してください。同時に、極端な値やヌル値の処理を含む基本的なデータ処理も行う必要があります。 3 番目に、回帰モデルを構築します。このステップは最も簡単です。すべてのマイニング ツールはさまざまな回帰手法を提供します。あなたの仕事は、事前に準備した内容をコンピューターに伝えることです。 4 番目は、テストと修正です。ツールで計算するモデルには、さまざまな仮説検定係数があります。モデルの品質をすぐに確認し、同時に修正して最適化することができます。ここで重要なのは、本当に正しい予測の割合を示す適合率です。もう 1 つは、本当に正しい例がすべて予測される確率を示す再現率です。一般的に、適合率と再現率は反比例するため、バランスを取る必要があります。 5 番目は、説明と使用です。これは奇跡を目撃する瞬間です。それを目撃するまでには通常長い時間がかかります。この時間は、上司や顧客に、なぜこれらの変数が存在するのか、なぜこのバランス ポイントを選択したのか (ビジネス力が不十分なのか、その他の理由なのか)、なぜ時間が経っても製品がこんなに悪いのか (これは恥ずかしい) などを説明する時間です。 今のところ、回帰分析についてお話しするのはこれですべてです。次回は、主成分分析と相関分析に関する研究についてお話しし、その後、データマイニングのもう 1 つの強力なツールであるクラスタリングについてお話しします。 |
科学技術の発展にはいつも驚かされます。携帯電話がいつからこんなにスマートになったのか、コンピューター...
PaddlePaddleは、Baiduが2016年8月末に一般公開したディープラーニングプラットフォ...
Microsoft は、Meta との AI パートナーシップをさらに拡大し、Meta が AI ...
6月末、わが国各省市で大学入試結果が次々と発表される中、学生の専攻選択は統計的な傾向に新たな波を起こ...
ついに、GPT-4V がコンピューターを自動的に操作することを学習する日が来ました。マウスとキーボー...
電池なしで自動運転できる「車」が登場した。走行し続けるためのエネルギーを自動的に収集することもできる...
[51CTO.comより引用] 2017年7月21日から22日まで、51CTO主催の人工知能をテーマ...
コード補完ツール Kite は最近最新バージョンに更新され、「インテリジェント スニペット」と呼ばれ...
写真を撮るだけで、宮崎駿や新海誠などの日本のアニメ巨匠の手描き風に変換できます。アニメ画像を生成する...
李開復氏が所有するAI企業Zero One Everythingにも、もう1つの大手モデルプレイヤー...
[[276754]]業界のすべての実務者が合意に達することはまれですが、AI業界は例外です。ほぼすべ...
ちょうど今日、Meta 社は商用 AI に注力するため、AI を使用して約 6 億個のタンパク質の折...