1. はじめに生成 AI は間違いなくゲームを変えるテクノロジーですが、ほとんどのビジネス上の問題では、回帰や分類などの従来の機械学習モデルが依然として第一の選択肢となっています。 プライベートエクイティやベンチャーキャピタルなどの投資家が機械学習をどのように活用できるか想像してみてください。このような質問に答えるには、まず投資家が重視するデータとその使用方法を理解する必要があります。企業への投資の決定は、支出、成長、バーンレートなどの定量化可能なデータだけでなく、創業者の実績、顧客のフィードバック、製品体験などの定性的なデータにも基づいて行われます。 この記事では線形回帰の基礎について説明します。完全なコードはここにあります。 [コード]: https://github.com/RoyiHD/linear-regression 2. プロジェクトのセットアップこの記事では、このプロジェクトに Jupyter Notebook を使用します。まず、いくつかのライブラリをインポートします。 ライブラリのインポート
3. データ問題を単純化するために、この記事では地域データを使用します。これらの数字は、会社の支出カテゴリと利益を表しています。さまざまなデータ ポイントの例をいくつか見ることができます。この記事では、支出データを使用して線形回帰モデルをトレーニングし、利益を予測したいと考えています。 この記事で使用されるデータは、1 つの企業の支出について記述したものであることを理解することが重要です。意味のある予測力は、支出データを収益の伸び、地方税、償却、市場状況などのデータと組み合わせた場合にのみ得られます。
データの読み込み中
4. データの視覚化データを理解することは、どの機能を使用するか、どの機能を正規化および変換する必要があるか、データから外れ値を除去するか、特定のデータ ポイントに対してどのような処理を実行するかを決定するために重要です。 目標(利益)ヒストグラム DataFrame を使用してヒストグラムを直接プロットできます (Pandas は Matplotlib を使用して DataFrame をプロットします)。また、利益に直接アクセスしてプロットすることもできます。 写真 ご覧のとおり、利益が 200,000 ドルを超える外れ値はほとんどありません。このことから、この記事のデータはある程度の規模の企業を表しているとも推測できます。外れ値の数は比較的少ないため、そのまま保持できます。 機能(支出)ヒストグラムここでは、使用された特徴のヒストグラムを確認し、その分布を確認します。 Y 軸は数字の頻度を表し、X 軸は支出を表します。 写真 また、外れ値がわずかしかない健全な分布になっていることもわかります。直感的に、研究開発とマーケティングに多くの費用を費やす企業は、より収益性が高いと予想されます。下の散布図からわかるように、研究開発費と利益の間には明確な相関関係があります。 写真 支出と利益の相関関係は、相関ヒートマップを通じてさらに詳しく調べることができます。図からわかるように、研究開発費とマーケティング費は管理費よりも利益との相関性が高いです。 写真 5. モデルのトレーニングまず、データセットをトレーニング セットとテスト セットの 2 つの部分に分割する必要があります。 Sklearn は、このタスクを実行するためのヘルパー メソッドを提供します。データセットはシンプルで十分に小さいため、次の方法で特徴とターゲットを分離できます。 データセット
ほとんどのデータ サイエンティストは、X_train、y_train などの異なる命名規則、または他の同様のバリエーションを使用します。
次に、モデルを作成してトレーニングします。 Sklearn は物事を非常にシンプルにします。 6. モデル評価この論文では、モデルのパフォーマンスとその有用性を評価することを目的としています。まず、計算された係数を見てみましょう。機械学習では、係数は各特徴に掛けられる学習された重みまたは値です。各機能の学習係数が表示されることが期待されます。 上記のように、係数は 3 つあり、それぞれ特性(「研究開発費」、「管理費」、「マーケティング費」)に 1 つずつあります。各係数を視覚的に理解しやすくするために、グラフとしてプロットすることもできます。 写真 計算エラーこの記事では、モデルのエラー率を理解することを目的とし、Sklearn の R2 スコアを使用します。 1 に近いほど、モデルの精度が高くなります。これは実際には非常に簡単な方法でテストできます。 データセットの最初の行を取得できます。以下の支出モデルを使用して利益を予測すると、192,261 ドルに十分近い数字が得られることが予想されます。 次に、推論リクエストを作成します。 モデルを実行します。 ここで、エラー率は abs(199739-192261)/192261=0.0388 であることがわかります。これは非常に正確です。 7. 結論データを処理し、モデルを構築し、データを分析する方法は多数あります。すべての状況に当てはまる単一のソリューションは存在しません。機械学習を使用してビジネス上の問題を解決する際の重要なプロセスの 1 つは、同じ問題を解決するように設計された複数のモデルを構築し、最も有望なものを選択することです。 |
6月29日のニュースによると、新たな研究によると、人間が書いたツイートよりも、人工知能の言語モデルに...
9月24日のニュース、本日早朝、テスラ オプティマスの公式Twitterアカウントが新しいビデオをア...
LiBai モデル ライブラリは、Hugging Face、Megatron-LM、DeepSpe...
[[189593]] Siri から Google 翻訳まで、ディープ ニューラル ネットワークは...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
今年の全国人民代表大会では、「人工知能」というホットな言葉が登場した。先週の土曜日、中国教育も音声デ...
顔認識は、AI 研究が世界にもたらした数多くの驚異のうちの 1 つです。これは多くの技術者にとって興...
[原文は51CTO.comより] 教育業界と人工知能が出会うと、どんな火花が散るでしょうか?国内外の...
数学的 AI ビッグモデルはこの分野の将来を変える可能性があります。本日、中国初の兆スケール数学モデ...
[[238409]]ソートは、コンピュータ サイエンスにおいて常に最も基本的なアルゴリズムの 1 ...
[[436890]]最近、清華大学のチームが事前トレーニングを必要としない効率的な NLP 学習フ...
ノア著制作:51CTO テクノロジースタック(WeChat ID:blog)昨年末に一連の「宮廷闘争...