機械学習愛好家必読ガイド

[[273182]]

このガイドは、機械学習 (ML) に興味があるが、どこから始めればよいかわからない人向けです。

私たちの目標は、誰にでも理解できるようにすることです。つまり、テキストには概要が多数含まれることになります。しかし、誰が気にするでしょうか?機械学習に興味を持っていただける方が増えれば嬉しいです。

機械学習とは何ですか?

機械学習の考え方は、問題に固有のカスタムコードを記述する必要なく、汎用アルゴリズムを使用してデータセットに関する興味深い情報を提供することです。コードを書くのではなく、汎用アルゴリズムにデータを入力すると、そのデータに基づいて独自のロジックが構築されます。

たとえば、アルゴリズムの 1 つは分類アルゴリズムです。データをさまざまなグループに分類できます。手書きの数字を認識するために使用できる同じ分類アルゴリズムを使用して、コードを 1 行も変更せずに電子メールをスパムと非スパムに分類することもできます。同じアルゴリズムを使用しても、異なるトレーニングデータを入力すると、分類ロジックが異なります。

この機械学習アルゴリズムは、さまざまな分類問題に使用できるブラックボックスです。

「機械学習」は、これらの一般的なアルゴリズムの多くを網羅する包括的な用語です。

2つの機械学習アルゴリズム

機械学習アルゴリズムは、教師あり学習と教師なし学習という 2 つの主要なカテゴリに分けられます。この区別は単純ですが、非常に重要です。

教師あり学習

あなたが不動産業者だとしましょう。あなたのビジネスは成長しているので、あなたはあなたを助けてくれる新しいインターンのグループを雇います。しかし、問題があります。物件を見るだけでその価格を大体見積もることができますが、インターン生にはあなたのような経験がないので、価格の決め方が分からないのです。

インターン生を助けるために（そしておそらくあなた自身も休暇を取るために）、あなたは、家の広さや近隣地域などに基づいて、あなたの地域の家の価格や、同様の家の売却価格を見積もる小さなアプリケーションを書くことにしました。

したがって、あなたの市内で誰かが家を売るたびに、その記録を 3 か月間保存する必要があります。それぞれの家について、寝室の数、面積、近隣地域など、多くの詳細を記録する必要があります。しかし、最も重要なのは、最終的な販売価格を記録することです。

これが私たちの「トレーニングデータ」です。

このトレーニングデータを使用して、エリア内の他の住宅の価格を推定できるプログラムを作成します。

トレーニングデータを使用して他の住宅の価格を予測したいと考えています。

これは教師あり学習です。それぞれの家がいくらで売れたかがわかります。言い換えれば、質問の答えがわかっており、そこから逆算することができます。

アプリケーションを構築するには、各住宅のトレーニングデータを機械学習アルゴリズムに取り込む必要があります。アルゴリズムは、数値を計算するためにどのような計算を行う必要があるかを判断しようとします。

これは数学のテストの答えと同じですが、演算が消去されています。

賢い生徒が先生の答えから数学記号を消しました！

このことから、試験の数学の問題が何であるかを推測できますか?右側の各答えを得るためには、左側の数字をどう「処理」すればよいかを知っておく必要があります。

教師あり学習では、この関係をコンピューターに計算させます。この特定の問題セットを解くのに必要な数学がわかれば、同じタイプの問題にはすべて答えることができます。

教師なし学習

元の不動産業者の例に戻りましょう。各住宅の販売価格がわからない場合はどうすればいいでしょうか？各家の大きさや場所などしかわかっていない場合でも、本当にクールなことを行うことができます。これは教師なし学習です。

未知の数値（価格など）を予測したくない場合でも、機械学習を使えば興味深いことを行うことができます。

それは、誰かがあなたに数字のリストが書かれた紙を渡して、「これらの数字が何を意味するのかはよく分かりませんが、パターンやグループ化などがあるかどうかはわかるかもしれません。頑張ってください！」と言うようなものです。

では、このデータを使って何ができるのでしょうか?まず、アルゴリズムを使用して、データ内のさまざまな市場セグメントを自動的に識別できます。地元の大学の近くの購入者は寝室がたくさんある小さめの家が本当に好きなのに、郊外の購入者は広い面積の 3 寝室の家を好むということに気づくかもしれません。これらのさまざまなタイプの顧客を理解することは、マーケティング活動を導くのに役立ちます。

もう一つの便利な機能は、他の場所とは異なる住居を自動的に識別することです。おそらく、外れ値の住宅は高級物件であり、その地域に最も優秀な営業担当者を集中させると、より大きな手数料を支払える可能性がある。

この記事の残りの部分では教師あり学習に焦点を当てますが、それは教師なし学習がそれほど有用でなかったり、興味深くなかったりするからではありません。実際、アルゴリズムの向上に伴い、データに正しい答えのラベルを付ける必要がなくなるため、教師なし学習の重要性はますます高まっています。

補足: 機械学習アルゴリズムには他にも多くの種類がありますが、これは良いスタートになります。

それは素晴らしいことですが、住宅価格を見積もることができることは本当に「学習」と言えるのでしょうか?

人間の脳は、ほとんどあらゆる状況に対処でき、明示的な指示がなくてもその状況に対処する方法を学習します。長い間住宅を販売していれば、住宅の適正価格、住宅を販売する最良の方法、住宅に興味を持つ顧客のタイプなどを本能的に「感知」できるようになります。強力な人工知能研究の目標は、コンピューターを使用してこの能力を再現できるようにすることです。

しかし、現在の機械学習アルゴリズムは十分ではなく、非常に具体的かつ限定された問題に焦点を当てた場合にのみ機能します。この文脈では、「学習」のより良い定義は、「いくつかのサンプルデータが与えられた場合に、特定の問題を解決するための公式を見つけること」かもしれません。

残念ながら、「いくつかのサンプルデータに基づいて特定の問題を解決するために方程式を計算するマシン」というのは、あまり良い名前ではありません。そのため、私たちはそれを「機械学習」と呼ぶことになります。

もちろん、50 年後にこの記事を読んで、強い AI のアルゴリズムが解明されていたら、この記事は少し古風に思えるでしょう。

このプログラムを書いてみましょう！

では、上記の例にある家の価格を見積もるプログラムはどのように記述するのでしょうか?さらに読み進める前に、次の点を考慮してください。

機械学習について何も知らない場合は、次のように住宅価格を見積もるための基本的なルールをいくつか書いてみるかもしれません。

 def estimate_house_sales_price(寝室数、平方フィート、近隣地域):  
価格= 0    
       # 私の地域では、平均的な住宅の価格は1平方フィートあたり200ドルです 
 1平方フィートあたりの価格= 200    
       近所== "hipsterton" の場合:  
       # ただし、一部の地域では料金が少し高くなります 
 1平方フィートあたりの価格= 400    
       elif近所== "スキッドロウ":  
           # 一部の地域では料金が安くなります 
平方フィートあたりの価格= 100    
       # 場所の広さに基づいて基本価格を見積もることから始めます 
価格=平方フィートあたりの価格* 平方フィート 
       # 寝室の数に基づいて見積りを調整します 
       寝室数== 0 の場合:  
           # ワンルームマンションは安い 
価格価格= 価格 — 20000  
       それ以外：  
           # 寝室数が多い場所は通常 
           # より価値がある 
価格価格= 価格 + (ベッドルーム数 * 1000)  
       返品価格

数時間かけて調査すれば、何か役に立つものが見つかるかもしれません。しかし、プログラムが完璧になることは決してなく、価格が変化すると維持するのが難しくなります。

コンピューターがこれをやってくれたらもっといいと思いませんか?関数が実際に何を行うかは、正しい数値を返す限り、誰も気にしません。

 def estimate_house_sales_price(寝室数、平方フィート、近隣地域):  
価格= <コンピュータ、ちょっと計算してください>    
       返品価格

これについて考える一つの方法は、価格を、寝室の数、床面積、近隣地域を材料とするおいしいシチューと考えることです。各成分が最終価格にどの程度影響するかを把握できれば、各成分が最終価格に占める割合を正確に把握できる可能性があります。

これにより、元の関数 (複雑な if 関数や else 関数を含む) が次のように簡略化されます。

 def estimate_house_sales_price(寝室数、平方フィート、近隣地域):  
価格= 0    
       # これを少し 
       価格 += ベッドルーム数 * .841231951398213  
       # そしてそれをひとつまみ 
       価格 += 平方フィート * 1231.1231231  
       # たぶんこれ一握り 
       価格 += 近隣 * 2.3242341421  
       # そして最後に、適度な塩を少し加えます 
       価格 += 201.23432095  
       返品価格

マジックナンバーに注意してください: .841231951398213、1231.1231231、2.3242341421、および 201.23432095。これが私たちの体重です。各住宅に適用する最適な重みを計算できれば、関数で住宅価格を予測できるようになります。

最適な重みを計算する愚かな方法は次のとおりです。

ステップ1:

それぞれの初期重みを 1.0 に設定します。

 def estimate_house_sales_price(寝室数、平方フィート、近隣地域):  
価格= 0    
      # これを少し 
      価格 += ベッドルーム数 * 1.0  
      # そしてそれをひとつまみ 
      価格 += 平方フィート * 1.0  
      # たぶんこれ一握り 
      価格 += 近隣 * 1.0  
      # そして最後に、適度な塩を少し加えます 
      価格 += 1.0  
      返品価格

ステップ2:

知っている各住宅を関数に通して、関数が各住宅の正しい価格をどれだけ正確に予測できるかを確認します。

関数を使用して各住宅の価格を予測します

たとえば、最初の家が実際には 250,000 ドルで売れたが、関数が 178,000 ドルで売れると予測した場合、家は 72,000 ドル安く売れたことになります。

次に、データセット内の各住宅の販売価格の二乗差を合計します。データセットに 500 件の販売があると仮定すると、関数は各住宅の販売価格の二乗差の合計を 86,123,373 ドルと計算します。現在の関数はそれほど「間違っている」のです。

次に、その合計を 500 で割って、住宅 1 軒あたりの平均価格差を算出します。この平均誤差は関数のコストと呼ばれます。

重みを調整してこのコストをゼロにすることができれば、関数は完璧です。つまり、どの場合でも、関数は入力データに基づいて家の価格を完璧に推測できることになります。さまざまな重量値を試してコストをできるだけ低くすることが私たちの目標です。

ステップ3:

可能な重みの組み合わせごとに手順 2 を繰り返します。最後に、コストがゼロに最も近づく重みの組み合わせが選択されます。適切な重量が見つかれば、問題は解決です!

ブレインストーミングの時間

とても簡単ですよね？今やったことを思い出してください。いくつかのデータを取得し、それを 3 つの一般的な非常にシンプルな手順に入力すると、その地域のあらゆる住宅の価格を予測できる関数が作成されます。

しかし、ここであなたを驚かせるかもしれない事実がいくつかあります。

過去 40 年間にわたる多くの分野 (言語学や翻訳など) での研究では、「デジタルシチューをかき混ぜる」(これは私が作った言葉です) 汎用学習アルゴリズムによって、実際の人間が実現しようとする明示的なルールベースのアプローチを実現できることが示されています。機械学習の「愚かな」アプローチは、最終的には人間の専門家に勝ちます。

結果として得られる関数は完全に愚かです。「平方フィート数」や「寝室数」が何なのかさえ知りません。わかっているのは、正しい答えを得るにはいくつかの数字を足し合わせる必要があるということだけです。

特定の重みのセットがなぜそのように機能するのか、おそらくまったくわからないでしょう。つまり、実際には理解していないが、動作することが証明できる関数を作成したことになります。

「平方フィート」や「寝室数」などのパラメータを取る代わりに、予測関数が数値の配列を取ると想像してください。

各数字が、車の上に取り付けられたカメラで撮影された画像内のピクセルの明るさを表しているとします。ここで、関数が「価格」という予測を出力する代わりに、ホイールを回転させるための「度数」という予測を出力すると仮定します。車を自動運転できる機能ができましたね！

かなりクレイジーですよね？

ステップ 3 の「すべての重量番号を試す」とはどういう意味ですか?

もちろん、すべての可能な重量の組み合わせを試して、最も効果的な組み合わせを見つけることは不可能です。すべての数字を使い切ることはできないため、これには非常に長い時間がかかります。

これを避けるために、数学者は、あまり多くの試行をせずに適切な重量値をすばやく見つけるための多くの巧妙な方法を考え出しました。方法は次のとおりです。

まず、上記のステップ 2 を表す簡単な方程式を作成します。

これがコスト関数です。

では、まったく同じ方程式を、機械学習の数学の専門用語を使って書き直してみましょう (今は無視してください)。

θ は現在の重量を表し、J(θ) は現在の重量のコストを表します。

この式は、現在設定されている重みによって価格推定関数がどれだけ間違っているかを表します。

numberofbedrooms と sqft のコスト関数の重みのすべての可能な値をプロットすると、次のようなグラフが得られます。

コスト関数のグラフはボウルのように見えます。縦軸はコストを表します。

この図では、最も低い青い点がコストが最も低い点、つまり関数のエラー値が最小の点です。最高点は、エラー値が大きくなる点です。したがって、このグラフの最も低い点の重量を見つけることができれば、答えが得られます。

したがって、このグラフの最低点まで「坂を下る」ように重みを調整するだけで済みます。常に最低点に向かって重量を少しずつ調整し続けると、多くの重量を試さなくても最終的に最低点に到達します。

微積分を覚えているなら、関数の微分を取るとその点における接線の傾きが得られることを覚えているでしょう。言い換えれば、曲線上のどの点でも下り坂の方向がどちらであるかがわかります。この知識を使って下り坂を進むことができます。

したがって、各重みに関してコスト関数の偏微分を計算すると、この値を各重みから減算できます。これで山のふもとに一歩近づくことになります。これを続けると、最終的に丘の底に到達し、重量の最適な値を見つけることができます。（理解できなくても心配しないで、読み続けてください）。

これは、バッチ勾配降下法と呼ばれる関数の最適な重みを見つける方法の概要です。機械学習ライブラリを使用して現実世界の問題を解決する場合、これらの計算はすべて自動的に実行されます。しかし、何が起こっているのかをよく理解しておくことは依然として役に立ちます。

他に何がスキップされましたか?

私が説明した 3 段階のアルゴリズムは、多変量線形回帰と呼ばれます。世帯のすべてのデータポイントを通る線の方程式を推定します。次に、この方程式を使用して、家がライン上のどこに位置するかに基づいて、これまで見たことのない家の販売価格を予測します。これは、「実際の」問題を解決するために使用できる非常に便利なアイデアです。

私が示したアプローチは単純なケースでは機能しますが、すべてのケースで機能するわけではありません。理由の 1 つは、住宅価格が必ずしも連続した線をたどるほど単純ではないことです。

しかし幸いなことに、この問題を解決する方法があります。非線形データを処理できる機械学習アルゴリズムは他にも多数あります (ニューラルネットワークやカーネルを使用したサポートベクターマシン (SVM) など)。線形回帰をより巧妙に使用して、より複雑な線を当てはめることができる方法もあります。いずれの場合も、最適な重みを見つけるという基本的な考え方は依然として当てはまります。

また、オーバーフィッティングの概念も無視しました。簡単な例としては、元のデータセット内の住宅の価格を常に非常に正確に予測するが、元のデータセットにない新しい住宅に対しては実際には機能しない重みのセットが挙げられます。これに対処する方法はいくつかあります (正規化やクロス検証データセットの使用など)。これに対処する方法を学ぶことは、機械学習をうまく適用する方法を学ぶ上で重要な部分です。

つまり、基本的な概念は非常にシンプルですが、機械学習を適用して有用な結果を得るには、ある程度のスキルと経験が必要です。しかし、これはどんな開発者でも習得できるスキルです。

機械学習には魔法があるのでしょうか?

機械学習の技術が、一見解決困難な問題（手書き認識など）にいかに簡単に適用できるかがわかってくると、答えを得るのに十分なデータがあれば、機械学習を使用してあらゆる問題を解決できるという感覚が得られ始めます。データを入力するだけで、コンピューターが魔法のようにそれに合った方程式を導き出します。

しかし、機械学習が機能するのは、すでに利用可能なデータで実際に問題を解決できる場合のみであることを覚えておくことが重要です。

たとえば、各住宅の鉢植えの種類に基づいて住宅価格を予測するモデルを構築しても、そのモデルは決して機能しません。各住宅の鉢植えの数と住宅の販売価格の間には相関関係はなかった。したがって、コンピューターはどれだけ努力しても、両者の関係を推測することはできません。

関係が実際に存在するモデルのみをモデル化できます。したがって、人間の専門家がこのデータを使って手動でこの問題を解決できない場合は、コンピューターでもおそらく解決できないということを覚えておいてください。私たちは人間が解決できる問題にもっと焦点を当てるべきであり、コンピューターがそれらをより速く解決できれば素晴らしいでしょう。

機械学習についてさらに学ぶにはどうすればいいですか?

私の意見では、現時点で機械学習の最大の問題は、それが主に学術界と商業研究グループの世界に存在していることです。専門家にならずに機械学習を幅広く理解したい人にとって、アクセスしやすい資料はあまりありません。しかし、私たちは毎日進歩しています。

もっと深く学びたい場合は、Coursera の Andrew Ng による無料の機械学習コースがおすすめです。強くお勧めします。コンピュータサイエンスの学位を持ち、数学を少し覚えている人なら誰でもアクセスできるはずです。

<<: AIと機械学習がデータセンターにどのように役立つか

>>: 米シンクタンクの報告書：中国のAI人材流出、大半が米国へ

「人工太陽」が正確に放電します！ DeepMind、AI制御の核融合で新たなブレークスルーを達成

機械学習愛好家必読ガイド

「人工太陽」が正確に放電します！ DeepMind、AI制御の核融合で新たなブレークスルーを達成

BEV におけるレーダー・カメラ間データセット融合に関する実験的研究

制御核融合における新たなマイルストーン！ AIがプラズマの裂け目を予測することに成功し、ネイチャー誌に掲載され、クリーンエネルギーの「聖杯」に一歩近づいた。

AI には明るい未来があります。これらの 5 つのことをうまく実行すれば、将来の市場で発言権を持つ可能性が高まります。

ガートナー、2024年以降のIT組織とユーザーに関する重要な予測を発表

[乾物] Tencent Cloud FPGA 上のディープラーニングアルゴリズム

自動運転車の危険性: 自動運転車が世界中で実現できないのはなぜか

人工知能技術はセキュリティ上の脅威を発見するための新たなツールとなる

765,000台の車両が関与！テスラの自動運転は米国で正式に調査中、NIOはすでに渦中に巻き込まれている

推薦する

IBMの調査によると、AIのフィッシング能力は人間と同等であることが判明

数千人を対象とした調査: AI に対する一般の認識はどのようなものでしょうか?

顔認識の速度に影響を与える要因は何ですか?

人工知能を背景にした教育の未来を探る

Appleのスマートホームアプリに新機能「クリーンエネルギークエリ」が追加

文勝ビデオの次の目的地であるメタはすでにビデオ制作を開始している

バブルソートに加えて、Python の組み込みソートアルゴリズムをご存知ですか?

30% のトークンで SOTA パフォーマンスを達成、Huawei Noah 軽量ターゲット検出器 Focus-DETR が効率を 2 倍に

人工知能の未来を説明する15の統計

マイクロソフトの小型モデルが大型モデルに勝利：27億のパラメータ、携帯電話で実行可能

「人工知能」を「実用的なツール」として扱わない

過大評価された5つのテクノロジー：誇大宣伝の裏にある現実を探る

チーターモバイルの第3四半期のツール事業は中国で月間アクティブユーザー数が1億7100万人に達し、過去最高を記録