この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 最近、Andrew Ng 氏は自身が創設した週刊人工知能ニュースレター「The Batch」のブログ記事を更新し、機械学習分野におけるいくつかの基本的なアルゴリズムの歴史的起源をまとめました。記事の冒頭で、Andrew Ng 氏は研究者としてのキャリアの中で下した決断を思い出しました。何年も前、あるプロジェクトでアルゴリズムを選択する際に、ニューラル ネットワークと決定木学習アルゴリズムのどちらかを選択する必要がありました。コンピューティング予算を考慮して、彼は最終的にニューラル ネットワークを選択し、強化された決定木を長い間放棄しました。これは間違った決断だった。「幸運にも私のチームはすぐに選択を変え、プロジェクトは成功しました」とアンドリュー・ン氏は語った。そのため、基本的な知識を常に学び、更新することが非常に重要であると彼は嘆いた。他の技術分野と同様に、機械学習の分野も研究者の数が増え、研究成果が増えるにつれて常に進化しています。しかし、いくつかの基本的なアルゴリズムと中核となるアイデアは、時の試練に耐えてきました。
Andrew Ng 氏の見解では、これらのアルゴリズムと概念は、住宅価格予測器、テキスト画像ジェネレーター (DALL E など) など、多くの機械学習モデルの中核となるアイデアです。この最新の記事では、Andrew Ng 氏と彼のチームが 6 つの基本的なアルゴリズムの起源、用途、進化を調査し、比較的詳細な説明を提供しました。 6 つのアルゴリズムは、線形回帰、ロジスティック回帰、勾配降下法、ニューラル ネットワーク、決定木、および k 平均法クラスタリング アルゴリズムです。 1 線形回帰:直線的かつ狭い線形回帰は機械学習における重要な統計手法ですが、苦労せずに実現できるわけではありません。これは二人の優れた数学者によって提唱されましたが、200年経った今でもその問題は未解決のままです。長年にわたる論争は、このアルゴリズムの驚くべき有用性を証明するだけでなく、その本質的な単純さも証明している。 では、線形回帰は誰のアルゴリズムなのでしょうか? 1805 年、フランスの数学者アドリアン・マリー・ルジャンドルは、彗星の位置を予測しようとする際に、一連の点に直線を当てはめる方法を発表しました (天体航法は、今日の人工知能と同様に、当時の世界商業において最も価値のある科学的方向性でした)。 キャプション:アドリアン・マリー・ルジャンドルによるスケッチ4年後、24歳のドイツの天才カール・フリードリヒ・ガウスは、1795年からこれを使っていたと主張したが、書くには些細すぎると考えていた。ガウスの主張を受けて、ルジャンドルは「非常に有名な幾何学者がためらうことなくこの方法を採用した」と記した匿名の記事を発表した。 カール・フリードリヒ・ガウスの傾きとバイアス: 線形回帰は、結果とそれに影響を与える変数の関係が直線に従う場合に役立ちます。たとえば、車の燃料消費量は車の重量と比例関係にあります。
普遍性に向けた 2 つのステップ: このアルゴリズムは、すぐに航海士が星を追跡するのに役立ち、その後は生物学者 (特にチャールズ ダーウィンのいとこであるフランシス ゴルトン) が植物や動物の遺伝形質を特定するのに役立ちました。これら 2 つのさらなる開発により、線形回帰の幅広い可能性が解き放たれました。 1922 年、イギリスの統計学者ロナルド・フィッシャーとカール・ピアソンは、線形回帰が相関と分布の一般的な統計的枠組みにどのように適合し、あらゆる科学に役立つかを示しました。そして、ほぼ 1 世紀後、コンピューターの出現により、それをはるかに広範囲に活用するためのデータと処理能力が提供されました。 曖昧さへの対処: もちろん、データが完全に測定されることはなく、一部の変数は他の変数よりも重要です。こうした人生の事実が、より複雑なバリエーションを生み出します。たとえば、正規化を伴う線形回帰 (リッジ回帰とも呼ばれる) では、線形回帰モデルが 1 つの変数に過度に依存しないように、より正確には、最も重要な変数に均等に依存するように促します。簡単にするために、別の形式の正規化(L2 ではなく L1)を使用すると、できるだけ多くの係数がゼロになるようにする Lasso(圧縮された推定値)が生成されます。つまり、予測力の高い変数を選択し、残りを無視することを学習します。弾性ネットは、これら 2 種類の正規化を組み合わせます。データがまばらな場合や、特徴が相関しているように見える場合に役立ちます。 各ニューロン内: 現在、シンプルなバージョンでも非常に便利です。ニューラル ネットワークで最も一般的なニューロンの種類は、非線形活性化関数が続く線形回帰モデルであり、線形回帰はディープラーニングの基本的な構成要素となります。 2 ロジスティック回帰:曲線に従うロジスティック回帰がただ 1 つの事柄を分類するために使用されていた時代がありました。つまり、毒の入った瓶を飲んだ場合、その人が「生きている」と分類される可能性が高いのか、「死んでいる」と分類される可能性が高いのか、ということです。時代は変わり、今日では、緊急サービスに電話することでこの質問に対するより良い答えが得られるだけでなく、ロジスティック回帰はディープラーニングの中心でもあります。 毒物管理: ロジスティック関数は、1830 年代にベルギーの統計学者 PF Verhulst が人口動態を説明するために考案したものです。時間の経過とともに、指数関数的な成長の初期爆発は利用可能なリソースを消費するにつれて平坦化し、特徴的なロジスティック曲線を生み出します。それから1世紀以上経って、アメリカの統計学者EBウィルソンと彼の学生ジェーン・ウースターは、特定の有害物質が致死的になる可能性を計算するためにロジスティック回帰を設計しました。 図 1: PF Verhulst適合関数: ロジスティック回帰は、特定のイベント (例: ストリキニーネの摂取) が発生した場合に特定の結果 (例: 早期死亡) が発生する確率を予測するために、データ セットにロジスティック関数を適合させます。
さらなる結果: ヴェルフルスト氏の研究は、中毒被害者が死後の世界のどちら側に入るかといったさらなる可能性を無視して、二者択一の結果の確率を発見した。彼の後継者たちはアルゴリズムを拡張しました。
図のキャプション: David Cox多機能曲線: ロジスティック関数は広範囲の現象をかなり正確に記述するため、ロジスティック回帰は多くの場合、有用なベースライン予測を提供します。医学では、死亡率や病気のリスクを推定することができます。政治学では、選挙の勝者と敗者を予測します。経済学では、ビジネスの見通しを予測します。さらに重要なのは、さまざまなニューラル ネットワーク (非線形性はシグモイド関数) 内のニューロンのサブセットを駆動することです。 3 勾配降下法:すべては下り坂 夕暮れ後に山をハイキングしていて、下には何も見えないことに気づいたと想像してみてください。携帯電話のバッテリーが切れているので、GPS アプリを使って家に帰る道を見つけることができません。おそらく、勾配降下法で最速の経路が見つかるでしょう。崖から落ちないように注意してください。太陽とカーペット:急な地形を下るよりも、勾配降下の方が有利です。 1847 年、フランスの数学者オーギュスタン=ルイ・コーシーは、星の軌道を近似するアルゴリズムを発明しました。 60年後、同胞のジャック・アダマールが独自にこの法則を開発し、カーペットなどの薄くて柔軟な物体の変形を記述して、膝をついてのハイキングを容易にすることができた。ただし、機械学習では、学習アルゴリズムの損失関数の最小点を見つけるのが最も一般的な用途です。 図 1: オーギュスタン=ルイ・コーシーの下降: トレーニングされたニューラル ネットワークは、与えられた入力に対して目的の出力を計算する関数を提供します。ネットワークをトレーニングする方法の 1 つは、実際の出力と目的の出力の差を繰り返し計算し、その差が小さくなるようにネットワークのパラメータ値を変更することで、出力の損失、つまりエラーを最小限に抑えることです。 勾配降下法は差異を減らし、損失を計算する関数を最小化します。ネットワークのパラメータ値は地形上の位置に相当し、失われるのは現在の高さです。下に行くほど、目的の出力に近いものを計算するネットワークの能力が向上します。典型的な教師あり学習の場合、アルゴリズムはネットワークのパラメータ値と損失関数の勾配または傾き、つまり、丘の上のどこにいるのか、そしてその下の傾斜のみに依存するため、可視性は制限されます。
谷間に閉じ込められた: アルゴリズムがおそらくあなたを凸状の丘の底まで押し上げなかったため、携帯電話が故障したのは残念です。最終的には、複数の谷 (局所的最小値)、山 (局所的最大値)、鞍点 (鞍点)、および高原で構成される非凸の地形になる場合があります。実際、画像認識、テキスト生成、音声認識などのタスクはすべて非凸であり、この状況に対処するために勾配降下法のさまざまなバリエーションが開発されてきました。 たとえば、アルゴリズムには、小さな上昇と下降を増幅して底値に到達する可能性を高める勢いがある可能性があります。研究者たちは非常に多くのバリエーションを考案したため、局所最小値の数と同じ数の最適化装置があるかのように思われた。幸いなことに、局所最小値と全体最小値はほぼ等しくなる傾向があります。 最適オプティマイザー: 勾配降下法は、あらゆる関数の最小値を見つけるための明確な選択肢です。正確な解を直接計算できる場合(たとえば、多数の変数を持つ線形回帰タスク)は、値を近似することができ、多くの場合、より高速かつ安価になります。しかし、複雑な非線形タスクでは真価を発揮します。急勾配の下り坂と冒険心があれば、夕食に間に合うように山を抜けられるかもしれません。 4 ニューラルネットワーク:関数の発見最初に言っておきますが、脳はグラフィック処理装置の集合体ではありません。もしそうだとしたら、脳が実行するソフトウェアは、典型的な人工ニューラル ネットワークよりもはるかに複雑になるでしょう。ニューラル ネットワークは、脳の構造にヒントを得たものです。相互接続されたニューロンの層で、各ニューロンは隣接するニューロンの状態に基づいて独自の出力を計算し、その結果生じる一連の活動によって思考が形成されます (または、猫の写真を認識します)。 生物学的から人工的へ: 脳がニューロン間の相互作用を通じて学習するという考えは 1873 年に遡りますが、アメリカの神経科学者ウォーレン・マカロックとウォルター・ピッツが単純な数学的ルールを使用して生物学的ニューラル ネットワーク モデルを構築したのは 1943 年になってからでした。 1958年、アメリカの心理学者フランク・ローゼンブラットは、アメリカ海軍向けのハードウェア版を構築することを目的として、パンチカードマシン上に実装された単層視覚ネットワークであるセンサーを開発しました。 キャプション: フランク・ローゼンブラット大きいほど良い: ローゼンブラットの発明は、単一行の分類しか認識できません。その後、ウクライナの数学者アレクセイ・イヴァクネンコとヴァレンティン・ラパは、ニューロンのネットワークを任意の数の層に積み重ねることでこの制限を克服しました。 1985 年、フランスのコンピューター科学者ヤン・ルカンとデビッド・パーカーは独立して研究し、アメリカの心理学者デビッド・ルメルハートとその同僚は、バックプロパゲーションを使用してそのようなネットワークを効率的にトレーニングする方法を説明しました。 新世紀の最初の 10 年間で、Kumar Chellapilla、Dave Steinkraus、Rajat Raina (Andrew Ng と共同) などの研究者は、グラフィックス プロセッシング ユニットを使用してニューラル ネットワークをさらに進化させ、インターネットによって生成される膨大な量のデータから学習できるニューラル ネットワークの規模を拡大しました。 あらゆるタスクに適しています: ニューラル ネットワークの原理は単純です。あらゆるタスクに対して、それを実行できる関数が存在します。ニューラル ネットワークは、単純な関数をトレーニング可能な関数に組み合わせたもので、各関数は単一のニューロンによって実行されます。ニューロンの機能は、「重み」と呼ばれる調整可能なパラメータによって決まります。 入力例とその望ましい出力に対するこれらの重みとランダムな値が与えられると、トレーニング可能な関数が手元のタスクを達成するまで、重みを繰り返し変更できます。
ブラック ボックス: 運が良ければ、十分にトレーニングされたネットワークはタスクを達成できますが、多くの場合、数千の変数とネストされた活性化関数を含む非常に複雑な関数を読み取ることになり、ネットワークがどのようにタスクを正常に達成したかを解釈するのは困難です。さらに、十分にトレーニングされたネットワークの良し悪しは、学習元のデータの品質によって決まります。 たとえば、データセットに偏りがある場合、ネットワークの出力にも偏りが生じます。高解像度の猫の写真だけが含まれている場合、低解像度の写真に対してどのように反応するかは不明です。常識: 1958 年にローゼンブラットがセンサーを発明したことを報じたニューヨーク タイムズ紙は、「米国海軍は、歩く、話す、見る、書く、自己複製する、そして自身の存在を認識することができるプロトタイプの電子コンピューターを所有することを期待している」と記し、AI の誇大宣伝の先駆けとなった。 当時のセンサーは期待に応えられませんでしたが、画像用の畳み込みニューラル ネットワーク、テキスト用の再帰型ニューラル ネットワーク、画像、テキスト、音声、ビデオ、タンパク質構造などのトランスフォーマーなど、多くの優れたモデルが生まれました。 彼らはすでに、囲碁で人間のパフォーマンスを上回り、X線画像の診断などの実用的なタスクで人間のパフォーマンスに近づくなど、驚くべき成果を上げています。しかし、常識や論理的推論に関する問題は、依然として対処が難しい。 5 決定木: ルートからリーフまでアリストテレスはどんな「獣」なのでしょうか? 3 世紀にシリアに住んでいた哲学者の信奉者ポルピュリオスは、この質問に論理的に答える方法を考案しました。 彼は、アリストテレスが提唱した「存在のカテゴリー」を一般的なものから具体的なものまで組み合わせ、アリストテレスを各カテゴリーに順番に分類しました。アリストテレスの存在は概念的または精神的なものではなく物質的なものであり、彼の身体は無生物ではなく生物的なものであり、彼の思考は非合理的なものではなく理性的なものである。 したがって、彼の分類は人間です。中世の論理学の教師は、この順序を垂直のフローチャート、つまり初期の意思決定ツリーとして描きました。 デジタルの違い: 1963 年に話は進み、ミシガン大学の社会学者ジョン・ソンキストと経済学者ジェームズ・モーガンが、調査回答者をグループ化する際にコンピューター上で初めて決定木を実装しました。アルゴリズムを自動的にトレーニングするソフトウェアの登場により、このような作業は一般的になり、scikit-learn を含むさまざまな機械学習ライブラリで決定木が使用されるようになりました。このコードは、スタンフォード大学とカリフォルニア大学バークレー校の 4 人の統計学者によって 10 年かけて開発されました。現在、決定木をゼロから書くことは機械学習 101 の宿題です。 空中のルート: 決定木は分類または回帰のいずれかを実行できます。これはルートからクラウンまで下方向に成長し、入力例を 2 つ (またはそれ以上) の決定階層に分類します。ドイツの医師で人類学者のヨハン・ブルーメンバッハの研究を考えてみましょう。1776年頃、彼はサルと類人猿(人間を除く)を初めて区別しました。それまで、類人猿とサルはひとまとめにされていました。 この分類は、犬に尻尾があるかどうか、胸が狭いか広いか、直立しているかしゃがんでいるか、知能のレベルなど、さまざまな基準に基づいています。訓練された決定木を使用して動物にラベルを付け、各基準を 1 つずつ考慮し、最終的に 2 つの動物グループを分離しました。
トップ 10 入り: 人間は広い骨盤、手、接近した歯によって類人猿と区別されるというブルーメンバッハの結論 (後にチャールズ ダーウィンによって覆された) を踏まえると、類人猿やサルだけでなく人間も分類できるように決定木を拡張するとしたらどうなるでしょうか。オーストラリアのコンピューター科学者ジョン・ロス・クインランは、1986 年に ID3 でこれを可能にし、決定木を拡張して非バイナリ結果をサポートしました。 2008 年、C4.5 という拡張改良アルゴリズムが、IEEE 国際データマイニング会議が計画したリストでデータマイニングアルゴリズムのトップ 10 にランクされました。 イノベーションが蔓延する世界では、それが持続力です。葉を戻す: 決定木にはいくつかの欠点があります。多くの階層レベルを追加して、リーフ ノードに 1 つの例のみが含まれるようにすると、データを簡単に過剰適合させることができます。さらに悪いことに、バタフライ効果が発生しやすく、1 つの例を置き換えると、結果のツリーが大きく異なります。 フォレストへ: アメリカの統計学者レオ・ブレイマンとニュージーランドの統計学者アデル・カトラーは、この特徴を有利に利用し、2001 年にランダム フォレストを開発しました。ランダム フォレストは、それぞれが異なる重複する例の選択を処理し、最終結果に投票する決定木のコレクションです。 Random Forest とその類似の XGBoost は過剰適合が発生しにくいため、最も人気のある機械学習アルゴリズムの 1 つとなっています。それは、アリストテレス、ポルフィリウス、ブルーメンバッハ、ダーウィン、ジェーン・グドール、ダイアン・フォッシー、その他何千人もの動物学者を部屋に集めて、自分の分類が最善のものになるように確認するようなものです。 6 K平均法クラスタリング:集団思考パーティーで他の人の近くに立っている場合、何か共通点がある可能性があります。これが、k-means クラスタリングを使用してデータ ポイントをグループ化する考え方です。グループが人間の組織によって形成されたか、他の力によって形成されたかに関係なく、アルゴリズムはそれを見つけます。爆発からダイヤルトーンまで: ベル研究所の象徴的なイノベーション工場と原子爆弾を発明したマンハッタン計画の卒業生であるアメリカの物理学者スチュアート・ロイドは、1957 年にデジタル信号で情報を分散するための k 平均法クラスタリングを初めて提案しましたが、その研究を公表したのは 1982 年になってからでした。 論文アドレス: https://cs.nyu.edu/~roweis/csc2515-2006/readings/lloyd57.pdf同時に、アメリカの統計学者エドワード・フォーギーが 1965 年に同様の方法を説明し、「ロイド・フォーギー アルゴリズム」という別名が付けられました。センターを見つける: クラスターを同じ考えを持つワーキング グループに分割することを検討します。部屋内の参加者の位置と形成されるグループの数を指定すると、k-means クラスタリングは参加者をほぼ等しいサイズのグループに分け、各グループを中心点または重心の周囲に集めることができます。
異なる距離: もちろん、クラスター化されたオブジェクト間の距離は大きくする必要はありません。 2 つのベクトル間の任意のメトリックが使用できます。たとえば、パーティ参加者を物理的な距離に基づいてグループ化する代わりに、K 平均法クラスタリングでは、服装、職業、その他の属性に基づいてセグメント化できます。オンラインストアはこれを活用して顧客の好みや行動に基づいて顧客を分類し、天文学者は同じ種類の星をグループ化することができます。データ ポイントの力: このアイデアにより、いくつかの注目すべき変化が生まれました。
n 次元カーニバル: それにもかかわらず、元の形式のアルゴリズムは、特に教師なしアルゴリズムとして高価なラベル付きデータの収集を必要としないため、広く有用であり続けています。利用頻度も増加傾向にあります。たとえば、scikit-learn を含む機械学習ライブラリは、高次元データを非常に高速に分割できる kd-tree が 2002 年に追加されたことによる恩恵を受けました。 |
<<: 宇宙の力を活用してデータを処理しましょう! 「物理ネットワーク」はディープニューラルネットワークよりもはるかに優れている
>>: 米商務省の新規制:承認なしに中国とセキュリティの脆弱性を共有することを禁止、マイクロソフトの異議は無効
ハイパースケーラーはすでに業務改善のために AI を活用していますが、他のほとんどのデータセンターで...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
5月15日、世界有数のIoTロック企業であるnokelockの製品発表会が北京金宇シェラトンホテルで...
[[436699]] [51CTO.com クイック翻訳]アナリストとして、私はニュースや業界の最新...
2020年、中国のスマート音声市場規模は113.96億元に達し、前年比19.2%増加した。中国のスマ...
Huawei Pangu シリーズが建築に革新をもたらします! Quantum位は、Huawei ...
文/張燕現在、世界で人工知能教育が発達している国や地域では、人工知能人材の育成を徐々に国のトップレベ...
丸一日待った後、ついに答えが明らかになりました!先ほど、2021年のチューリング賞が発表されました。...
ChatGPT は一晩で静かにアップデートされ、数多くの起業家プロジェクトが始動しようとしています。...
[[208290]]概要: この記事では、海外の便利な自動データ サイエンスおよび機械学習ソフトウェ...