15年前の初出勤の日のことを今でも覚えています。大学院を終えて、世界的な投資銀行にアナリストとして入社したばかりでした。その日は、ネクタイを直したり、学んだことをすべて思い出そうとしたり、自分がその仕事に十分適しているかどうか考えたりしながら過ごしました。私の不安を感じ取った上司は微笑んでこう言いました。 「心配しないでください!必要なのは回帰モデルだけです!」 「これ知ってる!」って思いました。私は回帰モデル、線形回帰、ロジスティック回帰を知っています。上司の言う通りでした。在職中、私は回帰ベースの統計モデルだけを構築していました。当時、回帰モデリングは予測分析の絶対的な王者でした。 15年を経て、回帰モデリングの時代は終わりました。昔の女王は舞台を去り、その代わりに、流行りの名前を持ち、エネルギーに満ちた新しい女王 XGBoost (Exterme Gradient Boosting) が登場します。 XGBoost とは何ですか?XGBoost は、勾配ブースティング フレームワークを使用した、決定木に基づく統合機械学習アルゴリズムです。非構造化データ (画像、テキストなど) を含む予測問題では、人工ニューラル ネットワークが他のすべてのアルゴリズムやフレームワークよりも優れたパフォーマンスを発揮する傾向があります。ただし、小規模から中規模の構造化/表形式データに関しては、決定木ベースのアルゴリズムが現時点では最高クラスであると考えられています。長年にわたるツリーベースのアルゴリズムの開発については、下の表を参照してください。 決定木に基づく XGBoost アルゴリズムの進化 XGBoost アルゴリズムはワシントン大学の研究プロジェクトです。 2016 年の SIGGDD カンファレンスで Tianqi Chen 氏と Carlos Guestrin 氏が発表した論文は、機械学習の世界に衝撃を与えました。このアルゴリズムは導入以来、数多くの Kaggle コンペティションで優勝しただけでなく、いくつかの最先端の業界アプリケーションの原動力とも考えられています。その結果、XGBoost オープンソース プロジェクトに貢献するデータ サイエンティストの強力なコミュニティが形成され、GitHub には約 350 人の貢献者と約 3,600 人のコミッターがいます。このアルゴリズムには次の特性があります。
XGBoost についての直感を養うにはどうすればいいでしょうか?決定木は、最も単純な形式では視覚化が容易で、かなり解釈しやすいアルゴリズムですが、次世代のツリーベースのアルゴリズムに対する直感を構築するのは、少し難しい場合があります。ツリーベースのアルゴリズムの開発をよりよく理解するための簡単な例えを示します。
Unsplash の rawpixel からの写真 優秀な資格を持つ数人の候補者を面接する採用担当者であると想像してください。ツリーベースのアルゴリズムの進化における各ステップは、面接プロセスのバージョンと考えることができます。
XGBoost のパフォーマンスが優れているのはなぜですか?XGBoost と Gradient Boosting Machines (GBM) はどちらも、勾配降下構造を使用して弱学習者 (CART) の学習能力を向上させるアンサンブル ツリー手法です。ただし、XGBoost は、システムの最適化とアルゴリズムの強化を通じて基本的な GBM フレームワークを改善します。 XGBoost が標準 GBM アルゴリズムを最適化する方法
アルゴリズムの強化:
証拠はどこにあるのですか?scikitlearn の「Make_nuclassification」パッケージを使用して、20 個の特徴 (2 つは有益、2 つは冗長) を持つ 100 万個のデータ ポイントのランダム サンプルを作成しました。ロジスティック回帰、ランダム フォレスト、標準勾配ブースティング、XGBoost などのいくつかのアルゴリズムをテストしました。 SKLearn を使用した Make_Classification データセットでの XGBoost と他の ML アルゴリズムの比較 上の図に示すように、XGBoost モデルは他のアルゴリズムと比較して、予測パフォーマンスと処理時間の組み合わせが最も優れています。他の厳密なベンチマーク研究でも同様の結果が出ています。最近のデータサイエンス コンテストで XGBoost が広く使用されているのも不思議ではありません。 「迷ったら XGBoost を使いましょう」 — Owen Zhang では、常に XGBoost を使用するべきでしょうか?機械学習(あるいは人生)に関しては、ただで得られるものなどありません。データ サイエンティストとして、私たちは手元にあるデータに対して考えられるすべてのアルゴリズムをテストし、最適なアルゴリズムを特定する必要があります。さらに、適切なアルゴリズムを選択するだけでは十分ではありません。また、ハイパーパラメータを調整して、データセットに適したアルゴリズム構成を選択する必要があります。さらに、最適なアルゴリズムを選択する際には、計算の複雑さ、解釈可能性、実装の容易さなど、他にも考慮すべき点がいくつかあります。ここで機械学習は科学から芸術へと移行し始めますが、正直なところ、ここで魔法が起こるのです。 将来はどうなるのでしょうか?機械学習は非常に活発な研究分野であり、XGBoost に代わる実用的な代替手段がすでにいくつか存在します。 Microsoft Research は最近、勾配を強化する LightGBM フレームワークをリリースしましたが、これは大きな可能性を秘めています。 Yandex Technology が開発した CatBoost は、印象的なベンチマーク結果を達成しました。予測性能、柔軟性、解釈可能性、実用性の点で XGBoost よりも優れたモデル フレームワークが登場するのは時間の問題です。しかし、強力な挑戦者が現れるまでは、XGBoost は機械学習の世界を支配し続けるでしょう。 |
<<: 看護ロボットは医療従事者の仕事に完全に取って代わることができるのでしょうか?
>>: ドローンによる配達は近づいているが、商業利用にはまだ問題点を解決する必要がある
現在、人工知能 (AI) に関する同様の規制が世界中の複数の地域で施行され始めており、GDPR に関...
昨日5月15日午前9時、Microsoft Research Asia Innovation For...
AI には、CRM に関連する手動プロセスから組織を解放し、顧客エンゲージメント、販売分析情報、ソー...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
1990年代初頭、中国の著名な学者である周海中氏は、人工知能技術がさまざまな分野で広く使用され、予想...
ウルトラマンのシンプルな言葉はAIスタートアップ企業を震え上がらせた。 「Shelling」Open...
[[417154]] [51CTO.com クイック翻訳]あらゆる AI アプリケーションの成功は...
執筆者:Qianshan過去 1 か月間、OpenAI に関する物議を醸す報道が多くありました。一方...
21 世紀が近づくにつれ、各国の成功または失敗はもはや国民と政府指導者だけに依存するものではなくなり...
[[412058]]北京時間7月19日、量子物理学者のマリオ・クライン氏は、2016年初頭にウィーン...
新しい人工知能アルゴリズムは、RNA 分子の正しい 3 次元構造を間違ったものから選び出すことができ...