[51CTO.com からのオリジナル記事] 現在、機械学習テクノロジーをめぐっては多くの誇大宣伝が行われていますが、当然ながら、そこには多くの認知上の誤解が含まれています。この記事では、誤解を解き、機械学習についての真実についてお話しします。 機械学習技術は確かに非常に実用的であることが実践によって証明されているため、多くの人が機械学習があらゆる問題を解決でき、あらゆる状況に適用できると誤解しています。しかし現実には、他のツールと同様に、機械学習は特定の領域でのみ非常に強力です。つまり、長い間悩まされてきたが、解決するために十分な人材を雇うことができない問題や、明確な目標があるがそこに到達する明確な方法がない問題です。
もちろん、あらゆるタイプの組織がさまざまな方法で機械学習の力を活用できます。アクセンチュアの調査によると、企業幹部の42%が、2021年までに自社のあらゆるイノベーションプロジェクトに人工知能が導入されると予想していると答えています。しかし、機械学習の潜在能力を真に実現し、それを使用してこれまで不可能だった目標を達成するには、次の誤解を払拭する必要があります。 誤解1: 機械学習は人工知能である 機械学習と人工知能は同義語として使われることが多いですが、より具体的には、機械学習は研究室から現実世界にうまく導入された技術であり、人工知能はコンピュータービジョン、ロボット工学、自然言語処理など機械学習を含まない領域も含む広範な分野です。実際、人工知能とは、機械に知能を与えるためのあらゆる手段であると理解できます。また、どちらも一般の人々が恐れる「自律的な意識を持つ人工知能」や、人間と競合したり、さらには攻撃したりするような製品を生み出すことはないことも強調しておくべきだろう。 使用する具体的な単語に注意し、できるだけ正確にしてください。機械学習は、大規模なデータセットからパターンを学習し、予測を行うことに関係しています。その結果は「インテリジェント」であるように見えるかもしれませんが、その本質は、前例のない処理速度と統計データの膨大な使用に依存しています。 誤解2: すべてのデータは有用である 機械学習ソリューションにはデータが必要ですが、すべてのデータが機械学習に使用できるわけではありません。システムをトレーニングするには、機械学習システムが処理する必要がある種類のパターンと結果をカバーする代表的なデータが必要です。作成する機械学習モデルは、これらの過度に具体的なパターンを直接反映し、提供されたデータで繰り返し検証するため、無関係なパターン(写真に写っている男性は全員立っていて、女性は全員座っている、または車はすべてガレージにあり、自転車はすべて屋外にあるなど)を含まないデータが必要です。トレーニングに使用されるすべてのデータはラベル付けされ、機械学習システムに回答させたい質問と照合される必要があります。これには間違いなく大量の処理作業が必要になります。 つまり、お持ちのデータがすでに非常に明確で、曖昧さがなく、代表的で、ラベル付けが容易であると想定しないでください。これは本当に大規模で手間のかかるプロジェクトです。 誤解3: 常に大量のデータが必要である 近年、画像認識、機械読解、言語翻訳、その他の重要な分野で一連の重要な進歩がありましたが、これは主に、大量のデータを並列処理できる GPU などのコンピューティング ハードウェアや、ImageNet やスタンフォード質問回答データセットなどのラベル付きデータの大規模なコレクションなど、より強力なツールを利用できるようになったことによるものです。しかし、転移学習技術も急速に登場しています。この技術を使用すると、大量のデータを必要とせずに特定のドメインで良好な結果を得ることができます。大規模なデータセットから学習し、それを独自の小規模なトレーニング データセットに転送する方法を機械学習システムに教えることができます。 Salesforce と Microsoft Azure が提供する Custom Vision API はまさにこの仕組みで、優れたコンテンツ分類機能を得るには 30 ~ 50 枚の画像だけが必要です。 転移学習は、比較的少量のデータを使用して、解決する必要のある問題に応じて事前トレーニング済みのシステムをカスタマイズするのに役立ちます。 誤解4: 誰でも機械学習システムを構築できる 市場には機械学習用のオープンソースツールやフレームワークが多数存在し、インターネット上にはそれらの使い方を説明するコースが無数に存在します。しかし、機械学習は依然として高度に専門化された技術であり、トレーニングとテストのためにデータを準備して分類する方法、最適なアルゴリズムと使用するヒューリスティックを選択する方法、そしてそれを信頼性の高い生産システムに変える方法についても考える必要があります。さらに、結果が長期にわたって持続することを確認するためにシステムを監視する必要があります。結局のところ、市場の変化であろうと顧客グループの変換であろうと、機械学習システムが直面する問題は急速に変化しているため、関連するモデルを継続的に追跡して、それが現在の問題にまだ適用可能かどうかを判断する必要があります。 機械学習に適切な処理能力を得るには経験が必要です。始めたばかりの場合は、API を使用して事前トレーニング済みのモデルにアクセスするか、データ サイエンティストまたは機械学習の専門家を雇ってカスタム システムを構築してください。 誤解5: データ内のパターンはすべて有用である 肺炎の生存率は、喘息、胸痛、心臓病を患っている人、および100歳以上の人では予想よりもはるかに高かった。実際、単純な機械学習システム(ニューラル ネットワークの形式でデータに基づいてトレーニングされたルールベースのシステムの一種)では、この結論に達することがよくあります。残念ながら、このグループの人々にとって肺炎はしばしば非常に致命的であり、そのため優先度が高く迅速に治療されるため、彼らの生存率は高くなります。 システムはデータ内の有効なパターンを検出できますが、実際のアプリケーション シナリオによっては、これらのパターンが必ずしも実用的な意味を持つとは限りません。さらに恐ろしいのは、これらのパターンの特定の判断メカニズムを認識していないと、データセット内に存在する役に立たないアンチパターンを発見できない可能性があることです。 あるいは、システムは実際には機能するが、その理由を明確に説明できないために実際には使用できないパターンを学習する可能性がある。例えば、自撮り写真を撮る人の性的指向を正確に予測できるが、具体的な理由を説明できない、物議を醸している顔認識システムなどである。 この「ブラック ボックス」モデルは非常に効率的ですが、どのようなパターンを学習したかを表現することはできません。したがって、理解しやすい一般的な加法モデルなどの透明なアルゴリズムは、自己表現に適していることが多く、ユーザーがどの展開シナリオに適しているかを判断するのに役立ちます。 誤解6: 強化学習は準備ができている 現在使用されているほぼすべての機械学習システムは、教師あり学習手法を使用しており、ほとんどの場合、人間が準備した明確にラベル付けされたデータセットでトレーニングされています。これらのデータセットを準備するには多くの時間と労力が必要であるため、現在、教師なし学習、特に強化学習 (RL) に大きな関心が集まっています。強化学習では、試行錯誤や環境とのやり取りを通じて、正しい動作に対してモデルに報酬が与えられます。 DeepMind 社の AlphaGo システムは、強化学習と教師あり学習を組み合わせて使用し、世界トップの囲碁プレイヤーを打ち負かしました。一方、カーネギーメロン大学が構築した Libratus システムは、強化学習と他の 2 つの人工知能技術を使用して、世界最強のテキサスホールデム (複雑な賭け戦略で知られるポーカーゲーム) プレイヤーを簡単に打ち負かしました。研究者たちは、ロボット工学から安全なソフトウェアテストまで、さまざまな実用的なタスクに強化学習を活用しようとしています。 しかし、研究以外では、強化学習の応用は比較的まれです。 Google DeepMind は強化学習を使用してデータセンターの電力消費を削減し、インフラストラクチャの電気コストを節約しています。Microsoft は、強化学習の特別なバージョンであるコンテキスト バンディットを MSN.com で使用して、訪問者によりパーソナライズされたニュースの推奨を提供しています。しかし、実際の環境では報酬や即時のフィードバックを迅速に提供することが難しいという問題があり、強化学習が実際に実践されるまでにはまだまだ長い道のりがあると言えます。 誤解7: 機械学習は偏りがない 機械学習はデータからパターンを学習するため、データセット内の偏りも直接継承します。白人男性が CEO になる可能性が高いため、CEO は白人男性と関連付けられる可能性があります。さらに恐ろしいのは、機械学習がそのような偏った結論を増幅してしまうことが多いことです。 画像認識システムのトレーニングによく使用される COCO データセットには、男性と女性の写真が多数含まれていますが、写真ではキッチンにいる女性の方が多く、コンピューターのキーボードとマウス、テニスラケットとスキーがあるシーンでは男性の方が多くなっています。システムが COCO でトレーニングされると、男性の方がコンピューター ハードウェアを使用する可能性が高いと判断されますが、これは元の写真の統計とは矛盾しています。 さらに、ある機械学習システムが別の機械学習システムにバイアスを導入する可能性があります。語彙表現のために機械学習システムをトレーニングする場合、現在の主流のフレームワークでは語彙を関係性を表現するベクトルとして使用します。こうした研究では、結論に「コンピュータープログラマーは男性である傾向があり、家事は女性である傾向がある。医師は男性である傾向があり、看護師は女性である傾向がある。上司は男性である傾向があり、事務員は女性である傾向がある」といった固定観念が含まれることが多い。 機械学習におけるバイアスの問題を理解することが重要です。トレーニング データセットのバイアスを完全に排除できない場合は、正規化などの手法を使用して語彙の性別の関連性を処理し、バイアスを軽減するか、無関係な項目が提案に追加されないようにする必要があります。 誤解8: 機械学習は善意のみに基づいている 機械学習はウイルス対策ツールに強力な機能を提供し、新しい攻撃動作をできるだけ早く検出するのに役立ちます。しかし同時に、ハッカーは機械学習を利用して、ウイルス対策ツールの防御システムをどのように克服するかを研究し、大量の公開データを分析したり、過去に成功したフィッシング攻撃を分析したりして、その後の攻撃活動の設計アイデアを導いています。 神話9: 機械学習が人間に取って代わる 人工知能が私たちの仕事を奪ってしまうのではないかと心配する人は多い。はい、効率性が向上し、コンプライアンス コストが削減されると同時に、私たちの業務内容と方法が変わります。実際、長期的には、会社内に新しい機能的役割が生まれ、既存の役職の一部が廃止されることになります。しかし、機械学習の主な価値は、ソーシャル メディアに投稿されたすべての写真を調べて、特定のブランド機能が含まれているかどうかを分析するなど、複雑さや規模の制限によりこれまで自動化や手動では不可能だったタスクを完了することにあります。 一方、機械学習は、予知保全による顧客体験の向上や、ビジネス上の意思決定者へのアドバイスやサポートの提供など、より多くの新たなビジネスチャンスをもたらします。したがって、以前の世代の自動化革命と同様に、機械学習は、従業員に専門知識と創造性を活用する自由を提供する可能性をさらに高めます。 オリジナルリンク: https://www.cio.com/article/3263776/artificial-intelligence/machine-learning-myths.html [51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください] |
>>: TensorFlow 学習ニューラルネットワーク構築
[[230651]]ビッグデータ概要編纂者:Fu Yiyang、Jingzhe、Zhang Nan...
感情 AI、つまり感情コンピューティングは、AI の次の大きなトレンドになる可能性があります。企業は...
[[399124]] PyTorch は、動的ニューラル ネットワーク (if ステートメントや ...
[51CTO.com からのオリジナル記事] オブジェクト指向の時代では、すべてがオブジェクトである...
[[358096]]市場の状況がますます複雑化する今日の不安定なビジネス環境では、組織が分析に基づく...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
近年、スマートカーの継続的な発展に伴い、LIDARはますます注目を集めており、特にテスラと他の自動車...
ピクセルベースの RL アルゴリズムが復活しました。BAIR は対照学習と RL を組み合わせたアル...