機械学習のようにテクノロジーが大々的に宣伝されると、多くの誤解が生じます。ここでは、機械学習が提供できるものと提供できないものを明確に示します。 機械学習は非常に有用であることが証明されているため、あらゆる問題を解決し、あらゆる状況に適用できると簡単に想定できます。他のツールと同様に、機械学習は特定の分野で役立ちます。特に、これまで悩まされてきたが解決するために十分な人員を雇用できなかった場合や、明確な目標があるがそれを達成する方法がわからない場合に役立ちます。 それでも、あらゆる組織が何らかの形で機械学習を活用する可能性が高く、最近アクセンチュアに語ったところによると、経営幹部の 42% が 2021 年までに AI がイノベーションを支えるようになると予想しているそうです。しかし、誇大宣伝の裏側を見て、こうしたよくある誤解を避けることができれば、機械学習で何ができて何ができないのかという仕組みを理解したほうがよいでしょう。
誤解:機械学習は人工知能である 機械学習と人工知能は同義語として使われることが多いですが、機械学習は研究室から現実世界への移行に最も成功した技術であり、一方人工知能はコンピュータービジョン、ロボット工学、自然言語処理などの分野や、機械学習を伴わない制約充足などの手法を網羅する広範な分野です。機械をインテリジェントにするすべてのものと考えてください。これらは、ほとんどの人が恐れているような、人間と競合したり、人間を攻撃したりする可能性のある汎用「AI」ではありません。 これらの流行語には注意し、正確に表現してください。機械学習は、大規模なデータセットからパターンを学習し、結果を予測することです。その結果は「インテリジェント」に見えるかもしれませんが、本質的には、前例のない速度と規模で統計を適用することです。 誤解:データは役に立つ 機械学習にはデータが必要ですが、すべてのデータが機械学習に使用できるわけではありません。システムをトレーニングするには、機械学習システムが処理する必要があるパターンと結果をカバーする代表的なデータが必要です。関連性のないパターン(男性全員が立っていて女性全員が座っている写真や、車はすべてガレージにありバイクはすべて泥だらけのフィールドにある写真など)を含まないデータが必要です。作成する機械学習モデルは、これらの過度に具体的なパターンを反映し、使用するデータ内でそれらを探すためです。トレーニングに使用するすべてのデータは、機械学習システムに尋ねたい質問に一致する特徴で正しくラベル付けされ、注釈が付けられる必要があり、これは大変な作業です。 すでに持っているデータがクリーンで、明確で、代表的で、注釈を付けやすいものであると想定しないでください。 誤解:常に大量のデータが必要だ 画像認識、機械読解、言語翻訳などの分野における最近の大きな進歩は、より優れたツール、大量のデータを並列処理できる GPU などのコンピューティング ハードウェア、ImageNet やスタンフォード質問回答データセットなどの大規模なラベル付きデータセットによって実現しました。しかし、転移学習と呼ばれる技術のおかげで、特定の分野で良い結果を得るために必ずしも大量のデータが必要というわけではありません。代わりに、大規模なデータセットを使用して学習する方法を機械学習システムに教え、その学習機能を独自の小規模なトレーニング データセットに転送することができます。 Salesforce と Microsoft Azure の Custom Vision API はこのように機能します。優れた結果を得るには、分類したいものを示す 30 ~ 50 枚の画像のみが必要です。 転移学習を使用すると、比較的少ないデータを使用して、事前トレーニング済みのシステムを独自の問題に合わせてカスタマイズできます。 神話: 誰でも機械学習システムを作成できる 機械学習用のオープンソース ツールやフレームワークは数多く存在し、それらの使用方法を紹介するコースも無数にあります。しかし、機械学習は依然として専門的な技術であり、トレーニングとテストのためにデータを準備して分割する方法、最適なアルゴリズムと使用するヒューリスティックを選択する方法、そしてそれを信頼性の高い本番システムに変換する方法を知る必要があります。また、システムを監視して、結果が適切であることを確認する必要もあります。市場が変化したり、機械学習システムが非常に優れて顧客ベースが変わったりした場合でも、モデルが問題に適合していることを継続的に検証する必要があります。 機械学習を完全に理解するには経験が必要です。API を使い始めたばかりの場合は、データ サイエンスと機械学習の専門知識を取得または雇用してカスタム システムを構築しながら、API を使用してコードから呼び出すことができるモデルを事前トレーニングできます。 誤解:データ内のすべてのパターンは有用である 喘息、胸痛、心臓病のある人、および 90 歳以上の人の肺炎の生存率は、予想よりもはるかに高くなります。実際、その精度は非常に高く、入院手続きを自動化するように設計されたシンプルな機械学習システムで、患者を安全に帰宅させることができるほどです (ニューラル ネットワークと同じデータでトレーニングされたルールベースのシステムなら、これが可能)。残念なことに、彼らの生存率が非常に高い理由は、肺炎が彼らにとって非常に危険なため、常にすぐに入院させられるからです。 システムはデータ内に有効なパターンを見つけましたが、それは誰を入院させるかを選択するための有用なパターンではありませんでした (ただし、保険会社が治療費を予測するのに役立つ可能性があります)。さらに危険なのは、すでにそれらについて知っていなければ、データセットにこれらの役に立たないアンチパターンが存在することに気付かないということです。 他のケースでは、システムは効果的なパターンを学習できますが(自撮り写真から性的指向を正確に予測できる物議を醸している顔認識システムなど)、明確で明示的な説明がなければ役に立ちません(この場合、写真は生来のものではなく、ポーズなどの社会的手がかりを示しているようです)。 「ブラックボックス」モデルは効率的ですが、どのようなパターンを学習したかは明らかにされません。一般化加法モデルのような、より透明で理解しやすいアルゴリズムにより、モデルが学習した内容がより明確にわかるため、モデルが展開に適しているかどうかを判断できます。 誤解:強化学習はいつでも利用可能 現在使用されているほぼすべての機械学習システムは教師あり学習を使用しており、ほとんどの場合、人間が準備した明示的にラベル付けされたデータセットでトレーニングされています。これらのデータセットをキュレートするには時間と労力がかかるため、特にエージェントが環境と対話し、正しいアクションに対して報酬を受け取ることで試行錯誤しながら学習する強化学習 (RL) などの教師なし学習形式に多くの関心が寄せられています。 DeepMind の AlphaGo システムは、強化学習と教師あり学習を組み合わせてトップクラスの囲碁プレイヤーに勝利しました。一方、カーネギーメロン大学のチームが構築したシステム Libratus は、強化学習と他の 2 つの AI 技術を組み合わせて、ノーリミット テキサス ホールデムで世界最高のポーカー プレイヤー (長くて複雑な賭け戦略を持つ) に勝利しました。研究者たちは、ロボット工学からセキュリティソフトウェアのテストまで、あらゆるものを強化するために機械学習を利用しています。 強化学習は研究コミュニティ以外では一般的ではありません。 Google は、データ センターをより効率的に冷却して電力を節約する方法を学習するために DeepMind を使用しました。Microsoft は、コンテキスト バンディットと呼ばれる強化学習の特殊バージョンを使用して、MSN.com の訪問者向けにニュースの見出しをパーソナライズしました。問題は、現実世界の環境では簡単に発見できる報酬と即時のフィードバックが得られる環境がほとんどなく、何かが起こる前に AI が複数のアクションを実行する場合、報酬を割り当てるのが特に難しいことです。 誤解:機械学習には偏りがない 機械学習はデータから学習するため、データセット内の偏りを再現します。 CEO の画像を検索すると、白人男性の CEO の写真が表示される可能性が高くなります。これは、一般的に白人男性の CEO が多いためです。しかし、機械学習は偏見を増幅させることもわかっています。 画像認識システムのトレーニングによく使用される COCO データ セットには、男性と女性の両方の写真が含まれていますが、キッチン用品の横には女性の写真が多く、コンピューターのキーボードやマウス、テニスラケットやスキー板を持っている男性の写真の方が多いです。 COCO でシステムをトレーニングすると、元の写真の統計よりも強く男性らしさとコンピューター ハードウェアを関連付けるようになります。 ある機械学習システムが別のマシンにバイアスを加える可能性もあります。単語をベクトルとして表す一般的なフレームワークを使用して、このような機械学習システムを単語間の関係のベクトルを表すようにトレーニングすると、「男性と女性の関係は、コンピューター プログラマーと主婦の関係と同じである」、または「医師と看護師の関係は、上司と受付係の関係と同じである」などのステレオタイプを学習します。英語のような彼や彼女などの代名詞を使用する言語を、性別に中立な代名詞を使用する言語(フィンランド語やトルコ語など)に翻訳するシステムを使用すると、「彼らは医者です」は「彼は医者です」になり、「彼らは看護師です」は「彼女は看護師です」になります。 (訳者注:最後の文は少しわかりにくいですが、中国のネットスラングで生まれた新しい代名詞TAと組み合わせると理解しやすくなります。言及されている人の性別が不明なので、英語のheまたはsheに相当するheまたはsheではなくTAと表記します。一部の言語では、heまたはsheの代わりにtheyのように複数形が中性的な性別を表すために使用されます。ここではthey=TAと理解できます。この新しい中国語の単語を含めても理解しやすくなります) ショッピングサイトで同様の推奨を受けることは便利だが、デリケートな分野に関しては問題があり、フィードバックループが生じる。たとえば、反ワクチン派のFacebookグループに参加すると、Facebookの推奨エンジンは陰謀論や地球が平面であると信じるグループに焦点を当てた他のグループを提案する。 機械学習におけるバイアスの問題を理解することが重要です。トレーニング データセットのバイアスを取り除くことができない場合は、単語ペア間の性別の関連付けを正規化するなどの手法を使用してバイアスを減らすか、無関係な項目を提案に追加して「フィルター バブル」を回避します。 誤解:機械学習は良いことだけを目的としている 機械学習はウイルス対策ツールを強化し、まったく新しい攻撃の動作を観察することで、攻撃が発生したらすぐに検出できるようにします。しかし同様に、ハッカーは機械学習を使用してウイルス対策ツールの防御を研究し、大量の公開データを分析したり、以前のフィッシング攻撃の成功を分析したりして、大規模な標的型フィッシング攻撃を仕掛けています。 神話:機械学習が人間に取って代わる AI が仕事を奪ってしまうのではないかと心配する人は多いですが、AI は私たちの仕事とそのやり方を間違いなく変えるでしょう。機械学習システムは効率とコンプライアンスを向上させ、コストを削減することができます。長期的には、ビジネスに新しい役割が生まれ、現在の役職の一部が不要になるでしょう。しかし、機械学習によって自動化されるタスクの多くは、複雑さや規模の大きさのせいで、これまでは実行不可能でした。たとえば、ソーシャル メディアに投稿されたすべての写真を確認して、そこに自社のブランドが写っているかどうかを確認するために十分な数の人員を雇うことはできませんでした。 機械学習がすでに始めているのは、予測メンテナンスによる顧客体験の向上や、ビジネス上の意思決定者への推奨事項やサポートの提供など、新たなビジネスチャンスの創出です。以前の世代の自動化と同様に、機械学習により、労働者は専門知識と創造性をフルに活用できるようになります。 |
>>: RSAは過去2世紀で最も重要なアルゴリズムの1つです
[[434376]]当時、Dota 2 をプレイする OpenAI Five のトレーニングには ...
市場調査会社オムディアの最新レポートによると、北米第2位の配車プラットフォームプロバイダーであるLy...
Chen Danqi のチームは、新しい LLMコンテキスト ウィンドウ拡張メソッドをリリースしまし...
統計によると、交通事故のほぼ主な原因は運転者の過失です。そのため、自動化は長い間、セキュリティにおけ...
自動音声認識 (ASR) は、人間とコンピュータの相互作用において重要な役割を果たし、転写、翻訳、デ...
[[434467]]文字列が与えられた場合、その文字列に含まれる回文の部分文字列の数を数えることがタ...
新しい報告によると、私たちは人工知能革命の瀬戸際に立っている。この革命において、私たちが作り出すテク...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
宇宙探査は人類の最も挑戦的で刺激的な取り組みの一つです。これには、科学的知識、技術革新、そして人間の...
近年、我が国のドローン産業は急速な発展を遂げています。飛行制御、ナビゲーション、通信、センシングなど...
今日のデジタル時代では、人工知能 (AI) と機械学習 (ML) はあらゆるところに存在しています。...
人工知能(AI)は生活のあらゆる分野に浸透しています。人工知能は医療にどのようなメリットをもたらすの...