機械学習の概要

概要:この記事を読むと、次のことができるようになります。

さまざまな種類の機械学習の問題を識別します。
機械学習モデルとは何かを理解する。
機械学習モデルの構築と適用に関する一般的なワークフローを理解する。
一般的な機械学習アルゴリズムの長所と短所を理解します。

機械学習モデル

機械学習という用語は、その名前が機械が人間のように、あるいはそれ以上に学習することを暗示する可能性があるため、そのコンピューターサイエンスの性質を曖昧にすることがよくあります。

将来、機械が人間のように考え、学習できるようになることを期待していますが、現在の機械学習は、事前に定義されたプロセスを実行するコンピュータープログラムの域を超えていません。機械学習アルゴリズムが非機械学習アルゴリズム (信号機を制御するプログラムなど) と異なる点は、新しい入力に対して動作を適応させることができる点です。そして、人間の介入なしに起こると思われるこの適応は、機械が本当に学習しているという錯覚を人々に与えることがあります。しかし、機械学習モデルの舞台裏では、この動作の適応は、人間が書いたすべての機械命令と同じくらい厳密です。

では、機械学習モデルとは何でしょうか?

機械学習アルゴリズムは、データ内の根本的な関係性を明らかにするプロセスです。

機械学習モデルは、機械学習アルゴリズムの結果であり、与えられた入力条件下で特定の結果を出力する関数 F と見なすことができます。

機械学習モデルは、事前に定義された固定関数ではなく、履歴データから派生したものです。したがって、異なるデータが入力されると、機械学習アルゴリズムの出力が変化し、つまり機械学習モデルが変化します。

たとえば、画像認識のコンテキストでは、写真内のオブジェクトを認識するように機械学習モデルをトレーニングできます。あるケースでは、猫が写っている画像と写っていない画像を何千枚も機械学習アルゴリズムに入力して、写真に猫が写っているかどうかを判別できるモデルを作成することができます。したがって、生成されたモデルへの入力は数字の写真となり、出力は写真に猫がいるかどうかを示すブール値となります。

上記の場合、機械学習モデルは多次元のピクセル値をバイナリ値にマッピングする関数になります。 3D ピクセルを含む写真があり、各ピクセルの値が 0 から 255 までであるとします。すると、入力と出力のマッピング空間は (256×256×256)×2 となり、約 3300 万になります。現実世界でこのようなマッピング (機械学習モデル) を学習するのは難しい作業であるに違いないということは、通常の写真は数百万のピクセルを占め、各ピクセルは単一のグレーではなく 3 つの色 (RGB) で構成されていることからも明らかです。

機械学習のタスクは、広大なマッピング空間から関数を学習することです。

この場合、何百万ものピクセルと「はい/いいえ」の回答との間の基本的なマッピングを理解するプロセスが、機械学習と呼ばれています。ほとんどの場合、私たちが最終的に学ぶのは、この根本的な関係の近似値です。機械学習モデルの近似的な性質のため、機械学習モデルの結果が 100% 正確ではないことがよくあることに気付いてもがっかりするべきではありません。 2012 年にディープラーニングが広く使用されるようになる前は、最高の機械学習モデルでも ImageNet 視覚認識チャレンジで 75% の精度しか達成できませんでした。これまでのところ、機械学習モデルで 100% の精度を保証できるものはありませんが、このタスクでは人間よりも 5% 未満の誤差しか発生しないモデルもあります。

監督あり vs. 監督なし

機械学習の問題が与えられた場合、まずそれが教師あり問題か教師なし問題かを判断できます。

あらゆる機械学習の問題では、サンプルのセットで構成されるデータセットから始めます。各サンプルは属性のタプルとして表すことができます。

たとえば、Iris と呼ばれる有名な古典的なデータセットがあります。これは、Ronald A. Fisher の 1936 年の論文「分類問題における複数の測定の使用」で初めて公開されました。アイリスデータセットには、150 個のアイリスの花のサンプルの測定値が含まれています。各サンプルには、花弁と萼片の長さと幅の測定値、およびアイリスの花の種類 (Iris setosa、Iris versicolor、Iris virginica) を示す属性が含まれています。アイリスデータセットからの例をいくつか紹介します。

教師あり学習

教師あり学習タスクでは、データサンプルにはターゲット属性 yyy (いわゆるグラウンドトゥルース)が含まれます。私たちのタスクは、非ターゲット属性Xを受け入れ、ターゲット属性に近い値、つまりF(X)≈yF(X) \approx yF(X)≈yを出力する関数Fを学習することです。目標属性 yyy は、学習成果に関するベンチマークを提供するため、学習タスクをガイドする教師のような役割を果たします。したがって、このタスクは教師あり学習と呼ばれます。

アイリスデータセットでは、カテゴリ属性 (アイリスの花のカテゴリ) をターゲット属性として使用できます。ターゲット属性を持つデータは、多くの場合「ラベル付き」データと呼ばれます。上記の定義に基づくと、ラベル付きデータを使用してアヤメの花の種を予測するタスクは教師あり学習タスクであることがわかります。

教師なし学習

教師あり学習タスクとは対照的に、教師なし学習タスクにはグラウンドトゥルースがありません。人々は、事前に定義された真理値をベンチマークとして使用せずに、データから根本的なパターンやルールを学習することを期待しています。

現場の監督なしに、他に何を学ぶことができるのかと疑問に思う人もいるかもしれません。答えはイエスです。以下に、教師なし学習タスクの例をいくつか示します。

クラスタリング:データセットが与えられた場合、データセット内のサンプル間の類似性に基づいてサンプルをグループにクラスタ化できます。たとえば、サンプルとしては、顧客が購入した商品の数、顧客がショッピング Web サイトで費やした時間などの属性を持つ顧客プロファイルが考えられます。これらの属性の類似性に基づいて、顧客プロファイルをグループ化できます。クラスター化されたグループの場合、グループごとに特定の商業活動を設計することができ、顧客の誘致と維持に役立ちます。
関連付け:データセットが与えられた場合、関連付けタスクはサンプル属性間の隠れた関連付けパターンを発見することです。たとえば、サンプルは顧客のショッピングカートであり、サンプルの各属性はアイテムです。ショッピングカートを見ると、ビールを購入する顧客は通常おむつも購入していることがわかります。つまり、カート内のビールとおむつの間には強い関連性があるということです。この学習した洞察力を活用することで、スーパーマーケットは関連性の高い商品を隣接するコーナーに再配置し、どちらか一方の売上を伸ばすことができます。

半教師あり学習

データセットは大きいがラベル付けされた例が少ない状況では、教師あり学習と教師なし学習を組み合わせたアプリケーションが見つかります。このようなタスクを半教師あり学習と呼ぶことができます。

多くの場合、大量のラベル付きデータを収集するには時間とコストがかかり、手作業が必要になることがよくあります。スタンフォード大学の研究チームは、何千もの手動でラベル付けされたカテゴリーを持つ何百万もの画像を含む有名な「ImageNet」を2年半かけてキュレーションしました。つまり、一般的には、大量のデータがありますが、正確に「ラベル付け」されているのはそのうちのほんの一部だけです。たとえば、ビデオにはカテゴリやタイトルさえない場合があります。

少量のラベルのみを含むデータセットで教師あり学習と教師なし学習を組み合わせることで、データセットをより有効に活用し、個別に適用するよりも優れた結果を得ることができます。

たとえば、画像のクラスを予測したいが、画像の 10% しかラベル付けされていない場合などです。教師あり学習では、ラベル付きデータを使用してモデルをトレーニングし、そのモデルを使用してラベルなしデータを予測しますが、結局のところ、少量のデータのみで学習を完了したため、このモデルが十分に汎用的であるとは信じがたいものです。より良い戦略としては、まず画像をグループにクラスタ化し（教師なし学習）、次に各グループに教師あり学習アルゴリズムを個別に適用することです。第一段階の教師なし学習は学習の範囲を絞り込むのに役立ち、第二段階の教師あり学習はより高い精度を達成できます。

参考文献
[1] フィッシャー、RA「分類上の問題における複数の測定の使用」アニュアル・ユージェニクス、7、パートII、179-188（1936）

分類と回帰

前のセクションでは、機械学習モデルを、特定の入力を受け取り、出力を生成する関数 FFF として定義しました。通常、機械学習モデルは、出力値の種類に応じてさらに分類と回帰に分類されます。

機械学習モデルの出力がブール値などの離散値である場合、それを分類モデルと呼びます。出力が連続値である場合、それを回帰モデルと呼びます。

分類モデル

たとえば、写真に猫が写っているかどうかを判断するモデルは、出力をブール値で表すことができるため、分類モデルと見なすことができます。

より具体的には、入力はサイズが H×W の行列 M として表すことができます。ここで、H は写真の高さ (ピクセル単位)、W は写真の幅です。マトリックス内の各要素は、写真内の各ピクセルのグレースケール値、つまり色の強度を表す [0,255] 間の整数です。モデルの予想される出力は、写真に猫が写っているかどうかを示すバイナリ値 [1|0] です。要約すると、猫の写真認識モデル F は次のように表現できます。

F(M[H][W])=1|0、ただしM[i][j]∈[0,255]、0<i<H、0<j<WF(M[H][W])

機械学習の目的は、できるだけ一般的な関数を見つけ、未知のデータに対してできるだけ正しい答えを出すことです。

回帰モデル

回帰モデルの例として、不動産価格を推定するモデルを考えてみましょう。このモデルの特徴には、サイズ、不動産の種類 (家、アパートなど)、そしてもちろん場所などが含まれます。この場合、期待される出力は実数 p∈R と考えることができるので、回帰モデルになります。この例では、生データのすべてが数値ではなく、プロパティの種類などのカテゴリデータも含まれていることに注意してください。現実の世界では、これがよくあるケースです。

検討中の各プロパティについて、その特性をタプル T として表すことができます。タプル内の各要素は、その属性の 1 つを表す数値またはカテゴリ値のいずれかです。多くの場合、これらの要素は「機能」とも呼ばれます。まとめると、次のような不動産価格推定モデルを確立できます。

F(T)=p、ただしp∈R

具体的には、次のような特性を持つ物件を考えてみましょう。

面積 = 120 m^2、タイプ = 'アパート'、場所 = 'ニューヨークダウンタウン'、建設年 = 2000

上記の特徴を考慮すると、モデル F が 10,000 ドルのような値を返す場合、そのモデルはこの問題に適していない可能性が高くなります。

以下のグラフでは、不動産面積を唯一の変数とし、不動産価格を出力とする回帰モデルの例を示しています。

特徴について言えば、一部の機械学習モデル (決定木など) は非数値特徴を直接処理できますが、多くの場合、これらの非数値特徴を何らかの方法で数値特徴に変換する必要があることにも言及することが重要です。

問題の変換

現実世界の問題を簡単に定式化し、それをすぐに分類問題または回帰問題に還元できる場合があります。ただし、これら 2 つのモデルの境界が明確でない場合があり、分類問題を回帰問題に変換したり、その逆を行ったりすることがあります。

上記の不動産価格の見積もりの例では、不動産の正確な価格を予測するのは難しいと思われるかもしれません。しかし、問題を単一の価格ではなく、不動産の価格範囲を予測するものとして再定式化すると、より堅牢なモデルが得られることが期待できます。したがって、問題を回帰問題ではなく分類問題に変換する必要があります。

私たちの猫の写真認識モデルでは、分類問題から回帰問題に変換することもできます。出力としてバイナリ値を与える代わりに、[0,100%] の間の確率値を与えて写真に猫がいるかどうかを判断するモデルを定義できます。この方法により、2 つのモデル間の微妙な違いを比較し、モデルをさらに調整することが可能になります。たとえば、猫が写っている写真の場合、モデル A では確率が 1% になりますが、モデル B では同じ写真に対して確率が 49% になります。どちらのモデルも正しい答えを出していないものの、モデル B の方が真実に近いことがわかります。この場合、連続した確率値を出力として与えるロジスティック回帰と呼ばれる機械学習モデルを適用することがよくありますが、これは分類問題を解決するために使用されます。

機械学習ワークフロー<br /> 前のセクションでは、機械学習モデルの概念について説明しました。このセクションでは、機械学習モデルを構築するための一般的なワークフローについて説明します。

まず、機械学習について話すときに、データを無視することはできません。機械学習モデルにとってのデータは、ロケットエンジンにとっての燃料のようなものです。

データ中心のワークフロー

機械学習モデルを構築するためのワークフローはデータ中心です。

機械学習モデルの構築方法はデータによって決まると言っても過言ではありません。下の図は、機械学習プロジェクトに含まれる典型的なワークフローを示しています。

データから始めて、まず解決したい機械学習の問題の種類、つまり教師あり学習の問題か教師なし機械学習の問題かを決定する必要があります。データ内の属性が目的の属性、つまりターゲット属性である場合、そのデータにラベルが付けられると規定します。たとえば、写真に猫が写っているかどうかを判断するタスクでは、データのターゲット属性はブール値 [Yes|No] になります。このターゲット属性が存在する場合、データはラベル付けされており、単純な学習問題であると言えます。

教師あり機械学習アルゴリズムの場合、モデルの予想される出力（分類または回帰）に基づいて、生成されるモデルのタイプをさらに決定します。分類モデルの場合は離散値、回帰モデルの場合は連続値になります。

データから構築するモデルの種類を決定したら、特徴エンジニアリングを実行します。これは、データを目的の形式に変換するための一連のアクティビティです。以下にいくつか例を挙げます。

ほとんどすべてのケースで、データをトレーニングとテストの 2 つのセットに分割します。トレーニングデータセットはモデルのトレーニングプロセスで使用され、その後、テストデータセットは、構築したモデルが十分に汎用的で、未知のデータに適用できるかどうかをテストまたは検証するために使用されます。
元のデータセットは通常、欠損値があり不完全です。したがって、これらの欠損値を埋めるには、平均値で埋めるなど、さまざまな戦略が必要になる場合があります。
データセットには、国や性別などのカテゴリ属性が含まれることがよくあります。通常、アルゴリズムの制限により、これらのカテゴリ文字列値は数値としてエンコードする必要があります。たとえば、線形回帰アルゴリズムは、実数値のベクトルのみを入力として処理できます。

機能エンジニアリングのプロセスは一夜にして完了できるものではありません。多くの場合、ワークフローの後半で特徴エンジニアリングに繰り返し戻る必要があります。

データの準備ができたら、機械学習アルゴリズムを選択し、準備したトレーニングデータをアルゴリズムに入力し始めます。これをトレーニングプロセスと呼びます。

トレーニングプロセス後に機械学習モデルが完成したら、予約したテストデータを使用してモデルをテストする必要があります。これをテストプロセスと呼びます。

最初にトレーニングされたモデルは満足のいくものではないことがよくあります。この後、もう一度トレーニングプロセスに戻り、選択したモデルによって公開されるいくつかのパラメータを調整します。これをハイパーパラメータチューニングと呼びます。「ハイパー」を強調する理由は、調整するパラメータがモデルと対話する最も外側のインターフェースであり、最終的にはモデルの基盤となるパラメータに影響を与えるからです。たとえば、決定木モデルの場合、ハイパーパラメータの 1 つはツリーの最大の高さです。トレーニング前に手動で設定すると、決定木モデルに含まれる基本パラメータである、決定木が最終的に成長できる枝と葉の数を制限します。

ご覧のとおり、機械学習ワークフローに含まれるいくつかの段階は、データ中心の循環プロセスを形成します。

データ、データ、データ！

機械学習ワークフローの最終的な目標は、機械学習モデルを構築することです。データからモデルを取得します。したがって、モデルが達成できるパフォーマンスの上限はデータによって決まります。特定のデータセットに適合できるモデルは多数あります。私たちにできる最善のことは、データによって設定された上限に最も近いモデルを見つけることです。モデルがデータの範囲を超えて何かを学習することは期待できません。

経験則: 入力が間違っていると、出力も間違ってしまいます。

この点を説明するには、盲人と象のたとえ話を使う方が適切かもしれません。物語によれば、象に出会ったことのない一群の盲人が、象に触れることで象がどのような動物なのかを理解し、概念化しようとしたそうです。誰でも象の足、牙、尻尾など体の一部に触れることができます。それぞれが真実の一部を知ることはできるが、象の全体像を把握できる人は一人もいない。そのため、誰も象の本当の姿を本当に理解することはできませんでした。

さて、機械学習のタスクに戻ると、取得するトレーニングデータは象の脚や牙の画像である可能性がありますが、テスト中に取得するテストデータは象の全身肖像画です。予想どおり、より現実的で高品質なトレーニングデータがないため、この場合、トレーニング済みのモデルのパフォーマンスは低下します。

このデータがそれほど重要なら、象の体の特定の部分のスナップショットではなく、象の全身ポートレートなどの「高品質」データをアルゴリズムに入力すればいいのでは、と疑問に思う人もいるかもしれません。これは、問題に直面したとき、私たちも機械も「盲人」のような状態になるためです。技術的な問題（データのプライバシーなど）のためか、単に問題を正しく認識していないためか、問題の本質的な特徴を描写できるデータを収集することが難しい場合が多いのです。

現実の世界では、好ましい状況下では、得られたデータは現実の一部を反映するかもしれませんが、好ましくない状況下では、判断を妨げるノイズとなる可能性があります。最悪の場合、現実と矛盾する可能性もあります。機械学習アルゴリズムに関係なく、ノイズが多すぎるデータや現実と一致しないデータからは人間は何も学習できません。

アンダーフィットとオーバーフィット

分類や回帰などの教師あり学習アルゴリズムの場合、生成されたモデルがデータにうまく適合しないケースが通常 2 つあります。それは、アンダーフィットとオーバーフィットです。

教師あり学習アルゴリズムの重要な指標は一般化です。これは、トレーニングデータから派生したモデルが、未知のデータの望ましい特性をどの程度予測できるかを測定します。モデルが適合不足または適合過剰であると言う場合、それはモデルが未知のデータに対して適切に一般化されないことを意味します。

トレーニングデータに適合するモデルは、必ずしも未知のデータに適切に一般化されることを意味するわけではありません。これにはいくつかの理由があります: 1) トレーニングデータは現実世界から収集した単なるサンプルであり、現実の一部のみを表します。これは、トレーニングデータがまったく代表的ではないため、モデルがトレーニングデータに完全に適合しても、目に見えないデータにはうまく適合しない可能性があるためです。 2) 収集したデータには必然的にノイズやエラーが含まれます。モデルがデータに完全に適合したとしても、不要なノイズやエラーを誤って捕捉し、最終的には見えないデータに対する偏った不正確な予測につながる可能性があります。

アンダーフィッティングとオーバーフィッティングの定義に入る前に、分類タスクにおけるアンダーフィッティングとオーバーフィッティングのモデルの実際の例をいくつか示します。

アンダーフィッティング

アンダーフィットモデルとは、トレーニングデータにうまく適合しないモデル、つまり真の値から大きく逸脱したモデルです。

適合不足の理由の 1 つは、モデルがデータに対して単純すぎるために、データ内の隠れた関係性を捉えられないことが考えられます。上図**(1)**からわかるように、サンプルを分離するプロセス（分類）において、単純な線形モデル（直線）では、異なるカテゴリのサンプル間の境界を明確に描くことができず、重大な分類エラーが発生します。

上記のアンダーフィッティングの理由を回避するには、トレーニングデータセットからより複雑なモデルを生成できる代替アルゴリズムを選択する必要があります。

過剰適合 オーバーフィットモデルとは、トレーニングデータによく適合するモデル (つまり、エラーがほとんどないかまったくないモデル) ですが、未知のデータにはうまく一般化されません。

アンダーフィッティングとは対照的に、オーバーフィッティングは多くの場合、あらゆるデータに適合できる過度に複雑なモデルですが、ノイズやエラーの罠に陥る可能性があります。上記の図**(3)**から、モデルはトレーニングデータでは分類エラーが少ないものの、未知のデータでは間違いを起こす可能性が高いことがわかります。

アンダーフィッティングの場合と同様に、オーバーフィッティングを回避するには、トレーニングデータセットからより単純なモデルを生成する別のアルゴリズムを試すことができます。または、より一般的には、オーバーフィットモデルを生成した元のアルゴリズムが使用されますが、過度に複雑なモデルの追加処理である正規化項がアルゴリズムに追加され、それによってアルゴリズムはデータを適合させながらより複雑でないモデルを生成するように誘導されます。

なぜ機械学習なのか?

前の章を読んだ後は、機械学習 (ML) アルゴリズムが何であるかを大まかに理解でき、プロジェクトで ML を適用する方法について簡単に理解できるはずです。

さて、この章では、「なぜ ML アルゴリズムが必要なのか」という質問について考えてみましょう。

まず、現在（2018 年）、ML アルゴリズムは確かに私たちの生活の多くの側面で必要であることを認識する必要があります。注目すべきは、それがインターネットサービス (ソーシャルネットワーク、検索エンジンなど) に遍在し、私たちがこれらのツールを毎日使用していることです。実際、Facebook の最近の論文が明らかにしているように、ML アルゴリズムは非常に重要になり、Facebook は ML アルゴリズムの適用要件をより適切に満たすために、データセンターをハードウェアからソフトウェアへと再設計し始めました。

「Facebook では、機械学習がユーザーエクスペリエンスのほぼすべての側面を推進する重要な機能を提供しています。機械学習は当社のほぼすべてのサービスで使用されています。」

Facebook での ML の使用方法の例をいくつか紹介します。

ニュースフィード内のイベントのランキングは ML を通じて行われます。
広告を表示する時間、場所、ターゲットオーディエンスは ML によって決定されます。
さまざまな検索エンジン（写真、ビデオ、人物など）は ML によって強化されています。

ML が適用される他の多くのシナリオは、現在使用しているサービス (Google 検索エンジン、Amazon 電子商取引プラットフォームなど) で簡単に識別できます。 ML アルゴリズムの普及は現代生活の標準となり、少なくとも現時点では、そして近い将来においてはその存在を正当化しています。

なぜ機械学習なのか?

ML アルゴリズムが存在するのは、非 ML アルゴリズムでは解決できない問題を解決できるためであり、また、非 ML アルゴリズムにはない利点も提供するためです。

ML アルゴリズムを非 ML アルゴリズムと区別する最も重要な機能の 1 つは、モデルをデータから分離することで、ML アルゴリズムが異なるビジネスシナリオや、同じビジネスケースであっても異なるコンテキストに適応できることです。たとえば、分類アルゴリズムを適用して、写真に人間の顔が写っているかどうかを判断できます。ユーザーが広告をクリックするかどうかを予測するためにも使用できます。顔検出の場合、同じ分類アルゴリズムを使用して、写真に顔が写っているかどうかを判断するモデルと、写真に写っている人物を確認する別のモデルをトレーニングできます。

モデルをデータから分離することで、ML アルゴリズムは、より柔軟で汎用的かつ自律的な方法で、つまりより人間に近い方法で多くの問題を解決できます。 ML アルゴリズムは、環境 (データ) から知識を学習し、それに応じて動作 (モデル) を調整して特定の問題を解決できるようです。 ML アルゴリズムでルール (つまり、モデル) を明示的にエンコードすることなく、教師ありまたは教師なしの方法でデータからルール/パターンを学習できるメタアルゴリズムを構築します。

機械学習は本当に万能なのでしょうか?

人々がさまざまな機械学習 (ML) アルゴリズムについて学び始め、画像認識や言語翻訳などの難しいタスクを処理する上での汎用性に気付くと、実際に適切かどうかに関わらず、直面するあらゆる問題に ML を適用することに夢中になる可能性があります。通常、工具キットにハンマーが入っている場合、問題は釘であると想定されます。

したがって、このセクションでは、一見否定的な点のいくつかを強調したいと思います。他のソリューションと同様に、 ML は万能薬ではありません。

人間と同様に、ML モデルも間違いを犯します。

たとえば、Facebook では写真の顔をタグ付けできないことがあることに気づくかもしれません。残念ながら、現在の最先端の ML アルゴリズムは 100% 正確ではないことが多いと認識されているようです。画像認識など、人間にとっても非常に難しい問題に取り組むため、ML アルゴリズムを擁護する人もいます。しかし、これは、機械は間違いをしない、あるいは少なくとも人間よりも間違いは少ないという過去の一般的な認識とは対照的です。かつては（2012 年以前）、75% の精度を持つモデルで ImageNet チャレンジに勝利したと簡単に主張できた時代がありました。注目すべき点の 1 つは、このチャレンジが画像認識のオリンピックと見なされることが多いことです。したがって、ImageNet チャレンジの結果はこの分野の最先端と見なすことができますが、現時点では (2018 年)、まだ 100% の精度を達成できるモデルはありません。一般的に、約 80% の精度を達成できる ML モデルは、優れたパフォーマンスを備えていると見なされます。したがって、アルゴリズムの精度が重要な状況では、ML アルゴリズムを採用するかどうかの決定を慎重に検討する必要があります。

ML によって発生した間違いをケースバイケースで修正するのは困難です (不可能ではないにしても)。

ML モデルが犯したすべての間違いをソフトウェアのバグと見なすと、間違いを 1 つずつ修正して、精度を段階的に向上させることはできないのかと疑問に思う人もいるかもしれません。答えはノーです。これには 2 つの理由があります: 1) 一般的に言えば、ML モデルを明示的に操作することはできず、代わりに与えられたデータと ML アルゴリズムを組み合わせてモデルを共同で生成します。モデルを改善するには、モデルを直接変更するのではなく、アルゴリズムを改善するか、データ品質を改善します。 2) 生成された ML モデルを後で操作できたとしても、改善の影響を視覚的に確認できないため、一部の「間違った」ケースでは、他の正しいケースに影響を与えずに ML モデルの出力を変更する方法が新たな問題になります。たとえば、決定木モデルの場合、モデルの出力は、ルートからリーフまでのパスに沿って各ノードでの分岐条件の結合になります。エラーの場合の決定を変更するには、ノード内のいくつかの分岐条件を変更します。ただし、この変更は、変更されたノードを通過するすべてのケースの出力にも影響します。要約すると、ML モデルによって発生したエラーをソフトウェアのバグと単純に同一視することはできません。モデルを改善するには、ケースごとに調整するのではなく、全体的なアプローチが必要です。

一部の ML モデルでは、推論を実行することが不可能ではないにしても困難です。

今では、ML モデルにはエラーがあり、ケースごとに修正することが難しいことが分かっています。おそらく、それほど悪いことではないでしょう。少なくとも、決定木モデルのように、なぜ間違ったのかを説明できるからです。ただし、場合によっては、特にニューラルネットワークを使用した ML モデルの場合、これらのモデルで実際に推論を実行することはできません。つまり、モデルを解釈してモデル内の主要なパラメーターを特定することが困難です。たとえば、ResNet と呼ばれる最先端のニューラルネットワークモデルがあり、ImageNet Challenge で最大 96.43% の精度を達成しました。 ResNet-50 モデルは 50 層のニューロンで構成され、2,560 万個のパラメータが含まれています。各パラメータはモデルの最終出力に影響します。出力が正しいかどうかは、モデルの背後にある何百万ものパラメータが連携して動作した結果です。各パラメータに個別にロジックを割り当てることは困難です。したがって、モデルの解釈可能性が重要なシナリオでは、ニューラルネットワークベースの ML モデルを適用するかどうかの決定を慎重に検討する必要があります。

つまり、まとめると、ML は万能薬ではありません。100% の精度が得られないことが多く、ケースごとに ML モデルを修正することはできず、場合によっては ML モデルで推論を実行することすらできないからです。

さらに読む

[1] ResNet: 画像認識のための深層残差学習 He et al. CVPR 2016 ラスベガス、ネバダ州、米国。
[2] LIME: あらゆる分類器の予測を説明する Ribeiro et al. KDD 2016 サンフランシスコ、カリフォルニア州、米国。

<<: 2021年に注目すべき5つのAIトレンド

>>: これにより、あなたの写真は顔認識アルゴリズムを「ブロック」することができます

機械学習の概要

検査業界は大きな変革期を迎えており、人工知能が次世代の検査をリードしている。

清華大学は顔認識技術に脆弱性を発見、セキュリティ問題を真剣に受け止める必要がある

質問応答をより自然にする - コピーと検索メカニズムに基づく自然な回答生成システムの研究

Stability AI、GPUなしでローカルで実行できるStable Code 3Bモデルをリリース

AIは期待に応えられていない？これらの人為的ミスが発生した可能性がある

なぜ機械学習モデルの90%が実稼働に至らないのか

人工知能はどのようにして「IQ検出器」になったのでしょうか?

インテル、コード名「NLP Architect」の自然言語処理用オープンソースライブラリを発表

APOS A5は従業員の健康情報登録管理をインテリジェントに強化します

Googleが最新のゼロショット学習画像発話モデルをリリース、ユーザーは複数の種類のタスクを直接使用できるようになる

推薦する

HipHop アルゴリズム: マイクロブログの相互作用関係を使用してソーシャルサークルをマイニングする

ChatGPTはついにウェブを検索できるようになり、コンテンツは2021年9月以前のものに限定されなくなりました

今後 3 ～ 5 年で、機械学習のどの分野の人材が最も不足するでしょうか?

李開復：「AI+」から「+AI」へ、テクノロジーが中国経済を変革

人工知能が金融市場をどう変えるのか

Python のデータクロール、分析、マイニング、機械学習、Python 分散コンピューティングに関するコンテンツ共有

このような秩序だったニューロンは、皆さんがよくご存知の再帰型ニューラルネットワークに似ていますか?

ガートナーの2020年人工知能技術ハイプサイクルを通して新たな変化を見る

「車輪の再発明」を拒否し、EasyDL で AI カスタム開発を体験できます