ある日、お子さんが「お父さん、機械学習って何？」と尋ねたとします。

お父さん、機械学習って何ですか？

答えるのは難しい！髪の毛が抜け始めた頭を掻いた後でも、お父さんはこの質問にまだ負けていました。お子さんに対して、このやや学術的な質問にはどのように答えますか?

最近、コンピュータサイエンスの博士号を持つダニエル・トゥンケラン氏がQuoraで次のような質問に答えました。

機械学習の分類問題から始めて、どの食べ物が美味しくて、どの食べ物がまずいかをコンピューターに学習させるのはいかがでしょうか。

[[208438]]

人間とは異なり、コンピューターには口がなく、食べ物を味わうことができません。したがって、多くの食品の例（ラベル付けされたトレーニングデータ）を使用してコンピューターに学習させる必要があります。この項目の例には、おいしい食べ物（肯定的な例）とまずい食べ物（否定的な例）が含まれます。ラベル付けされた例ごとに、コンピューターに食品の説明（特徴）を与えました。

肯定的な例には、チョコレートアイスクリーム、ピザ、イチゴなどの「おいしい」というラベルが付けられます。アンチョビ、ブロッコリー、芽キャベツなどの悪い例には「不快」というラベルが付けられます。

実際の機械学習システムでは、おそらくさらに多くのトレーニングデータが必要になりますが、概念を理解するには 3 つの肯定的な例と 3 つの否定的な例で十分です。

[[208439]]

ここで、いくつかの機能が必要です。これらのサンプルを、甘い、塩辛い、野菜の 3 つの特徴に設定してみましょう。これらはバイナリ特徴なので、各食品の各特徴には「はい」または「いいえ」の値が割り当てられます。

これらのトレーニングデータを使用して、コンピューターの役割は、これらのデータから数式 (モデル) を要約することです。そうすれば、新しい食べ物に遭遇したときに、そのモデルに基づいてその食べ物がおいしいかまずいかを判断できるようになります。

1 つのモデルはポイントシステム (線形モデル) です。それぞれの特性を持っている場合は一定のスコア（重み）が得られ、持っていない場合はスコアが得られません。次に、モデルは食品のポイントを合計して最終スコアを算出します。

モデルにはカットオフポイントがあります。スコアがカットオフポイントよりも高い場合、モデルは食べ物がおいしいと判断し、スコアがカットオフポイントよりも低い場合、それは美味しくないと判断されます。

トレーニングデータに基づいて、モデルの特徴スコアは、甘い場合は 3、塩辛い場合は 1、カリカリの場合は 1、野菜の場合は -1 に設定される可能性があります。モデルにおけるチョコレートアイスクリーム、ピザ、イチゴ、アンチョビ、カリフラワー、芽キャベツのスコアは次のとおりです。

重み付けにより、肯定的な例のスコアはすべて 2 以上、否定的な例のスコアは 1 以下になるため、カットオフポイントの選択が容易になります。

常に適切な重みとカットオフポイントを見つけるのは簡単ではありません。たとえ見つかったとしても、このトレーニングデータにのみ機能するモデルになり、新しい例を使用するとモデルがうまく機能しなくなる可能性があります (過剰適合)。

理想的なモデルは、トレーニングデータ内で正確であるだけでなく、新しい例でも効果的です (一般化)。一般的に、単純なモデルは複雑なモデルよりも一般化が容易です (オッカムの剃刀)。

線形モデルを使用する必要はなく、決定木を構築するのも良いアイデアです。意思決定ツリーでは、「はい」または「いいえ」で答えられる質問のみを行うことができます。

トレーニングデータを使用して決定木に正しい答えを出させることは難しくありません。この例では、トレーニングデータは次のように使用されます。

これは野菜ですか？
もしそうなら、味は悪いです。
そうでなければ甘いですか？
もしそうなら、それは美味しいです。
そうでない場合は、カリカリですか？
もしそうなら、それは美味しいです。
そうしないと味が悪くなります。

線形モデルと同様に、過剰適合を心配し、決定木を深くしすぎないようにする必要があります。つまり、これは、トレーニングデータでは間違いを犯しても、新しいデータに対してはより適切に一般化されるモデルが最終的に作成される可能性があることを意味します。

子どもたちに機械学習の説明が理解できるといいな〜

<<: デジタル経済は新たな時代へ：インターネットが主導権を握り、ビッグデータと人工知能が注目の的

>>: 金融分野で一般的に使用されているディープラーニングモデルのインベントリ

AIアプリケーションのための実用的なフレームワークを構築するための5つのステップ

ある日、お子さんが「お父さん、機械学習って何？」と尋ねたとします。

AIアプリケーションのための実用的なフレームワークを構築するための5つのステップ

人工知能の過去、現在、未来を包括的に解説

スマートホーム技術を通じて AI が家を乗っ取る可能性はあるでしょうか?

自動運転時代の前夜、ACCクルーズテクノロジーが台頭

人工知能は優れたサイバーセキュリティツールだが、諸刃の剣でもある

コンテキストの長さを 256k に拡張すると、LongLLaMA の無限コンテキストバージョンが登場しますか?

CTR は成功と失敗の鍵です。なぜクリックスルー率はアルゴリズムエンジニアにとって悪夢となっているのでしょうか?

組織内の AI スキルを向上させる 3 つのステップ

推薦する

AIは40の言語を理解でき、15の言語で22の部門で1位を獲得しました。その背景には、中国チームの22年間の粘り強さがあります。

自動運転車におけるセンサー応用に関する重要な考慮事項

人工知能の5大セキュリティ問題への対策

科学者は、掴んだまま物体を回転させることができるユニークなロボットハンドを開発

肖像情報セキュリティには「内部と外部の共同管理」が必要

スマートシティの発展: 複数の接続デバイスと人工知能の重要な役割

大型モデルは集団的に制御不能です!南洋理工大学の新たな攻撃は主流のAIすべてに影響を与える

未来を予測しますか？ GoogleはAIモデルを使って「リアルタイム」の天気予報を実現

2021年第1四半期のロボット産業の新製品在庫

10億パラメータモデルが携帯電話に登場！飛行モードでも画像を生成するのにわずか15秒しかかかりません

Google: LLM は推論エラーを見つけることはできないが、修正することはできる

最高裁：コミュニティへの出入りの際の唯一の確認方法として顔認証を強制すべきではない

テンセントクラウドの「AIスーパーベース」特別セッションがWOTカンファレンスで発表され、技術革新がAIインフラの新たな章を導く

老黄の「ナイフスキル」が変わった！ Nvidiaの次世代RTX 50シリーズグラフィックカードの詳細がリーク、コードネームはBlackwell、AMDが王者に挑戦するにはまだ長い道のり