彼女に転送してください!文系女子でもわかるAIガイドライン

マッキンゼーのデータによれば、人工知能は今後10年間で米国に約13兆ドルの新たなGDPを生み出すだろう。比較すると、2017年の米国全体のGDPは約19兆ドルでした。

アンドリュー・ン氏のような一流の AI 科学者は、AI を第 4 次産業革命、あるいは「新しい電気」と表現しています。人工知能は間違いなくデジタル変革の中核であり、業界全体への応用は世界とビジネスのやり方を大きく変えるでしょう。

多くの人がこの AI 革命に参加したいと考えていますが、AI の技術的な複雑さに圧倒されています。 AI で何ができるのかすらわかっていないし、それを自社にどのように適用すればよいのかもわかっていません。

この記事が解決しようとしている問題はまさにこれです。つまり、技術的な背景を持たない人にも AI を理解しやすくし、自分の仕事における AI の可能性を評価できるようにすることです。

[[269808]]

1. AIに関する誤解

AI に関しては、多くの人が抱いている一般的な誤解が原因で、不必要な誇大宣伝が数多く行われています。人工知能は、2 つの部分または 2 つのコンテンツに分けられます。

（１）弱い人工知能（ANI）

これは、AI がトレーニングされ開発された特定のタスクに優れていることを意味します。たとえば、過去のデータに基づいて住宅価格を予測する AI システムや、YouTube 動画を推奨するアルゴリズムなどが考えられます。その他の例としては、予知保全、品質管理などが挙げられます。

弱い AI は、今後数年間で社会に多大な付加価値をもたらす非常に強力なツールです。近年私たちが目にしてきた成果や、ニュースでよく耳にする成果はすべて、弱い AI の分野で起こったものです。これらの目を引くニュースにより、科学は人工知能の分野で大きな進歩を遂げたと人々は誤解しているが、実際には弱い人工知能の分野でしか進歩していない。

（２）汎用人工知能（AGI）

人工知能の究極の目標は、人間と同等かそれ以上の知能を持つコンピュータシステムです。あらゆる人工合成知能は、人間が完了できるあらゆる知的タスクを正常に完了できます。これは、人工知能において人々を最も怖がらせる部分でもあります。彼らは、コンピューターが人間よりもはるかに賢くなり、ほぼすべての仕事が自動化され、さらにはターミネーターのようなシナリオが実現する世界を想像しています。これは不必要な誇大宣伝です。それは人類の将来について不合理な恐怖を引き起こしましたが、実際には、真の汎用人工知能のレベルを達成するには、まだ多くの技術的進歩が必要です。

2. 機械学習とは何ですか?

機械学習は人工知能の基盤技術です。統計的手法を使用することで、明示的にプログラムしなくても、コンピュータプログラムがデータから学習 (特定のタスクを処理する能力を徐々に向上させるなど) できるようになります。

機械学習は、あらゆる過度の注目を集め、AI システムを通じて生み出されるほぼすべての価値を実現する AI ツールです。さまざまな部分に分割することもできますが、機械学習によって生み出される価値の 80% をカバーするのは 1 つの部分だけです。それが教師あり学習です。

教師あり学習アルゴリズムは、大量のデータの関係性を学習するだけで、入力 (A) から出力 (B) へのマッピングを学習します。電子メールをスパムと非スパムに分類するシステムを構築することを想像してください。メールに「ラベル」が付けられているケースを大量に収集する必要があります。つまり、すべての電子メールには、スパムであるかどうかを示すラベルが付けられます。何千ものラベル付き電子メールを収集し、そのデータを教師あり機械学習アルゴリズムに入力する必要があります。

トレーニングプロセス中に、アルゴリズムはすべての受信メールを分析し、スパムと非スパムを区別する理解を反復的に向上させます。この例では、システムは電子メール (a) を、メッセージがスパムであるかどうかを示すラベル (b) にマッピングする必要があります。

アルゴリズムは、何千ものラベル付き電子メールを入力することでトレーニングできます。アルゴリズムがこのデータでトレーニングされると、新しい電子メール（アルゴリズムがこれまでに見たことのない電子メール）を入力すると、アルゴリズムはその電子メールがスパムであるかどうかを示します。

一例としては、オンライン広告が挙げられます。入力はユーザーに関する情報 (A) であり、システム出力はユーザーがアドオンをクリックするかどうかを示すラベル (B) です。もう 1 つの例は音声認識です。入力はオーディオファイル (A) で、出力はオーディオファイル内のコンテンツのテキスト (B) です。

例えば、鋼板の画像（A）をアルゴリズムに入力すると、欠陥（B）があるかどうかが判定されます。一見すると、これはかなり限定的なテクニックのように思えるかもしれませんが、正しく適用すれば非常に強力なものになります。これが、AI が社会に付加価値を生み出す唯一の主な理由です。この技術の使用例は無限にあるようで、人々は毎日新しい使用例を発見しています。

3. 人工知能の用語

人工知能は非常に複雑な分野であり、多くの用語は最初は非常に混乱する可能性があります。ニューラルネットワーク、ディープラーニング、データサイエンスという言葉を聞いたことがあるかもしれません。 AI を取り巻く最も重要な用語のいくつかを見て、それらの意味をわかりやすく説明します。これにより、他の人と AI について話し合い、ビジネスにどのように適用するかを考えることができます。

ここで、最も一般的に使用される AI 用語の定義を示しますが、AI は非常に難解な分野であり、多くの用語が互換的に使用されますが、そうでない場合もあることに注意してください。

（１）人工知能

人工知能は、人間のように動作し反応するインテリジェントな機械の作成に重点を置いたコンピューターサイエンスの分野です。前述したように、AI について話すとき、ほとんどの場合、汎用人工知能 (AGI) を意味します。人工知能は知能の分野全体とみなされるべきであり、機械学習とディープラーニングはコンピューターをインテリジェントにする技術とみなされるべきです。

（２）機械学習

機械学習は人工知能のサブフィールドです。しかし、明示的にプログラムしなくてもコンピューターがデータから学習できるようにするのがこの研究分野です。つまり、機械学習を使用すると、基本的に特定のタスクを実行するプログラムを作成できます。したがって、機械学習では、基本的にはソフトウェアである人工知能システムが実行されることが多いです。

機械学習プロジェクトの例: 住宅に関する大量のデータを持つ不動産会社が、機械学習会社と協力して、将来の住宅価格を予測する機械学習システムを構築するとします。このようなシステムがあれば、どの住宅に投資するかについてより適切な判断を下し、投資を清算する適切な時期を把握できるようになります。

（３）ディープラーニング

ディープラーニングは、近年、そして現在も見られる、メディアで大々的に報道され、人工狭義知能のブレークスルーの大半を占める機械学習の構成要素であり、本質的には機械学習と同じものです。つまり、アルゴリズムにラベル付けされたデータを入力すると、アルゴリズムはラベルを予測することを学習します。機械学習とは異なり、ディープラーニングではニューラルネットワークと呼ばれるより現代的で複雑なアルゴリズムが使用されます。対照的に、機械学習ではより単純な従来のアルゴリズムが使用されます。

ディープラーニングアルゴリズムは、その複雑さ、新しい技術的発見、十分なデータサポートと計算能力により、多くのタスクで以前のベンチマークを破ることができ、一部のタスクでは人間を上回ることさえあります (例: 組織病理学画像分析、Netflix での映画の推奨)。

ニューラルネットワーク (ディープラーニングアルゴリズムなど) は、従来のアルゴリズムよりもパフォーマンスがほぼ常に優れていますが、特定の欠点もあります。

詳細については、「ニューラルネットワークの誇大宣伝の欠点」(https://towardsdatascience.com/hype-disadvantages-of-neural-networks-6af04904ba5b) をご覧ください。

ニューラルネットワークは人間の脳に似た構造になっている、または人間の脳からヒントを得て作られているとよく耳にしますが、実際には両者にはほとんど関係がありません。もともと脳からヒントを得たものであることは事実ですが、その仕組みの詳細は人間の生物学的脳の働きとはまったく関係がありません。

多くの人がディープラーニングとニューラルネットワークという用語を同じ意味で使用していることに注意してください。

ディープラーニングプロジェクトの例: 大まかに見ると、ディープラーニングプロジェクトは機械学習プロジェクトとそれほど違いはなく、より多くのデータ、より多くの計算能力、高度なスキルを持つエンジニアが必要になるだけです。

（4）データサイエンス

データサイエンスプロジェクトの出力は、多くの場合、何かに投資するかどうか、機器を購入するかどうか、Web サイトを再構築するかどうかなど、ビジネス上の意思決定を改善するのに役立つ一連の洞察になります。データサイエンスとは、統計的手法や視覚化などを通じてデータを分析し、データの知識や洞察を抽出する科学であると言えます。出力は通常、経営陣、リーダー、製品チームが特定の決定を下すための結論を要約したプレゼンテーションまたはスライドです。

データサイエンスプロジェクトの例:

あなたがオンライン広告に携わっていると想像してください。データサイエンティストは、あなたの会社の売上データを分析することで、旅行業界の企業があなたの会社の製品をあまり購入していないことを発見しました。したがって、営業チームの焦点を旅行業界の企業に移すことができます。

別の例:

あなたが電子商取引ビジネスを運営していて、ビジネス関連の洞察をさらに得るためにデータサイエンティストを雇ったと想像してください。このプロジェクトの結果として、全体の売上を増やすために価格を変更する方法に関するスライドショーや、特定の製品をより効果的に販売する方法に関する洞察が得られる可能性があります。

AI はデータサイエンスのサブセットであると言う人もいれば、その逆だと言う人もいます。したがって、誰に話すかによって異なりますが、データサイエンスは、AI、機械学習、ディープラーニングの多くの側面に関係する学際的な分野ですが、独自のツールもあります。その主な目的は、ビジネス洞察力を高めることです。

強化学習、敵対的生成ネットワーク (GAN) などの他の流行語を聞いたことがあるかもしれません。これらは AI システムをよりスマートにするための追加ツールに過ぎません。言い換えれば、機械学習はデータサイエンスでもある場合があります。

これで、人工知能、機械学習、データサイエンス、ディープラーニング（ニューラルネットワークなど）について理解できました。この記事で、AI で最もよく使われる用語について理解し、これらがビジネスにどのように当てはまるかを考え始めることができるようになったと思います。

4. データとは何ですか?

データは、スプレッドシート、画像、音声、センサーデータなど、さまざまな形式をとることができます。これらは、構造化データと非構造化データの 2 つの主なカテゴリに分けられます。

（１）構造化データ（「巨大なスプレッドシートに保存されているデータ」）

構造化データは、その名前が示すように、事前に定義されたスキーマに従って構造化された形式で保存されたデータです。これは、レコードまたはファイル内の固定フィールドに存在する、テキストまたは非テキストの任意のデータを指します。

以下は、有名なタイタニック号のデータセットからの構造化データの例です。タイタニック号の乗客全員に関する情報が含まれています。

（２）非構造化データ

非構造化データとは、基本的に、事前定義されたモデルを通じて構造化されていないすべてのデータです。非構造化データはテキスト形式の場合も非テキスト形式の場合もありますが、非構造化データという場合は主に画像、ビデオ、音声ファイル、ドキュメントなどを指します。

教師あり学習とは何かについて説明しました。教師あり学習は最も一般的に使用されるタイプの機械学習であるため、「データ」と言うときはほとんどの場合、ラベル付きデータを意味します。例: 犬と猫の写真が 100,000 枚含まれ、それぞれの写真に「猫」または「犬」というラベルが付いているデータセットを考えます。

もう 1 つの例は、住宅価格に関する情報を含むデータセットです。ここでは、家に関する情報（面積、寝室数、場所など）と価格がタグとして表示されます。

5. データを取得するにはどうすればいいですか?

多くの問題に対するデータセットはインターネット上で見つけることができます (無料のものもあれば、有料のものもあります) が、ほとんどの場合、独自のデータセットを作成する必要があります。

データを取得する主な方法は 3 つあります。

（１）手作業によるラベル付け

特定の画像に男性が含まれているか女性が含まれているかを検出できる分類器を構築することを想像してください。このような分類器を訓練するには、男性と女性の画像を多数作成または取得する必要があります。次に、各画像にラベル（男性（ラベル 1）または女性（ラベル 2））を割り当てる必要があります。ラベル付け作業を代行してくれる人にお金を払って依頼することもできます (例: Amazon Mechanical Turk: mturk.com)。

（２）観察行動

あなたが電子商取引会社を経営していて、顧客がいつ購入するかを予測し、在庫管理などを改善したいと考えていると想像してください。ユーザーが Web サイトでどのように行動し、何を購入するかを観察することで、データセットを作成できます。これにより、各ユーザーのアクション（時刻、クリックした場所などの特定の変数で説明）と、購入済み（ラベル 1）または未購入（ラベル 2）のラベルを記述するデータセットを作成できます。

もう 1 つの例としては、機械の動作を観察することで、メンテナンスが必要になる時期などを予測できるようになります。

（３）無料のデータソースを使用するか、データを購入するか、パートナーからデータを入手する

Kaggle のようなデータセットの無料リソースは数多くあります。 Google データ検索も使用できます。これは Google と同様に機能しますが、データセットのみを対象としています。何も見つからない場合は、データマーケットプレイスでデータセットを探すか、パートナーからデータセットを取得できます。

6. データの不正使用

一見、データの取得は簡単に思えますが、多くの問題が発生する可能性があります。 AI と機械学習では、「ゴミの中のゴミ」と言います。これは、トレーニング中に AI システムから AI の品質を抽出することを意味します。

特定の AI アプリケーションを作成し、データの取得を開始したいとします。あなたの計画は、2年間の実践を通じてデータを蓄積し、人工知能システムを構築することです。これは非常に悪い習慣です。この場合の正しいアプローチは、可能な限りデータを取得し、それをできるだけ早く AI の専門家が利用できるようにすることです。いくつかの評価を行った後、どの部分が役に立つか、どの部分はまったく役に立たないか、どのデータを追加する必要があるかを教えてくれます。コストと時間を節約するには、専門家と協力してデータの品質を迅速に評価します。

もう一つの大きな問題は、ラベルの貼り方が間違っていることです。例: 猫の画像は犬としてラベル付けされ、犬は猫としてラベル付けされます。これにより、アルゴリズムが猫と犬を本当に区別する何かを学習し、猫と犬を完全に混同してしまうことを防ぎます。良いニュースとしては、データが増えるほど、誤ったラベルの問題はますます重要ではなくなるということです。猫と犬のラベル付き画像が 200 万枚以上ある巨大なデータセットがある場合、ラベルがいくつか間違っていてもパフォーマンスには影響しません。

また、自社には大量のデータがあるから、そのデータは役に立つ、あるいは AI チームがそれを役に立つものにできる、と考える人がいるという問題もあります。それは完全に間違っています。一般的に、データは多ければ多いほど良いのですが、データエントリが数十億に及ぶと、世界最高の AI エンジニアであっても、価値のないものから価値を生み出すことはできません。したがって、AI チームにデータを投げて、それが何らかの価値があると想定しないでください。これは当たり前のことだと思うかもしれませんが、データと AI に関する誤解により、多くのスタートアップ企業は、実際には存在しないデータがあるにもかかわらず、有用なデータを持っていると考えています。他にも、欠損値、複数のデータタイプ（解決は可能ですが、コストが高くなります）などの問題があります。

<<: 自動運転車の実現はAIと人間のゲームである

>>: アルゴリズムの大きな進歩！ AIニューラルネットワークは量子システムをシミュレートする