人工知能を始めるときに尋ねるべき10の質問

人工知能を始めるときに尋ねるべき10の質問

人工知能 (AI) と機械学習 (ML) のテクノロジーは、世界中のほぼすべての業界に革命をもたらしています。AI テクノロジーはロボット工学や自動車の自動化に使用されているだけでなく、金融サービス、小売、製造、医療、ライフサイエンスなどの業界の組織も、AI と ML によって生成された洞察を活用してビジネスを前進させています。

[[380759]]

多くのデジタルリーダーも、次のような新興テクノロジーに注目しています。

  • IDG の 2019 年デジタル ビジネス調査によると、大規模組織はデジタル イニシアチブに平均 1,530 万ドルを費やす予定であり、そのリストのトップは人工知能 (AI) と機械学習 (ML) です。
  • テクノロジーに対する熱意にもかかわらず、人工知能 (AI) および機械学習 (ML) プロジェクトの失敗率は一貫して 50% から 85% の範囲にあります。

こうした失敗の理由としては、事前に計画を立てていなかったこと、経営陣やビジネスリーダーからの賛同が得られなかったこと、プロジェクトを実行する適切なチームが見つからなかったことなどが挙げられます。適切な戦略なしに最新のテクノロジートレンドを追いかけると、組織は失敗への道を歩むことになる場合が多くあります。

幸いなことに、多くの組織はこれらの失敗から学び、次の人工知能 (AI) または機械学習 (ML) プロジェクトをより適切に計画できるようになりました。新しい AI プロジェクトを開始するときに AI チームが自問すべき 10 の質問を以下に示します。

1. 目標を明確に定義し、適切な質問を特定しましたか?

驚くべきことに、多くの組織は AI プロジェクトで何を達成したいのか明確なビジョンを持っていません。さらに、彼らは目標を達成するために必要な手順を適切に理解していません。

「多くの企業が『AIがゲームチェンジャーであることはわかっているので、AIを使って何ができるか見てみましょう』という方向に向かっています」とWekaIOのCTO、シモン・ベン・デイビッド氏は語る。

WekaIO は、AI の導入に乗り出す企業などのストレージ問題を解決するために、並列ファイルシステムを提供します。

探検家が目的地に到着する準備をするのと同じように、組織のプロジェクト リーダーは最終目標を特定し、旅の各ステップで従うべき具体的な方向を示す地図を提供する必要があります。 AI プロジェクトでは、具体的な成果を特定し、質問や回答を通じて方向性を示し、目標を達成して望ましい結果を達成する必要があります。

ここで重要なのは、これらの質問をして答える能力を持つ優れた AI チームを構築することです。チーム メンバーには、ソフトウェア エンジニア、ビジネス リーダー、各分野の専門家、さらには顧客が含まれる場合があります。

たとえば、金融機関の最終目標が利益率を高めて収益を増やすことだとします。最初に尋ねるべき質問の 1 つは、「AI をどのように活用すればこれを実現できるか」です。解決策の 1 つは、AI を使用してローンの不履行率を下げ、投資収益率を向上させることを検討することです。

では、債務不履行のリスクが最も高い顧客を特定するために適切な質問をできるのは誰でしょうか? この場合、この金融機関のチーム メンバーと個々の顧客が、データのソースである顧客に最も近い存在であるため、質問をしてデータを収集するのに最適な人物です。組織のチームは、顧客が直面している問題を理解し、頻繁に顧客とやり取りして、ローンの状態を危険にさらし、時には債務不履行につながる支払い遅延の理由を聞く必要があります。

優良顧客に対しては、金融機関は金利引き下げなどのインセンティブを提供することができます。金融機関は、高リスクの顧客に対して、支払いが順調に進んでいるか、高リスクのカテゴリから除外されているかを確認するためのプログラムや監視手段を提供できます。

組織が最終目標を達成するために尋ねる質問は、収集されるデータが増えるにつれて変化し、進化する可能性があることを覚えておくことが重要です。正しい目標が選択された場合、その目標は一定のままであるはずですが、組織が問題や障害に遭遇すると、目標を達成するための手順が変わる可能性があります。適切な目標がまだ特定されていない場合は、質問することで組織にそれが明確になり、組織が正しい方向に進むことができるようになります。

「質問し続ける必要があります」とベン・デイビッド氏は言います。「これらの質問はプロジェクトが進むにつれて変化する可能性が高いですが、最初にそれらに対する最初の回答を用意しておく必要があります。」

2. 目標を達成したり問題を解決したりするにはどのようなデータが必要ですか?

AI プロジェクト チームが AI で達成できる目標や AI で解決できる特定の問題を特定した後、組織チームは引き続き質問を行い、目標を達成したり特定の問題を解決したりするために必要なデータや変数を特定します。

この金融機関の場合、高リスクカテゴリーのローン顧客を特定した後、チームは目標に向けた第一歩を踏み出したに過ぎませんでした。目標は、債務不履行のリスクが高い顧客を特定することだけでなく、債務不履行を防止して利益率を高めることでもあることを覚えておくことが重要です。

研究チームは次のステップに進むために、さらに質問を投げかけました。高リスク カテゴリーに属するすべての顧客が、ローンの支払いができなくなる同じ状況に直面しているのでしょうか。そうでない場合、チームは期限内に支払いを行うためにさまざまな形の支援を必要とする顧客をどのように特定し、分類するのでしょうか。これらの顧客を支援し、債務不履行を防ぐために利用できる救済策は何でしょうか。

ここでデータが実際に役に立ちます。金融機関には、顧客の名前、個人情報、銀行情報、ソーシャルメディアの投稿、画像、ビデオ、その他の質問に答えるために使用できる記録があります。データは大量にあるものの、すべてが必要になるわけではないかもしれません。一方、一部の情報が失われる可能性もあります。実際、ほとんどの組織は、質問に答えるのに十分なデータがあると考え、AI プロジェクトを開始しますが、データの大部分が欠落していたり​​、持っているデータが質問に答えるのに役立たなかったりします。ベン・デイビッド氏は、自身の経験上、データを収集しすぎる企業に出会ったことはないと語った。

「銀行の記録はあっても、彼らには信用スコアがないかもしれません。彼らの経済状況を理解するのに役立つ関連ハッシュタグをソーシャルメディアに投稿していないかもしれません」とベン・デイビッド氏は言う。「データに何が含まれているかを理解することは本当に重要です。」

場合によっては、組織は独自のデータでギャップを埋める必要があります。データセットを抽出するために使用されるツールは、収集する必要があるデータの種類によって異なります。たとえば、Google アナリティクスはウェブサイト訪問者のデータと指標を提供しますが、Hubspot、Salesforce、またはその他の多くのサービスを通じて顧客または連絡先データベースを取得することもできます。

ただし、すべて保存しておくことを忘れないでください。組織が大量のデータを取得し、AI または機械学習モデルを作成するときにそれを抽出し、生のデータをアクセスされない場所に保存したり、さらに悪いことに、使用されていないデータを削除したりすることがよくあります。後で特定のモデルを再評価し、元のデータを再度使用する必要がある場合、このデータは重要になる可能性があります。

たとえば、犯罪の専門家は DNA の技術や手法を利用して、容疑者が何年、何十年も前に犯罪を犯したという事実を確認します。これらの事件では証拠を保管・保存する必要があるため、犯罪を研究している専門家は犯罪の手がかりを再分析することができます。同じ原則が AI にも当てはまります。人々は現在収集しているすべてのデータが必要だとは思わないかもしれませんが、数年後には、より優れたアルゴリズムや新しいテクノロジーの進歩により、一見役に立たないデータが非常に関連性の高い証拠 (髪の毛からの DNA サンプルなど) に変わる可能性があります。

3. データがまだ存在しない場合は、どこから取得しますか?

組織がさらに多くのデータを必要としていることに気付いた場合、次のステップは必要なデータをどこから入手するかを決定することです。組織はデータを生成しますか、それとも購入またはレンタルしますか?

たとえば、遺伝学に関わる AI プロジェクトに取り組んでいる医療会社は、公開されているゲノム データベースのデータを調べる必要がありますが、特定の AI モデルに必要なデータがないことがわかり、その場合は実験を行う必要があるかもしれません。あるいは、ラベル付けされたデータの完全なセットを見るのではなく、画像からのデータの一部だけが必要なのかもしれません。

「組織は、データをどこから入手するかを確実に把握する必要があるが、時間が経つにつれてそれが変わる可能性があることも理解する必要がある」とベン・デイビッド氏は述べた。

たとえば、農家はドローンを使って畑の写真を多数撮影し、センサーを使ってデータを収集して作物の成長や土壌の水分を追跡します。農家が 1 か月間データを収集したとしても、状況 (天候、作物の成長、野生生物など) は変化し続けるため、データ収集が完了することはありません。したがって、データ収集は一度限りのものではありません。 「次のデータのバッチをいつどこで取得するかを事前に計画し、多くの場合他の作業と並行して取得するための手順を踏む必要があります」とベン・デイビッド氏は語った。

4. 組織のコンピューティング戦略は何ですか?オンプレミス、クラウド、ハイブリッドのどれですか?

AI プロジェクトで発生する主な問題の 1 つは、組織の全体的なデジタル コンピューティング戦略と一致しないコンピューティング プラットフォーム上で AI プロジェクトを実行しなければならないことです。組織は、現在の計画と将来の計画を理解することで、AI チームが AI または機械学習モデルのプラットフォームに最適なアプローチ方法を適切に計画するのに役立ちます。

「戦略に合わせて可能な限り最も効率的な方法で実行したいのであれば、複数の GPU を備えたオンプレミス環境に多額の投資をしている可能性があり、それが組織にとって成功への最速の道となるでしょう」とベン・デイビッド氏は語った。

AI および機械学習プロジェクトは、組織の全体的な戦略と一致し、将来の変更や修正と矛盾しない限り、オンプレミス、クラウド、またはハイブリッド プラットフォームで成功することができます。クラウド コンピューティング環境で主要なビジネスを運営している中小企業では、規模の拡大に伴って運用コストが高くなる可能性があるため、オンプレミス環境に移行する方が合理的です。

5. データの移動と保存の計画は何ですか?

多くの組織では、AI モデルで処理するデータを保存および移動するための計画がないことに気づいています。世界中に事業部門が広がり、複数の場所でペタバイト単位のデータを生成する多国籍企業を想像してください。では、データは作成された場所で処理されるのでしょうか、それともペタバイト単位のデータが世界中のサイト間で何らかの方法で転送されるのでしょうか。これは、AI プロジェクトが考慮しないことがある重要な点の 1 つです。

もう 1 つの選択肢は、データをデータ センターに集中させることですが、データを転送するには、クラウド プラットフォーム経由で転送するのではなく、データを圧縮するか物理的に配送する必要があり、非常にコストがかかります。また、場所の規制により一部のデータを転送できないため、データセキュリティの確保が大きな懸念事項となります。最後に、データが AI 処理現場に到着する頃には、データが古くなっている可能性もあります。

「この質問に対する答えは組織によって異なります」とベン・デイビッド氏は言います。「しかし、プロジェクトの開始時にこの質問について考えなければ、問題に直面する可能性が高くなります。」

さらに、組織は将来の使用のためにデータを保持するための戦略を検討する必要があります。多くの場合、組織は頻繁に実験を実施してデータを生成します。この実験データは保存、保管、保護する必要があるだけでなく、必要に応じて迅速に取得できるようにする必要があります。前述のように、保持されたデータセットには、その時点では無関係に思える生データが含まれますが、AI モデルが進化し、分析機能が開発されるにつれて、後で使用される可能性があります。ベン・デイビッド氏は、組織は生データを削除したり無視したりすべきではないと強調した。

6. バイアスはどのように排除され、モデルの結果は検証されますか?

データを収集して保存したら、AI または機械学習モデルによって生成された結果を検証する方法を理解しておく必要があります。 1 つのアプローチは、既知のデータ セットを実行し、その結果を確認して、組織が期待される結果に対してより高い精度を確保できるようにすることです。

たとえば、ある組織の AI アルゴリズムが一連の写真を識別し、どの写真にリンゴの画像が含まれ、どの写真にオレンジの画像が含まれるかを判断する場合、そのモデルは正しい果物を正確に識別できるでしょうか。人間は通常、かなり簡単に答えを導き出すことができますが、データセットに数百または数千の画像が含まれている場合、AI の機能はうまく拡張できないとベン・デイビッド氏は述べています。この場合、AI の専門家は通常、シミュレーターを介して検証を実行し、AI モデルをより大規模に検証できるようになります。

さらに、結果を検証することは、AI のモデルに固有のバイアスが組み込まれているかどうかを判断する上で重要なステップです。たとえば、Amazon の履歴書審査アプリケーションでは、ソフトウェア開発者やその他の技術職の応募者を性別に関係なく評価していませんでした。これは、モデルが 10 年間に提出された履歴書のパターンに基づいて求職者を選択するようにトレーニングされており、10 年間の履歴書のほとんどが男性の求職者のものであったためです (ソフトウェア開発分野では男性が主流です)。

AI モデルを評価する際には、バイアスを検出して排除する戦略を確実に用意する必要があります。そうしないと、最終結果が歪んでしまい、プロジェクトの信頼性に影響する可能性があります。

7. モデルをどのくらいの頻度で微調整する必要がありますか?

AI と機械学習の多くはソフトウェアベースであるため、開発者は「設定して忘れる」アプローチを取ることが多く、これは AI テクノロジーにとって悲惨な結果を招く可能性があります。微調整には、モデルを定期的に変更する準備だけでなく、実践者がモデル内のさまざまな変数を変更してさまざまな結果を達成する方法を理解することも含まれます。

たとえば、一部の AI モデルは組織のデータに基づいて結果を提供しますが、その結果に至った経緯も説明します。ただし、一部のモデルは単に結果を出して、その理由の解明をデータ サイエンティストに任せてしまうため、多くのデータ サイエンティストが「説明可能な AI」と呼ぶものになります。ベン・デイビッド氏は、あらゆる AI プロジェクトは常に進行中の作業であり、決定に十分な理由を提供できるモデルを作成して実行することが、モデルへの信頼を構築する上で重要なステップであると述べました。

組織は「不良データ」による結果を発見することがよくあります。不良データとは、「クリーンアップ」されていないデータであり、欠落したフィールド、重複、または日付ではなくテキストとして記述された日付など、正しくフォーマットされていないデータ型が含まれています。

しかし、顔認識に見られる問題や、Amazon の履歴書スキャン アプリに見られる性別による偏りのように、データが具体的すぎたり偏っていたりする場合は、クリーンなデータであっても不良データとみなされる可能性があります。データは最初は良さそうに見えますが、アルゴリズムが女性求職者の履歴書を審査し続けると、過去のデータには女性応募者の履歴書がほとんどないという事実がモデルで考慮されていないため、結果は悪くなります。数学的アルゴリズムのこのエラーは、実際にはデータセットのエラーを示しています。つまり、履歴データが十分に広範囲ではないということです。

データの良し悪しを判断する最善の方法は、まずデータがクリーンであることを確認してから、データの範囲が偏りのない結果を生成するのに十分かどうかを確認することです。

8. 新しいモデルを展開するにはどうすればいいですか?

定期的に微調整されるモデルでは、組織は、元の質問により適切に回答できる新しい AI モデルを導入したり、表示された結果に基づいて新しい質問を生成したりする可能性について戦略を立てる必要があります。

たとえば、ある時点でデータ サイエンティストが AI モデルまたはアルゴリズムを別のニューラル ネットワークに転送することを決定する場合があります。その場合、元のモデルを微調整または変更するのではなく、新しいモデルを作成する必要がある場合があります。こうした決定の多くは、組織が達成したい特定のアルゴリズムや目標によって異なりますが、AI チームは、後日新しいモデルが必要になった場合にそれをどのように展開するかに重点を置く必要があります。

より多くのデータを取得することが、結果を微調整したり、より良い結果を生み出す方法であると考える人もいるかもしれませんが、これは多くの企業にとって罠となる可能性があります。データに問題がある場合は、データを追加しても問題は解決しません。より多くのデータを取得すれば役立つと主張する人は、通常、高品質基準を満たすより広範なデータセットが必要であることを示唆しています。

Data Quality Solutions の社長である Thomas C. Redman 氏は、2018 年の Harvard Business Review の記事で、良質なデータは 2 つの方法で正しく処理する必要があると述べています。

  • 正確で、ラベルが付けられ、重複が排除されている必要があります。
  • 組織に適合している必要があります。

今年初めにMITスローン・マネジメント・レビューに掲載された記事の中で、レッドマン氏は、組織が不良データを扱う際にいかにして重要なリソースを無駄にしているかについても書いている。 「不正確なデータは、今度はデータへの不信感を生み、優位性を生み出す取り組みをさらに遅らせることになる」と彼は語った。

9. 3 日目と 300 日目のコンピューティング インフラストラクチャはどうなっていますか?

人工知能プロジェクトは常に変化し、進化しています。アルゴリズムやソフトウェアとコンピューティング インフラストラクチャの両方が変更される可能性があり、モデルは組織が所有するサーバー上で実行を開始し、その後パブリック クラウドまたはハイブリッド プラットフォームで実行されるように移行する可能性があります。組織が AI データ戦略を組織全体のコンピューティング戦略と整合させていれば、これは大きな問題にはなりません。

「たとえば、組織は GPU 搭載のラップトップを使用する 1 人か 2 人のデータ サイエンティストでプロジェクトを開始できますが、すべてがうまくいけば、より多くのデータ サイエンティストが作業する必要があり、より多くのインフラストラクチャをプロビジョニングする必要があります」と Ben David 氏は言います。「組織はこれを計画する必要があります。」

データ量が増え、モデルが複雑になるにつれて、より堅牢なコンピューティングの必要性が高まります。そうしないと、データ量が 10 倍になるとモデルにかかる時間も 10 倍になり、生産性と柔軟性が低下します。コンピューティングを拡張するには、組織がネットワークがそれに応じて拡張できることを保証する必要があります。

組織がしばしば犯す、コストのかかる間違いは、プロジェクトの進行中に大幅なデータの増加を計画しないことです。蓄積されるデータが 10 倍になると、ストレージ コストが大幅に増加し、レイテンシも増加します。これは通常、コールド ストレージ層にさらに多くのデータを保存し、ホット ストレージ層との間でデータをやり取りすることによるものです。これらの読み取りおよび書き込み操作には非常に時間がかかります。一部の組織では、規模の経済性と柔軟な容量を実現するために、一部のデータをクラウド内で階層化していますが、これにより複数のサーバーとさまざまな運用モデルの管理オーバーヘッドが発生します。

WekaFS などの新しいファイル システムは、ローカル ストレージ ファシリティに匹敵するスループットで、サーバー内のさまざまなレイヤーを管理します。最新のファイル システムを使用すると、コストと管理の負担を大幅に削減でき、データが増加しても組織は高い生産性を維持できます。最新のファイル システムのほとんどは、エクサバイト単位のデータや人工知能、機械学習のワークロードをサポートするように根本から設計されています。

10. プロジェクトを将来にわたって確実に保護するにはどうすればよいでしょうか?

ベン・デイビッド氏は、多くの組織が成功への大きな期待を抱いて AI プロジェクトを立ち上げているものの、チームがプロジェクト全体を総合的に捉えておらず、そのため開発で問題に遭遇していると述べています。 「多くの組織は、ビジネスの成長に伴って、より多くのインフラを必要とします」と同氏は述べた。「通常、顧客は既存のインフラを再設計するのではなく、拡張しようとします。」

たとえば、データ サイエンティストが自分のラップトップで作業を開始したとしても、その後、より多くのデータ サイエンティストが必要になり、組織のチームがネットワーク接続ストレージ デバイスで作業する必要が生じる可能性があります。

一方、プロジェクトはクラウドで開始される場合もありますが、チームにはプロジェクトに取り組んでいるデータ サイエンティストが 10 ~ 50 人いるため、組織のリーダーは、コンピューティング、ネットワーク、およびストレージ環境用の社内機器を購入する方がコスト効率が高いと判断します。成長を効果的に管理し、プロジェクトを拡大する方法に関する戦略を策定することで、組織の AI プロジェクトを将来にわたって保護できるようになります。

結論は

要約すると、プロジェクトで成功する組織には、インフラストラクチャの変更に柔軟に対応し、モデルを微調整する意欲があり、データを安全かつ効率的に移動および保存するための計画を策定できるほど先見性のある AI チームが必要です。

<<:  人工知能に関するよくある質問10選への回答

>>:  人工知能に関する10のよくある質問への回答

ブログ    
ブログ    

推薦する

...

360はウォータードロップライブを永久に閉鎖し、セキュリティ監視に注力すると発表した。

360は12月20日、Water Dropライブストリーミングプラットフォームを積極的に永久に閉鎖...

スマートワーク: AI がリモートワークをどう変えるのか

AI の出現は雇用者と従業員の両方からさまざまな程度の懐疑と恐怖を招いてきましたが、リモートワークに...

...

...

異常検出に機械学習を使用する際に尋ねるべき 7 つの質問

導入異常検出に関するいくつかの入門的な質問。質問することは学習するための最良の方法の一つです。しかし...

ChatGPTとDALL·E 3間の業界用語が発見された

先月末、OpenAIは最新の画像ジェネレーターDALL・E 3をリリースしました。爆発的な生成効果も...

今後10年の予測レポート:高齢化が進み、幼児市場が縮小、AIが様々な製品に浸透

IDCはこのほど、2019年および今後10年間の中国の情報通信分野と技術応用に関するトップ10予測を...

...

企業がAIアプリケーションの成功を測定する方法

AI を従来のソフトウェアと区別する基本的な特徴は、非決定性です。同じ入力であっても、計算のラウンド...

Baidu Brain EasyDL Professional Editionは、Baiduの超大規模事前学習済みモデルをリリースしました

ディープラーニングの分野では、「転移学習」という用語がますます注目を集めています。パフォーマンスが優...

...

さあ、アルゴリズムの複雑さをもう一度理解しましょう!

[[346356]] 0. はじめにみなさんこんにちは。私は、複数選択パラメータのプログラマーポッ...