データ分析 VS アルゴリズムモデル、どのように作業を分割し、効率的に連携するか?

[[438791]]

この記事はWeChat公式アカウント「地道学院」から転載したもので、著者は地道学院の陳先生です。この記事を転載する場合は、Down-to-Earth Academy公式アカウントまでご連絡ください。

データ分析をアルゴリズムとどのように組み合わせるべきかは、長年の課題です。一方、ビジネス側では、このモデルに対する幻想が高まっています。一方で、多くの企業では、データ収集が不十分、データ担当者が不足、業務目標が明確でないなどの問題があります。分析とアルゴリズムによって相乗効果と効率性を実現するにはどうすればよいでしょうか。今日は体系的なアプローチをご紹介します。

01典型的な2つの間違った習慣

Goubuli スタイル: 企業のリーダーの中には、自社のデータアナリストの無能さについて不平を言う人が多く、「モデルを考案できる人だけがクールだ」と常に考えている人もいます。その結果、データアナリストは皆、自らを守ろうとし、「モデル」という言葉が関わるすべての作業と自分たちの間に線引きをし、すべてをアルゴリズムエンジニアに任せていました。

もちろん、これを行うとアルゴリズムは無効になります。

言うまでもなく、リーダーが言及するモデルは、単に「SWOT」のような漠然としたものである場合が多いです。

言うまでもなく、モデリングの目標の多くは、「成功するために何ができるかを予測する」といった、単に非現実的なものばかりです。

基本的な特徴のスクリーニング作業だけをサポートする人がいなければ、アルゴリズムエンジニアは疲弊してしまいます。プロジェクトの進捗は遅く、結局、「なぜあなたのモデルは 100% 正確な予測ができないのですか」と批判されました。

もちろん、このような問題は伝統的な企業ではよくあることです。特にデジタル変革の段階では、リーダーたちは大げさなPPTをたくさん見て、伝統的な企業を非常によく理解していると考えていました。

ドッグスタイル：一部のインターネット企業は、アルゴリズムの応用について比較的明確な位置付けを持っており、アルゴリズムグループの地位も比較的高いです。そこで彼らは、アルゴリズムグループに割り当てられたアナリストを犬のように扱うという極端な行動に出ます。私が何をするか心配する必要はありません。私が言う通りにデータを取得してください。データ分析の作業は、終わりのないデータ収集テーブルに圧倒されます。

こうすることで、誰もが危険にさらされることになります。運用部門は言うまでもなく、データアナリストでさえアルゴリズムのロジックを理解していないからです。知識がない場合、運用部門は単純なデータ指標の監視を通じてアルゴリズムの有効性を推測することしかできません。そして、少しでも問題の兆候があると、彼らは疑問を持ち始めます。「アルゴリズムが機能していない！」「密かに何を変更したのか！」「ただふざけているだけだ！」これらの疑問は、部門間の責任転嫁や口論の導火線となり、終わりのない内部摩擦を引き起こします。

02行き詰まりを打破するための基本的な考え方

本質的には、分析とアルゴリズムはどちらもデータの応用です。そこで、真剣に考えなければならない疑問が浮かびます。データがあれば、コンピューターからお金が流れ出るのでしょうか? もちろんそうではありません! データ自体がすべての病気を治すことはできません。データに役割を果たさせたいのであれば、それをビジネスの現実と密接に統合し、データが役立つポイントを見つける必要があります。

しかし、実際のビジネス状況は非常に複雑であり、データとビジネス行動が絡み合っていることがよくあります。

例えば：

短編動画のDAUが減少しているのは、アルゴリズムの推奨が十分に強力ではないためでしょうか、それともクリエイター自身の質が低いためでしょうか?

取引のコンバージョン率が下がっています。商品の推奨が良くないのか、商品の入手先が適切に選択されていないのか？

パフォーマンス予測は不正確ですか? 予測モデルの力が十分でないからでしょうか、それともビジネス自体が緩いからでしょうか?

この時点で、ビジネス部門は常に責任を転嫁することができます。「私たちのデータは不十分すぎるので、Byte のアルゴリズムがあれば最高です。」データ面では、アルゴリズムと分析の両方に責任があります。したがって、究極の解決策は、データ学生が互いに非難し合うのではなく、団結して、良いシナリオを見つけ、成果を上げ、責任を軽減することです。

空虚な言葉はあまりにも空虚に思えるので、具体的な問題のシナリオと組み合わせて見てみましょう。

03典型的な協力シナリオ1：プロジェクトの設立

問題シナリオ: 大手製造会社は、採用効率を向上させるために「多次元 3 次元分析モデル」を確立したいと考えています。質問：現時点での需要にどのように応えればよいでしょうか？

これは、要件が不明確な典型的なシナリオです。

採用効率とは何ですか?
採用コストの削減? 採用後の定着率の向上? 適切な人材の採用?
適切な人物とはどのような人物でしょうか? 明確な定義はあるのでしょうか?
「適切」の定義は、組立ライン作業者、営業、マーケティングプランナー、マネージャーの間で一貫していますか?
組立ライン作業員、営業、マーケティング計画、管理の採用問題は同じですか?

上記の状況は明確ではない

したがって、アルゴリズム/分析を誰が担当しているかに関係なく、要求を引き受ける人は誰でも最初に上記の質問をする必要があります。もちろん、問題の定義が不明確な場合は、データアナリストが前に出てコミュニケーションをとる方が適切です。データアナリストはビジネスに近いため、ビジネス言語をより簡単に理解し、ビジネスアイデアを導くことができます。

企業側はさらにこう答えた。

1. 管理職にふさわしい人材の採用を支援する

2. XX省と市では組立ラインの労働者を採用するのが簡単です。私たちは彼らを集中的に採用します。

3. 部門全体の人件費はXXX百万元以内に抑える必要があります。

では、今こそ「多次元」かつ「三次元」のモデルの構築を始めるべき時なのでしょうか?

いいえ！全然違います！

04典型的な協力シナリオ2：タスクの分解

プロジェクトの進行を妨げる主な問題が 3 つあります。

1. 「適切な」管理職の定義が明確でない。管理者の評価は、組立ラインの作業員の評価よりもはるかに複雑です。組立ラインの作業員は、年齢、身分証明書、教育レベルなど、いくつかの簡単な項目を検査するだけで、作業スキルも標準化された作業評価に合格できます。マネージャーの場合、状況ははるかに複雑で、「リーダーに好かれているかどうか」など、非常に個人的かつ定量化できない評価ポイントもあります。だからここで止まるわけにはいかないのです。さらなる定義が必要です。

2. 各州および各市の労働力データが欠落しています。注: 現在人事部門が受け取っている履歴書から適切なものを選別することと、膨大な人材の中からより多くの人材がどこにいるかを特定することは、まったく別の問題です。なぜなら、受け取ったデータは数えられるが、膨大な人の海に対しては全くデータがないからだ。何も考えずに仕事を始めると、誤った判断につながる可能性が高くなります。

3. 部門全体の雇用コストと採用効率は、2 つの基本的な問題です。部門全体の人件費には、新規採用に加え、継続的な賃金や福利厚生、退職者への補償などが含まれます。部門全体のコストを管理することが目的であれば、どの部分の総額が最も高いか、どの部分の割合が最も大きいか、どの部分が冗長か、どの部分が最も急速に増加しているかなどを事前に明確に分析する必要があります。解決方法を見てみましょう。

この時点で、少なくとも5つのタスクを分離することができます

タスク 1: 管理職の「適合性」を定義します (適合性を定義するには、コンピテンシーモデルなどの別のビジネスモデルを構築する必要がある場合があります)。

タスク 2: 過去のインタビューデータに基づいて、モデリングの準備として管理職の「適合性」をマークします。

タスク3：さまざまな地域の労働市場データ（労働市場から公開された情報、仲介業者から提供される情報など）を収集します。

タスク4：過去の採用活動に基づいて、地域別採用の合理性を検証する（求職者は内陸省出身だが、仕事を探すために沿岸省に行く可能性もあるため、地域区分はあまり意味がない。これらの仮定を検証する必要がある）。

タスク 5: 全体的な人件費構造と傾向を分析し、コスト管理の重要なポイントを見つけます。

これら5つのタスクは主にデータ分析作業です。データ分析により現状が明らかになり、後続のアルゴリズムをより的確に行えるようにデータが収集されます。例えば：

1. 管理職の適性・不適性ラベルが既に存在する場合、履歴書情報、ヘッドハンター提供情報、採用チャネル情報をもとに面接対象者に対して分類予測モデル（ロジスティック回帰・決定木）を構築し、「適性」の確率を予測します。

2. 全体的な人件費構造、成長理由、開発動向に関するデータがすでにある場合は、予測モデル（時系列/多変量回帰）を構築して、人件費が予想を上回るかどうかを判断して意思決定に介入します（短期的な人手不足のために大量の人員を採用せず、残業代と新規従業員の増員のコスト差を比較する）。

もちろん、協力の3つ目のポイントは、仕事で課題が生じたときに、一緒に取り組むことです。

05典型的な協力シナリオ3：質問応答

「なぜモデルは不正確なのか」という究極の質問に直面したとき、全員が協力しなければなりません。最初に排除すべきことは、外部要因、予期しない変動、積極的なビジネス行動の影響です。問題があるからといって、モデルを非難しないでください。

例えば：

上級管理職の突然の交代により、管理職の採用要件も変化した。

労働者が集められた場所で疫病が流行し、労働者たちはそこから離れられなくなった。

業界リーダーが突然給与を引き上げ、業界全体のコストが上昇した

当初の採用計画は諸般の事情により延期となりました。

当初の採用計画は期待に応えられなかったため、新たなチャネル/方法を追加する必要がある

これらすべての要因により、当初設計されたモデルが無効になったり、その有効性が低下したりすることになります。こうした変化に対応するには、データ分析を最前線に置く必要があります。日々データを監視することで、問題を早期に発見し、ビジネスリスクを警告し、変化に注意を払うよう全員に促すことができます。ビジネスがあなたのところに来るのを待ってからあなたと議論するのではなく。

06 まとめ

アルゴリズムと分析の作業の性質の違いは、両者が協力して作業を分担する場合、当然焦点が異なることを意味します。理想的な協力方法は、ビジネス上の障害を解消するための分析と、効率を向上させるためのアルゴリズムです。一緒に成果を達成しましょう。

実際、十分に長く働き、ビジネスと十分に接触していれば、ビジネスから直接もたらされる「モデル構築」要件のほとんどが、データの欠落や目標の不明確さのせいで信頼できないものであることに気付くでしょう。特に予測問題に関してはそうです（分類問題は比較的優れています）。データアナリストによって変換された要求は、はるかに信頼性が高くなります。

<<: 将来、自動運転車が世界をどのように変えるか

>>: ロボット・アメカは「魂」の束縛から解放され覚醒するのか？邪悪な笑顔は一瞬で恐ろしい