ビッグデータに責任を負わせないでください。スモールデータをうまく活用する方が効果的かもしれません。

誰もがビッグデータについて語っていますが、大規模なデータセットを処理するにはより多くのストレージとコンピューティングリソースが必要になるため、すべてのシナリオが大規模なデータの保存と処理に適しているわけではありません。また、すべての顧客がそのような機能を備えているわけではなく、ニッチなシナリオによっては、小規模なデータの方が効果的な場合もあります。

なぜデータを理解する必要があるのでしょうか? 世界中のインターネットユーザーは毎日、合計 2,940 億通のメールを送信し、5 億件のツイートを投稿し、Facebook で最大 4PB のデータを作成しています。一方、WhatsApp メッセージは毎日 650 億件送信されています。報告書ではまた、世界のデータ総量は来年には10倍の44ZBに増加すると予測している。インターネットの急速な発展によって生じたデータ爆発は「諸刃の剣」とも言えます。経済的利益をもたらし、社会の発展を促進する一方で、データのプライバシーをより大きなリスクにさらします。

ビッグデータに基づくパーソナライズされた推奨はすでに一般的です。データの次元と規模が十分に豊富であれば、AI はその価値を無尽蔵に掘り出せると思われます。データにより、AI はアプリケーションにとって価値あるものになります。たとえば、Facebook は AI を使用して、広告の根拠としてユーザーの将来の行動を予測しています。参照情報には、場所、デバイス情報、画像/動画の閲覧履歴、WiFi 接続状態、友人関係、チャット内容などが含まれます。

もう一つの例は、スマートスピーカーによるユーザーの音声セマンティクスの収集や、無人運転システムによる移動経路の収集です。データコンプライアンスに基づいてより多くのデータソースを公開することに加えて、ブロックチェーンなどの新しいテクノロジーや手段を使用して、これらのデータの完全なレビューメカニズムを確立する必要もあります。

言い換えれば、ビッグデータはデータポートレートを提供する一方で、コストに加えてより大きな規制要因にも直面しています。さらに、ラベルに基づくビッグデータ識別では、個人差が無視されることもあります。ここでスモールデータが登場します。これは、日常の運動で発生するカロリー、オンラインになるたびに読む習慣やおすすめ、スーパーマーケットに行くたびに見る消費行動など、さまざまな端末を通じてユーザー自身が生成したデータを記録するもので、データに基づくこれらのインテリジェントな意思決定はより洗練されています。

スモールデータはビッグデータほど壮大ではないかもしれませんが、個人にとっての価値は無視できません。たとえば、スポーツ業界の人々は、アスリートのターン、加速と減速、運動指標などを監視できるさまざまな種類のセンサーを身に着けています。そして、これらの数百のデータポイントに基づいてスポーツの特性を分析し、的を絞った科学的なトレーニング効果を得ることができます。

同じ例は産業シナリオでも発生します。モノのインターネットは常にビッグデータとともに登場しますが、ローカルアプリケーションのデータは常に小さいものから大きいものへと成長します。たとえば、営業担当者は通常、ユーザーの行動を把握するために、広告の放送時間、コンバージョン効果、プロモーション期間などの情報を分単位で正確に把握する必要があります。

ただし、このようなデータでトレーニングする場合、機械学習はビッグデータでのみより効果的に機能します。小さなデータセットに遭遇すると、2 倍の労力で半分の結果しか得られません。それほど大きなデータセットがない場合は、ディープラーニングネットワークを設計する際に、各レイヤーとそのレイヤー内のニューロンの数に特別な注意を払う必要があります。教師なし学習であれば、自動エンコードによってラベルなしデータを回避することが可能ですが、この自己教師あり事前トレーニング機能は、すべてのビジネスパーソンが習得できるものではありません。

したがって、ビッグデータとスモールデータを組み合わせれば、非難から逃れることができるでしょうか？ビッグデータは、トップレベルのマクロデータを見つけ、階層的に配置することができます。この調査が徐々に深まると、スモールデータが役割を果たすようになります。つまり、サンプルの粒度の分析、つまりスモールデータが「ビッグデータ」をより小さくするのです。たとえば、ビッグデータは性別、年齢、職業、購買力などに焦点を当てていますが、スモールデータはそれらの背後にある原因に重点を置いており、人物像を形成するのに適しています。同様に、スモールデータによるポートレートの洗練により、ビッグデータの精度も向上します。

ビッグデータと比較すると、スモールデータのシナリオとアルゴリズムはより狭くなっています。その利点は、データの種類の選択がより明確であることです。たとえば、ビッグデータのシナリオが工場のインテリジェント温度制御システムである場合、スモールデータのシナリオは、温度検出器によって収集されたデータアルゴリズムの応用です。つまり、電子商取引企業がウェブページ上で取得したユーザーの取引記録を分析し、ユーザーに興味のある書籍を推奨するプロセスがスモールデータです。

ビッグデータだけに焦点を当ててスモールデータを無視すると、ビッグデータに問題が生じたときに、ビッグデータが非難される可能性があります。ビッグデータを小さくし、スモールデータを大きくすることが、真のデータインテリジェンスです。

<<: 機械学習におけるシャプレー値を理解するにはどうすればよいでしょうか?

>>: ASRU2019コンペティションが終了、中国語と英語の混合音声認識技術における新たなブレークスルー