ビッグデータに責任を負わせないでください。スモールデータをうまく活用する方が効果的かもしれません。

ビッグデータに責任を負わせないでください。スモールデータをうまく活用する方が効果的かもしれません。

誰もがビッグ データについて語っていますが、大規模なデータ セットを処理するにはより多くのストレージとコンピューティング リソースが必要になるため、すべてのシナリオが大規模なデータの保存と処理に適しているわけではありません。また、すべての顧客がそのような機能を備えているわけではなく、ニッチなシナリオによっては、小規模なデータの方が効果的な場合もあります。

なぜデータを理解する必要があるのでしょうか? 世界中のインターネット ユーザーは毎日、合計 2,940 億通のメールを送信し、5 億件のツイートを投稿し、Facebook で最大 4PB のデータを作成しています。一方、WhatsApp メッセージは毎日 650 億件送信されています。報告書ではまた、世界のデータ総量は来年には10倍の44ZBに増加すると予測している。インターネットの急速な発展によって生じたデータ爆発は「諸刃の剣」とも言えます。経済的利益をもたらし、社会の発展を促進する一方で、データのプライバシーをより大きなリスクにさらします。

ビッグデータに基づくパーソナライズされた推奨はすでに一般的です。データの次元と規模が十分に豊富であれば、AI はその価値を無尽蔵に掘り出せると思われます。データにより、AI はアプリケーションにとって価値あるものになります。たとえば、Facebook は AI を使用して、広告の根拠としてユーザーの将来の行動を予測しています。参照情報には、場所、デバイス情報、画像/動画の閲覧履歴、WiFi 接続状態、友人関係、チャット内容などが含まれます。

もう一つの例は、スマートスピーカーによるユーザーの音声セマンティクスの収集や、無人運転システムによる移動経路の収集です。データコンプライアンスに基づいてより多くのデータソースを公開することに加えて、ブロックチェーンなどの新しいテクノロジーや手段を使用して、これらのデータの完全なレビューメカニズムを確立する必要もあります。

言い換えれば、ビッグデータはデータポートレートを提供する一方で、コストに加えてより大きな規制要因にも直面しています。さらに、ラベルに基づくビッグデータ識別では、個人差が無視されることもあります。ここでスモールデータが登場します。これは、日常の運動で発生するカロリー、オンラインになるたびに読む習慣やおすすめ、スーパーマーケットに行くたびに見る消費行動など、さまざまな端末を通じてユーザー自身が生成したデータを記録するもので、データに基づくこれらのインテリジェントな意思決定はより洗練されています。

スモールデータはビッグデータほど壮大ではないかもしれませんが、個人にとっての価値は無視できません。たとえば、スポーツ業界の人々は、アスリートのターン、加速と減速、運動指標などを監視できるさまざまな種類のセンサーを身に着けています。そして、これらの数百のデータポイントに基づいてスポーツの特性を分析し、的を絞った科学的なトレーニング効果を得ることができます。

同じ例は産業シナリオでも発生します。モノのインターネットは常にビッグデータとともに登場しますが、ローカル アプリケーションのデータは常に小さいものから大きいものへと成長します。たとえば、営業担当者は通常、ユーザーの行動を把握するために、広告の放送時間、コンバージョン効果、プロモーション期間などの情報を分単位で正確に把握する必要があります。

ただし、このようなデータでトレーニングする場合、機械学習はビッグデータでのみより効果的に機能します。小さなデータセットに遭遇すると、2 倍の労力で半分の結果しか得られません。それほど大きなデータセットがない場合は、ディープラーニングネットワークを設計する際に、各レイヤーとそのレイヤー内のニューロンの数に特別な注意を払う必要があります。教師なし学習であれば、自動エンコードによってラベルなしデータを回避することが可能ですが、この自己教師あり事前トレーニング機能は、すべてのビジネスパーソンが習得できるものではありません。

したがって、ビッグデータとスモールデータを組み合わせれば、非難から逃れることができるでしょうか?ビッグデータは、トップレベルのマクロデータを見つけ、階層的に配置することができます。この調査が徐々に深まると、スモールデータが役割を果たすようになります。つまり、サンプルの粒度の分析、つまりスモールデータが「ビッグデータ」をより小さくするのです。たとえば、ビッグデータは性別、年齢、職業、購買力などに焦点を当てていますが、スモールデータはそれらの背後にある原因に重点を置いており、人物像を形成するのに適しています。同様に、スモールデータによるポートレートの洗練により、ビッグデータの精度も向上します。

ビッグデータと比較すると、スモールデータのシナリオとアルゴリズムはより狭くなっています。その利点は、データの種類の選択がより明確であることです。たとえば、ビッグデータのシナリオが工場のインテリジェント温度制御システムである場合、スモールデータのシナリオは、温度検出器によって収集されたデータアルゴリズムの応用です。つまり、電子商取引企業がウェブページ上で取得したユーザーの取引記録を分析し、ユーザーに興味のある書籍を推奨するプロセスがスモールデータです。

ビッグデータだけに焦点を当ててスモールデータを無視すると、ビッグデータに問題が生じたときに、ビッグデータが非難される可能性があります。ビッグデータを小さくし、スモールデータを大きくすることが、真のデータインテリジェンスです。

<<:  機械学習におけるシャプレー値を理解するにはどうすればよいでしょうか?

>>:  ASRU2019コンペティションが終了、中国語と英語の混合音声認識技術における新たなブレークスルー

ブログ    

推薦する

世論調査によると、日本の男性の約60%が人工知能と交際する意向がある

[[252365]]日経新聞によると、日本の世論調査会社が、人工知能(AI)と恋に落ちたり友達になっ...

AIはハリウッドに影響を与えているのでしょうか?議論の余地はあるものの、答えはすでにある

最新の3Dアニメーションをご覧になった方は、その壮大な世界に衝撃を受けるかもしれません。もしこれらの...

2019年の中国人工知能産業の競争環境の分析

近年、人工知能の技術と応用は成熟を続けており、人工知能市場の規模は徐々に拡大しています。中国情報通信...

...

CIIE 2019 サノフィと朱江知能が共同で医療のデジタル未来を創造

第2回中国国際輸入博覧会が11月10日に成功裏に終了した。医療機器と医薬健康展示エリアでは、世界有数...

Dropbox のエンジニアがロスレス圧縮アルゴリズム「Pied Piper」を開発

Dropbox のエンジニアたちは世界をより良い場所にするために取り組んでおり、HBO のコメディー...

...

IDC: AIソリューションへの世界的な支出は3年以内に5000億ドルを超える

IDC は、2024 年以降の世界の情報技術 (IT) 業界予測レポートを発表しました。 IDC は...

AI博士号取得者の年収は80万元。AI人材の需要と供給はどれくらいですか?

「女性は間違った男性と結婚することを恐れ、男性は間違った職業を選択することを恐れる」という古い中国...

...

Omdia、2019年の世界IoT分野における重要な投資をまとめる

市場調査会社オムディアの最新の調査レポートによると、モノのインターネットの「誇大宣伝サイクル」のピー...

サイズはたったの1MB!超軽量顔認識モデルがGithubで人気

最近、ユーザー Linzaer が、エッジ コンピューティング デバイス、モバイル デバイス、PC ...

650億のパラメータ、すべてのパラメータを8つのGPUで微調整可能:Qiu Xipengのチームは大規模モデルの閾値を下げました

大規模モデルに向けて、テクノロジー大手はより大規模なモデルをトレーニングしており、学界はそれらを最適...

...

Baidu は、「同様のデータセットの 10 倍」のデータ量を持つ自動運転データセットをリリースしました。注目すべき点は何ですか?

[[222004]]常にオープンで、常に新しいメンバーを引き付けてきた百度のアポロ自動運転プラット...