機械学習に効果的なデータを取得する方法 小さなデータを扱うための 7 つのヒント (一読の価値あり)

機械学習に効果的なデータを取得する方法 小さなデータを扱うための 7 つのヒント (一読の価値あり)

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

ビッグデータが機械学習プロジェクトを成功させる鍵であるとよく耳にします。

大きな問題の一つは、多くの組織が必要なデータを持っていないことです。

基本的な、必要な、未処理のデータがなければ、機械学習の概念のプロトタイプを作成して検証するにはどうすればよいでしょうか?リソースが不足している状況で、データを活用して価値を効果的に獲得し、創造するにはどうすればよいでしょうか?

私が働いているところでは、クライアント向けに多くの機能のプロトタイプを作成しています。このため、私にとっては小さなデータでも大いに役立ちます。この記事では、小規模なデータセットを使用してプロトタイプを作成するときに結果を改善するのに役立つ 7 つのヒントを紹介します。

[[270819]]

1. モデルが完璧ではないことを認識する

これが最も重要なことです。大規模なセットのごく一部だけに基づいた知識を持つモデルを構築しているので、モデルが期待どおりに機能するのは、この 1 つの場所またはこの 1 つの状況のみです。

数枚の屋内写真を選択してコンピューター ビジョン モデルを構築する場合、屋外の写真ではうまく機能するとは期待しないでください。チャットルームでの会話に基づいて言語モデルを構築したい場合、それが素晴らしい小説を書くことを期待しないでください。

上司やクライアントにもこれを理解してもらうようにしてください。こうすることで、モデルが実現できる結果について、全員が共通かつ現実的な期待を持つことができます。また、プロトタイプの内外でモデルのパフォーマンスを定量化するための新しい KPI を作成することにも役立ちます。

2. 優れたデータインフラストラクチャを構築する

多くの場合、顧客は必要なデータを持っていないため、公開データでは十分な代替にはなりません。プロトタイプの一部で新しいデータの収集とラベル付けが必要な場合は、インフラストラクチャが可能な限り少ない摩擦でそれを処理できることを確認してください。

データのラベル付けは、技術者以外の人でも簡単に理解できるほどシンプルにする必要があります。私たちは Prodigy を使用します。これは、アクセスしやすく拡張可能な優れたツールだと思います。プロジェクトの規模に応じて、新しいデータを吸収してタグ付けシステムに自動的に転送できる自動データ取り込みツールを設定することもできます。

システムが新しいデータをより速く簡単に取得できるほど、より多くのデータを取得できます。

3. データを追加する

既存のデータを追加することでデータベースを拡張できます。たとえば、モデルの出力に大きな影響を与えずに、データをわずかに調整することができます。たとえば、猫の写真を 40 度回転しても、猫の写真であることに変わりはありません。

ほとんどの場合、スキルを高めると、モデルをトレーニングするための「準最適な」データ ポイントをさらに作成できるようになります。まず、データに少量のガウスノイズを追加します。

コンピューター ビジョンの場合、画像を拡張する簡単な方法が多数あり、私は Albumentations データベースで良い経験をしました。このデータベースでは、注釈を失うことなく多くの便利な画像変換が可能です。

初期、水平反転、垂直反転、スケールと回転角度の調整

ほとんどの人が効果的だと考えるもう一つの増加テクニックは、ミキシングです。この技術は、文字通り 2 つの入力画像を取得し、それらを組み合わせてブレンドし、ラベルを結合します。

初期画像、ブレンド、ノイズブレンド、垂直連結

他の種類の入力データを追加する場合は、形式の変換によってマークアップが変更するかどうかを考慮する必要があります。

4. 合成データを生成する

実際のデータを拡張するためのオプションがわからない場合は、偽のデータを作成することを検討してください。合成データを生成することは、実際のデータベースでは処理できないエッジケースを処理するのに適した方法です。

たとえば、ロボット工学における多くの強化学習システム (OpenAI の Dactyl など) は、実際のロボットを構成する前に、シミュレートされた 3D 環境でトレーニングされます。画像認識システムの場合も、同様に、何千もの新しいデータ ポイントを提供できる 3D シーンを構築できます。

15 の Dactyl トレーニングのシミュレーション例

合成データを作成する方法は数多くありますが、Kandaでは、物体検出用のデータを作成するためのターンテーブルベースのソリューションを開発しました。大量のデータが必要な場合は、Generative Adverserial Networks を使用して合成データを作成することを検討できます。 GAN はトレーニングが非常に難しいことで知られているため、まずこのアプローチを試す価値があるかどうかを確認することが重要でした。

NVIDIA の GauGAN の実演

場合によっては、複数のアプローチを組み合わせることもできます。Apple は、GAN を使用して 3D モデル化された顔を処理して、よりフォトリアリスティックに見せるという非常に巧妙なアプローチを採用しています。時間があれば、これはデータベースを拡張するのに最適な方法です。

5. 幸運な分割には注意する

機械学習モデルをトレーニングする場合、通常、データセットは一定の比率に従ってトレーニング データセットとテスト データセットにランダムに分割されます。通常、これは何の問題もありませんが、小さなデータセットを扱う場合、トレーニング データの例の量が少ないために、高レベルのノイズが生成されるリスクがあります。

この場合、偶然にデータがうまく分割された可能性があります。モデルは特定のデータセット分割で適切に機能し、テスト データセットに適切に一般化されます。しかし実際には、これは単にテスト データセットに (偶然にも) 明確な例が含まれていないからです。

このシナリオでは、k 分割交差検証がより適切な選択です。基本的には、データセットを K グループに分割し、各グループに対して新しいモデルをトレーニングし、テスト用にグループの 1 つを選択し、残りのすべてのグループをトレーニングに使用します。これにより、表示されるテスト結果が単に幸運な(または不運な)分割の結果ではないことが保証されます。

6. 転移学習を使用する

テキスト、画像、ビデオ、サウンドなどの標準的なデータ形式を扱う場合は、巨人の肩の上に立つかのように、他の人がこれらの分野で達成した転移学習の結果を活用して上記の作業を支援し、効率を向上させることができます。

転移学習を行う場合は、他の人がすでに構築したモデルを活用します。 (通常、他の誰かとは、Google、Facebook、または主要な大学です)、特定のニーズに合わせてモデルを微調整する必要があります。言語、画像、または音声を扱うほとんどのタスクは多くの共通の特徴を共有しているため、転移学習は有用です。コンピュータービジョンを例にとると、転移学習は特定の種類の形状、色、またはパターンを検出できます。

最近、私はクライアント向けに、精度に対する要求が高いオブジェクト検出プロトタイプを構築していました。 Google のデータセット (ラベル付き画像 900 万枚を含む) でトレーニングされた転移学習モデルである MobileNet Single Shot Detector を微調整して適用することで、効率が大幅に向上しました。 1 日間のトレーニングの後、1500 枚のラベル付き画像のテスト セットで mAP 0.85 を示す、かなり堅牢なオブジェクト検出モデルを提供できるようになりました。

7. 弱い学習者の組み合わせを試す

時には、何か特別なことをするにはデータが足りないという現実に直面しなければならないこともあります。幸いなことに、データセットのサイズに左右されない(そしてデータ量が少ないためにテストに大きな偏りが生じることの無い)従来の機械学習 AI が数多くあります。

データセットが小さく、データポイントの次元が高い場合は、サポートベクターマシンなどの AI が適切な選択肢です。

残念ながら、これらの AI は必ずしも高度な応用方法ほど正確ではありません。そのため、少なくとも高度にパラメータ化されたニューラル ネットワークと比較すると、これらは弱い学習者と呼ばれます。

この状況を改善する方法は、複数の弱い学習者の結果を組み合わせることです。 (これはサポート ベクター マシンと決定木の配列であり、これらが連携して予測を構築できます)。これが連合学習の本質です。

<<:  13歳の天才少年がAIスピーカーを開発。2010年代以降の世代は単純ではない

>>:  SaaS の将来は人工知能とどのような関係があるのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

世界人工知能会議の最高栄誉である2020年SAIL賞のトップ30プロジェクトが発表されました

世界人工知能会議の最高賞であるSAIL賞(スーパーAIリーダー)は、「卓越性を追求し、未来をリードす...

...

清朗智能の新型消毒ロボットが海外市場を席巻

新型コロナウイルスの感染力が高いため、防疫期間中、一般の人々は、インテリジェント消毒ロボットが医療産...

AI がソフトウェアをテストし、バグを修正できるようになれば、プログラマーの仕事は楽になるのでしょうか?

10月18日のニュース、単純な手作業から複雑な法的判断や医療診断まで、ロボットと人工知能が驚くべき...

陸奇氏が楽観視するAI時代のGitHubがついに実現へ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

描いた場所に画像が動きます! Gen-2の新機能「マジックブラシ馬良」が大ヒット、ネットユーザー:緊急、緊急、緊急

動画生成AIはここまで進化したのか? !写真をスワイプするだけで、選択したターゲットが動きます。明ら...

AIスタートアップが大手テクノロジー企業になるために開発すべき10の戦略

大手テクノロジー企業の開発経験からインスピレーションを得る人はたくさんいます。Amazon、Face...

...

AIは寒さに晒されているのか?スタンフォード大学の年次AIレポートが秘密を明らかにする

2019年へのカウントダウンが始まり、今年はAIの発展に関する議論がたびたび取り上げられています。 ...

...

家族に王位継承者はいないのですか?それは問題ではない、誰かがAIを使っておとぎ話の魔法の世界を作ったのだ

家には鉱山も王座もありませんが、王子様やお姫様になりたいという夢を持たない人がいるでしょうか?最近、...

リー・ヤンがスマートシティ建設について語る:ハードウェアからプラットフォームまで、Terminusエコシステムが先導する

[51CTO.com からのオリジナル記事]質問:皆さんはスマート シティについて知っていますか? ...

人工知能の役割がクローズアップ!ロボットが増えると雇用に影響が出るでしょうか?

短期的には、人工知能が雇用全体に与える影響は比較的軽微であり、構造的影響が量的影響を上回っている。し...