この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 機械学習に携わる人の多くは、データ管理に悩んでいます。 データセットが古いため、手動で修正して注釈を付ける必要がある。 あるいは、他の人によって調整された同じデータ セットのバージョンが多数存在するため、どこから始めればよいかがわかりにくくなります。 または、適切なデータセットが存在しない場合には、自分で構築する必要があります。 海外では、 Simon Louskyというプログラマーがついに我慢できなくなり、機械学習用のデータ バージョン管理ツール(Data Version Control、DVC) を開発しました。 ワンクリックでデータセットを呼び出し、ワンクリックで編集履歴を表示します...最も重要なのは、DVC ツールの背後には、GitHub のようなデータ ホスティング コミュニティがあることです。 データセットを「アクティブ化」するSimon Lousky 氏は、学生時代にプロジェクトに取り組んでいたときに、機械学習データセットの管理が不便であるという問題点を感じていました。 当時、彼のモデルはトレーニングのために植物や花のデータを必要としていましたが、オープンソースのデータセットでは妥当な結果を生み出すことができませんでした。 そこで彼は数時間かけて、データセット内の多数の古くて不合理な注釈を一つずつ修正し、トレーニング結果は非常に満足のいくものでした。 彼はこのプロジェクト以外にも、その後多くのデータセットを修正、補足、作成しました。彼はこれらの時間と労力を要する作業を「データセットのデバッグと試行錯誤」と呼び、意図的に操作履歴を記録するようになりました。 彼は、自分のプロジェクトでのデータ管理は常に混乱しているが、GitHub でホストされているコードは常に整然としていることに徐々に気づきました。 では、データ管理に特化した GitHub のようなツールを作ってみてはいかがでしょうか? DVCが誕生しました。 データセットの呼び出し、履歴操作情報の表示などの機能を実装したプリインストールされたツールライブラリです。 その出現は、研究者がこれまでローカルの「デッド」データセットでモデルをトレーニングしていた方法が完全に変わることを意味します。 プロジェクトをオンラインでホストされているデータセット (または任意のファイル) にリンクして、リアルタイムで正確な接続を確立できます。データセットの更新や変更はタイムリーに把握できるため、プロジェクトの開発が容易になります。 たとえば、現在、リポジトリ A は「ライブ」データセットであり、メタデータ ファイルは専用サーバーに保存されている実際の大きなファイルをポイントしています。 ユーザーはデータセット ファイルをディレクトリに整理し、ユーティリティ関数を使用してコード ファイルを追加して簡単に呼び出すことができます。 さらに、機械学習プロジェクトに対応するリポジトリ B があります。プロジェクト コードには、DVC を使用してデータセットをインポートするための手順が含まれています。 A と B 間の接続を確立するには、データ レジストリを作成するだけです。
この時点で、データセット ディレクトリは次のようになります。 データセットの関連情報を表示するには、次のコマンドを入力します。
データセットのプレビューは、DVC によって追跡されるディレクトリに保存されます。 その後、ユーザーはコードとデータをホストされたリポジトリにプッシュするだけで、いつでもどこからでもアクセスして他のユーザーと共有できるようになります。 もちろん、DVC が機能するには、その背後にあるDAGsHubが不可欠です。 DAGsHub は GitHub のデータ管理バージョンであり、git リポジトリ、DVC、機械学習プロセス プラットフォーム mlflow の 3 つの部分で構成されています。 ユーザーは独自のプロジェクトを提出することができ、DAGsHub は提出されたプロジェクトを自動的にスキャンし、実験パラメータ、データ ファイル、モデルへのリンクなどの有用な情報を抽出し、それらをシンプルなインターフェイスに組み合わせます。 DAGsHub を使用すると、何もダウンロードせずにコード、データ、モデル、実験を閲覧および比較できます。 さらに、視覚的なデータ パイプライン、データ操作履歴を生成し、モデルのパフォーマンスを自動的かつ美しく記録できます。 機械学習プロジェクトで「ライブ」データセットを使用する方法DAGsHub を使用するには、登録してログインするだけです。 次のコマンドを使用して DVC をインストールします。
DAGsHub でデータセットを見つけました。それを自分のモデルで使用するにはどうすればよいですか? まず、ホストされているデータセットからディレクトリを生のファイルであるかのようにインポートします。
画像と注釈は、履歴情報を保持したまま、独自のプロジェクトにダウンロードされます。 データセットの変更履歴を知りたい場合は、次のコマンドを実行するだけです。 DVC アップデート 視覚化の結果をデフォルトのディレクトリに保存することができます。 便利じゃないですか? ちなみに、DVC と DAGsHub はどちらもオープンソースで無料ですので、ぜひ試してみてください。 ポータル: DVC チュートリアル: https://dagshub.com/docs/experiment-tutorial/2-data-versioning/ |
<<: IDC: 2021 年の中国スマート デバイス市場に関するトップ 10 の予測
CAPとはCAP理論についてはすでに多くの背景情報が語られているので、ここでは詳しくは触れません。ど...
GPT や DALL-E などの大規模な生成モデルが自然言語処理やコンピューター ビジョンの研究に革...
11月1日、Baidu Brainは2018年Baidu世界大会の初イベントとしてデビューしました。...
人類が歴史から学んだ唯一の教訓は、人類は歴史から何も学べないということだ。 「しかし、機械は学習でき...
検索リコールは検索システムの基礎として、効果向上の上限を決定します。私たちが直面している主な課題は、...
本日、チップ業界の大手 Broadcom が VMware を 610 億ドルで買収することを正式に...
AI 人材とプロジェクト パイプラインを構築するには、教育的価値だけでなく技術的価値も必要です。そ...
覚えていますか? 「小都」はかつて「The Brain」の舞台でエネルギー溢れる出場者たちと競い合い...
劉慈欣には『鏡』という短編小説があり、次のような物語が語られています。気象庁のソフトウェアエンジニア...
[[387017]] 01 まさに必要: ビッグデータ天体物理学の時代が到来観測技術の発展により、...
ソフトウェアテストにおける人工知能の使用はますます一般的になりつつあり、それには十分な理由があります...
01データセットの準備使用されるデータセットは、30 次元の特徴と 569 個のサンプルを含む、sk...
コンピューターに頼って悪者を即座に見つけることができれば素晴らしいのですが、問題は AI システムが...