Facebook、AIが著作権侵害を正確に識別できるようにソースデータ拡張ライブラリを公開: 100以上の拡張方法が提供される

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

わずかな変更でも AI モデルの堅牢性に影響を及ぼします。

AIの目から見ると、次の2つの写真は互いに何の関係もないように見えるかもしれません。

現在、 Facebook AI はデータ拡張用の新しい Python ライブラリAugLy をオープンソース化しました。

オーディオ、画像、ビデオ、テキストの4 つのモダリティをサポートし、入力コンテンツに対してさまざまな処理を実行できる100を超えるデータ拡張機能を提供します。

たとえば、テキストの大文字、フォント、エンコード方法を変更したり、テキストに句読点を追加したり、文字の位置を調整したり、タイプミスをシミュレートしたりします。

このプロジェクトは1.8k 個のスターを獲得し、GitHub のホットリストに掲載されています。

「スクリーンショット転送」をAIに認識させる

AugLy は、実際のネットワークにおける特定のデータ拡張をカバーし、モデルのトレーニングとテスト用のサンプルを作成することを目的としています。

AugLy は、Facebook や Instagram などのプラットフォームからの実際の画像や動画に基づいて、プロジェクトのすべてのデータを統合ライブラリと API で変換し、100 を超えるデータ拡張方法を提供します。

オーディオ、画像、ビデオ、テキストの 4 つのモダリティに対応する 4 つのサブライブラリが含まれています。

これらのサブライブラリには、関数ベースおよびクラスベースの変換、組み合わせ、適用されるメタデータとその強度を選択する機能が含まれます。

画像処理を例にとると、AugLy はトリミング、回転、ノイズの追加、ぼかし、グレースケールなどを行うことができます。

このような：

一部のネットユーザーは、「テキストモジュールは英語のみをサポートしていますか？」という疑問を提起しました。

AugLy の最大の特徴は、一般的な拡張機能を多数搭載していることに加え、 「インターネットユーザー」型のデータ拡張機能を提供していることです。

たとえば、画像をスクリーンショットスタイルに変換すると、実際の生活で目にするものに近くなります。

AugLy データ拡張を使用して AI モデルをトレーニングします。内容は同じだが形式が異なるこの情報は、モデルの堅牢性を向上させるのに役立ちます。

コピー検出、音声検出、著作権侵害などのタスクでは、トレーニング後、AIはユーザーがアップロードしたコンテンツをより正確に識別できます。

さらに、AugLy は、モデルの堅牢性を評価するために Deepfake Detection Challenge で使用されています。

ネットユーザーの間で熱い議論

この新しい Python ライブラリはネットユーザーの注目も集め、Reddit で350 件を超える「いいね！」を獲得しました。

一部のネットユーザーは、「テキストモジュールは英語のみをサポートしていますか？」という疑問を提起しました。

熱狂的なネットユーザーはこう言った。

テキストモジュールは主に nlpaug のラッパーであるように見えるため、AugLy はいくつかのパラメータを変更するだけで他の言語をサポートします。

一部のネットユーザーからは、なぜそれを直接 PyTorch に追加しないのかという質問もありました。

それに応えて、ある人がこう返信しました。

これによりインストールが非常に遅くなるため、必要な人は個別にインストールするだけで済みます。pytorch をこれほど肥大化させる必要はありません。

AugLy には Python 3.6 以降が必要です。これは pip を使用してインストールできます。ただし、仮想環境とシステム環境では、conda と sudo apt-get を使用して python-magic を別途インストールする必要もあります。

残念ながら、AugLyは現在バッチ画像の入力をサポートしていませんが、開発者は将来この機能が改善される予定であると述べています。

<<: 動物や人間には学習の臨界期があり、ディープニューラルネットワークにも臨界期がある。

>>: これでブリッジで腹筋運動ができるようになりました!中国初の3Dプリント橋が上海で公開

主任アナリストが、1時間あたり168ドルを消費する人気のGroqの秘密を明かす！ H100の10倍のコストがかかるが、老黄は笑って何も言わなかった

Facebook、AIが著作権侵害を正確に識別できるようにソースデータ拡張ライブラリを公開: 100以上の拡張方法が提供される

「スクリーンショット転送」をAIに認識させる

ネットユーザーの間で熱い議論

主任アナリストが、1時間あたり168ドルを消費する人気のGroqの秘密を明かす！ H100の10倍のコストがかかるが、老黄は笑って何も言わなかった

世界最強のモデルクロード3号が物理・化学を覆す！博士課程の1年間の実験の結果が2時間で解読され、ネットユーザーは「科学的研究はもう存在しない」と叫んだ。

SFUとアリババは、複雑さを線形に減らし、パフォーマンスを向上させる一般的なQuadTree Attentionを提案した。

年次レビュー：人工知能業界は2021年後半に突入

184.3億ドルを突破！「中国スピード」が人工知能の分野で再び出現

2019 年に学ぶべき 10 個の機械学習 API

AI対詐欺: フィッシング戦術の新時代の幕開け

人工知能のこれら 5 つのトレンドは世界にどのような影響を与えるでしょうか?

ボストンダイナミクスは、ChatGPTなどの大規模モデルトレーニングを使用して、スポットロボット犬を「話すツアーガイド」に変えました。

推薦する

【WOTI】English FluencyのLin Hui氏：教育分野でのAIはまだ初期段階にある

2020年のAI技術のブレークスルーをすべて見る

2022年の人工知能の7つの主要な応用トレンド

「AI Beanプロジェクト」は、人工知能を活用して、故郷の貧しい女性たちに雇用機会を創出し、彼女たちが仕事と子育てを同時に行えるようにするプロジェクトです。

サッカーボールとハゲ頭の区別がつかないAIがプレミアリーグのファンにまたもや嫌われる

初心者向けガイド: 機械学習とディープラーニング

知らないのに知っているふりをしないでください!機械学習とディープラーニングを理解しましたか?

カリフォルニア工科大学、プロペラアームを使って滑空する二足歩行ロボットを開発

GitHub の最も有名な 20 の Python 機械学習プロジェクトは収集する価値があります。

三国志を例に挙げて分散アルゴリズムについて語るのって、気楽なことでしょうか?

LLM評価にArthur Benchを使用する方法を学ぶ

考えてみてください。連合学習は大規模な言語モデルをトレーニングできるのでしょうか?