2020 年に人気の機械学習プロジェクトトップ 10

2021 年が始まりました。過去 1 年間で機械学習コミュニティでは多くの出来事がありました。

時間を無駄にすることなく、最も人気がありトレンドとなっているオープンソースの研究プロジェクト、デモ、プロトタイプのガイドをご紹介します。写真編集から NLP、そして「コードなし」のモデルのトレーニングまで、これらの情報が皆さんの AI を活用した素晴らしい製品の開発に刺激を与えてくれることを願っています。

1. 背景マスク v2

Background Matting v2 は、人気の高い「The World is Your Green Screen」オープンソースプロジェクトからインスピレーションを得て、背景をリアルタイムで削除または変更する方法を示します。パフォーマンスが向上し（4K で 30fps、FHD で 60fps）、人気のビデオ会議アプリ Zoom と連携します。

この手法では、キャプチャされた背景の追加フレームを使用して、アルファマットおよび前景レイヤーを復元します。高解像度の画像をリアルタイムで処理するために、2 つのニューラルネットワークが使用されます。

背景を残したままビデオから人物を削除したい場合は、このプロジェクトが間違いなく役立ちます。

2. スカイAR

これは、ビデオの空の置き換えと調整を可能にするもう 1 つの優れたプロジェクトであり、制御可能なスタイルを使用して、ビデオ内でリアルでドラマチックな空の背景を自動的に生成できます。

このプロジェクトは Pytorch をベースにしており、pytorch-CycleGAN-and-pix2pix プロジェクトのコードを部分的に採用しています。スカイマスキング、オプティカルフローによる動きの推定、および画像の融合を使用して、ビデオに芸術的な背景を提供します。

上記のオープンソースは、偽の雨や晴れの日などを追加するなど、映画やビデオゲームで素晴らしい可能性を秘めています。

3. アニメGAN v2

写真を漫画化することは、常に楽しい機械学習プロジェクトです。はい、もしくは、いいえ

AnimeGANv2 プロジェクトは AnimeGAN の改良版です。具体的には、ニューラルスタイル転送と生成的敵対的ネットワーク (GAN) を組み合わせてタスクを達成し、同時に高周波アーティファクトが防止されるようにします。

4. テキスト

AI を活用した高度な検索エンジンと QA チャットボットは常に求められています。まさにこれがこのプロジェクトの目的です。

txtai は、文形成子、屈折子、および fais を使用して、コンテキスト検索と抽出型質問応答のための AI 搭載エンジンを構築しました。

基本的に、txtai は類似性検索を実行し、抽出質問ベースのシステムを作成するためのテキストインデックスの構築をサポートします。

5. 古い写真を蘇らせる

次に、破損した写真を自動的に修復できる Microsoft の最新の写真回復プロジェクトを紹介します。

具体的には、PyTorch のディープラーニング実装を活用して傷の検出、顔の強調などの技術を適用することで、複雑な劣化を被った古い写真を復元できるようになります。

彼らの研究論文によると、「2 つの変分オートエンコーダ (VAE) をトレーニングして、古い写真ときれいな写真をそれぞれ 2 つの潜在空間に変換します。そして、合成ペアデータを使用して、2 つの潜在空間間の変換を学習します。コンパクトな潜在空間ではドメインギャップが閉じられているため、変換は実際の写真にうまく一般化されます。さらに、1 枚の古い写真に複数の劣化が混在する問題に対処するために、構造化された欠陥 (傷やほこりの斑点など) 用の非ローカルブロックと、非構造化欠陥 (ノイズやぼやけなど) 用のローカルブランチを含むグローバルブランチを設計します。」

次のデモンストレーションに示すように、このモデルは従来の方法よりも確実に優れています。

6. アバター

ディープフェイクプロジェクトは機械学習と AI コミュニティに旋風を巻き起こしました。このプロジェクトでは、リアルタイムのビデオ会議アプリケーションでリアルなアバターを作成できるという典型的な例を示します。

基本的には、一次モデルを使用してビデオから動きを抽出し、それをオプティカルフローを介して対象のアバター画像に適用します。この方法では、仮想カメラでアバターを生成したり、古典的な絵画をアニメーション化したりすることもできます。イーロン・マスクからモナ・リザまで、誰にでもなりきって楽しむことができます。

7. パルス

これは、低解像度の顔画像からリアルな顔画像を生成する方法を示す AI モデルです。

PULSE は、生成モデルの潜在空間探索による自己教師付き写真アップサンプリングの略で、正しく縮小されたリアルな SR 画像を作成することに基づいた超解像問題の代替定式化を提供します。

8.ピクセル2スタイル2ピクセル

このプロジェクトは、研究論文「スタイルエンコーディング：画像から画像への変換のための StyleGAN エンコーダー」に基づいて、Pixel2Pixel フレームワークを使用し、ローカルバイアスを回避するために同じアーキテクチャを使用してさまざまな画像から画像へのタスクを順番に解決することを目指しています。

新しいエンコーダーネットワークに基づいて、ネットワークは顔画像を正面のポーズに合わせ、条件付き画像合成を実行し、超解像度画像を作成するようにトレーニングできます。

似顔絵アーティストの写真からほぼ本物の人物を生成することから、スケッチや顔のセグメンテーションをリアルな画像に変換することまで、さまざまなことができます。

9. アイガー

これは予算の問題や明確なビジョンの欠如によるものかもしれませんが、関連する機械学習の専門知識を持つ人材を見つけることは、スタートアップにとって常に課題です。さらに重要なのは、この分野は常に発展し続けていることです。

そのため、最近ではコード不要の機械学習プラットフォームが急増しており、Google や Apple などの企業がモデルを迅速にトレーニングするための独自のツールセットをリリースしています。

この魅力的なオープンソースの機械学習プロジェクトは、コードを記述せずにモデルのトレーニング/適合、テスト、使用を可能にすることで、まさにそれを実現します。 GUI ドラッグアンドドロップバージョンはまだ開発中ですが、このプロジェクトのコマンドラインツールを使用して多くのことを実現できます。

 //モデルをトレーニングまたは適合する fit -dp 'path_to_your_csv_dataset.csv' -yml 'path_to_your_yaml_file.yaml'   
 
 // 評価するevaluate -dp 'path_to_your_evaluation_dataset.csv'   
 
 //predictigel predict -dp 'テストデータセットへのパス.csv'