Facebook の最新傑作 Pythia: モジュール式、プラグアンドプレイ、モデルの進行を大幅に簡素化

Facebook の人工知能研究部門は最近、モジュール式のプラグアンドプレイフレームワークである Pythia をリリースしました。目標は、データサイエンティストが AI モデルを迅速に構築、複製、ベンチマークできるようにし、Github でオープンソース化された VQA v2.0 データセットモデルのパフォーマンスを 65.67% から 70.22% に向上させることです。

Facebook は最近、開発者コミュニティ向けの一連のツールをリリースしました。 Facebookの人工知能研究部門は、1月の画像処理ライブラリSpectrum、昨年末の自然言語処理モデリングフレームワークPyText、11月の人工知能強化学習プラットフォームHorizonのオープンソースリリースに続き、モジュール式のプラグアンドプレイフレームワークであるPythiaをリリースした。

Pythia は、データサイエンティストが人工知能モデルを迅速に構築、複製、ベンチマークできるようにすることを目的としており、Github でオープンソース化されています。

Pythia（中国語では一般的にPythiaと訳される）という名前の由来も非常に興味深いです。古代ギリシャ神話では、ピュティアはパルナッソス山のデルポイ神殿に仕えたアポロンの巫女でした。彼女はアポロンの神託を伝えることで有名で、未来を予言できると信じられていました。

プラグアンドプレイの Pythia: データサイエンティストが AI モデルを迅速に構築、複製、ベンチマークできるようにします。

Pythiaとは何ですか?

Pythia は、視覚と言語の分野でのマルチタスク処理をサポートするディープラーニングフレームワークです。 PyTorch フレームワークに基づくモジュール式のプラグアンドプレイ設計により、研究者は AI モデルを迅速に構築、複製、ベンチマークできます。

Pythia は、視覚データに関連する質問に答えたり、画像の注釈を自動的に生成したりするなど、視覚と言語のタスク向けに設計されています。

Pythia は何ができますか?

Pythia には、最近の AI コンテストである 2018 VQA チャレンジと 2018 Vizwiz チャレンジの優勝作品の要素が組み込まれています。機能には、以前の最先端モデルが関連するベンチマーク結果をどのように達成したかを示すリファレンス実装や、新しいモデルのパフォーマンスを迅速にベンチマークする機能が含まれます。

Pythia は、マルチタスクに加えて、分散トレーニングやさまざまなデータセット、カスタム損失、メトリック、スケジューリング、オプティマイザーもサポートします。

ピュティアの特徴

Model Zoo : LoRRA (VQA および TextVQA 上の SoTA)、Pythia モデル (VQA 2018 チャレンジの優勝者)、Ban など、最先端のビジョンモデルと言語モデルのリファレンス実装。
マルチタスク: マルチタスクをサポートし、複数のデータセットでのトレーニングを可能にします。
データセット: VQA、VizWiz、TextVQA、VisualDialog などのさまざまな組み込みデータセットのサポートが含まれます。
モジュール: ビジョンと言語の領域でよく使用される多くのレイヤーの実装を提供します
分散: データ並列処理と分散データ並列処理に基づく分散トレーニングをサポートします。
意見を述べない: データセットとそれに基づくモデルの実装については意見を述べません。
カスタマイズ: カスタマイズされた損失、メトリック、スケジューリング、オプティマイザー、Tensorboard。すべてのユーザーのカスタマイズニーズに適しています。
ユーザーは Pythia を使用して、次の視覚および言語のマルチモーダル研究プロジェクトを立ち上げることができます。 Pythia は、ビジョンと言語データセットに関するチャレンジの開始コードベースとしても機能します (TextVQA チャレンジと VQA チャレンジを参照)。

Pythia の一番良いところは何ですか?

Pythia は視覚と言語開発のサブフィールドへの参入を簡素化し、研究者がより迅速なプロトタイピングと実験に集中できるようにします。 Facebook の目標は、これらのモデルと結果の再現性を高めることで進歩を加速することです。これにより、コミュニティが成功するシステムの基盤とベンチマークを構築しやすくなります。

開発者たちはまた、Pythia によってコミュニケーションの障壁が取り除かれることで、研究者が人間とインテリジェントマシンがコミュニケーションするための新しい方法をより迅速に開発できるようになることを期待している。この研究は、複数の理解をより文脈に基づいたマルチモーダルな理解に統合する適応型 AI を研究者が開発するのにも役立つはずです。 Facebook では、このオープンソースのリリースに加えて、ツール、タスク、データセット、参照モデルを継続的に追加していく予定です。

前述の VQA 2018 コンペティションでは、Pythia v0.1 はボトムアップモデルとトップダウンモデルのモジュール再実装から始まり、最終的にコンペティションで優勝しました。

Pythia v0.1 は、モデルアーキテクチャと学習率スケジュールに微妙だが重要な変更を加え、画像機能を微調整し、データ拡張を追加することで、VQA v2.0 データセットでのトップダウンモデルのパフォーマンスを 65.67% から 70.22% に大幅に向上できることを実証しています。

さらに、異なる機能と異なるデータセットでトレーニングされたさまざまなモデルのアンサンブルを使用することで、Pythia v0.1 は「標準」アンサンブルアプローチ (つまり、異なるランダムシードを持つ同じモデル) を 1.31% 大幅に改善できます。全体として、Pythia v0.1 は、VQA v2.0 データセットのテスト標準分割で 72.27% を達成しました。

用語と概念

Pythia は最初からマルチタスクフレームワークとなるように慎重に設計されました。つまり、Pythia を使用すると、複数のタスクとデータセットを一緒にトレーニングできます。

ただし、Pythia はモジュール内の多くの概念を抽象化しているため、Pythia 上で開発するには、Pythia コードベースで使用される概念と用語を理解する必要があります。開発者がこれらの単純な概念を理解すれば、Pythia 上での開発は簡単になります。主な概念と用語は次のとおりです。

タスクとデータセット

Python では、データセットは一連のタスクに分割されます。したがって、タスクはそれに属するデータセットのセットに対応します。たとえば、VQA 2.0、VizWiz、TextVQA はすべて VQA タスクに属します。各タスクとデータセットには、コマンドライン引数で参照するための対応するキーが割り当てられています。

次の表に、タスクとそのデータセットを示します。

次の表は、上記の表の逆、データセットとそのタスクとキーを示しています。

モデル

高度なモデルのリファレンス実装が含まれており、研究論文の複製の基礎として、また新しい研究の出発点として役立ちます。 Pythia は以下の論文で使用されています:

読み取り可能なVQAモデルに向けて（LoRRAモデル）
VQA 2018 チャレンジチャンピオン
VizWiz 2018 チャレンジチャンピオン

タスクやデータセットと同様に、各モデルはキーとともに登録されるため、構成やコマンドライン引数で簡単に参照できます。次の表は、実行できる各モデルのキー名とデータセットを示しています。

レジストリ

Redux グローバルストアに触発されて、Pythia エコシステムに必要な有用な情報がレジストリに登録されます。レジストリは、フレームワークの複数の部分に必要な情報の汎用ストアと考えることができ、情報が必要な場所で情報ソースとして機能します。

レジストリは、上記のようにキーに基づいてモデル、タスク、データセットなども登録します。レジストリ関数は、登録する必要があるクラス (モデルなど) のデコレータとして使用できます。

構成

Pythia のほとんどのパラメータ/設定は、研究のニーズに応じて構成可能です。 Pythia 固有のデフォルト (training_parameters) は次の場所にあります。

pythia/common/defaults/configs/base.yml

詳細なコメントでは各パラメータの使用方法を説明します。使いやすさとモジュール性を高めるために、各データセットの構成は次の場所に個別に保存されます。

pythia/common/defaults/configs/tasks/[タスク]/[データセット].yml

データセットの [task] 値とデータセット部分は、タスクのテーブルから取得できます。モデル構成も別個であり、ユーザーが独自のモデルを作成するときに定義する必要があります。

各データセットの構成が別々であるため、この概念を拡張してマルチタスクを実行し、複数のデータセット構成をここに含めることができます。

プロセッサ

プロセッサの主な目的は、さまざまなデータセットに対してデータ処理パイプラインを可能な限り類似させ、コードの再利用を可能にすることです。

ハンドラは、目的のデータに対応するキーを持つ辞書を受け取り、処理されたデータを含む辞書を返します。これにより、必要な署名を固定することで、プロセッサをロジックの残りの部分から独立させることができます。

プロセッサは、データ処理要件を切り替えるためにすべてのデータセットに使用されます。プロセッサの詳細については、プロセッサのドキュメントを参照してください。

サンプルリスト

SampleList は、maskrcnn-benchmark の BBoxList に触発されていますが、より汎用的です。 Pythia と統合されるすべてのデータセットは、SampleList に整理される Sample を返す必要があります。

現在、SampleList には、バッチ処理やアクセスを簡単にする便利な関数が多数用意されています。たとえば、サンプルはいくつかのキーを持つ辞書です。 SampleList では、これらのキーの値は、テンソルであるかリストであるかに基づいて巧みにグループ化され、辞書に再度割り当てられます。

そのため、エンドユーザーはこれらのキーを適切にグループ化し、モデル内で使用することができます。 Pythia と統合されたモデルは SampleList をパラメーターとして受け取ります。これにより、トレーナーはモデルとデータセットに影響を与えなくなります。 Sample と SampleList の詳細については、ドキュメントをご覧ください。

事前学習済みモデル

Pythia では、推論に事前トレーニング済みのモデルを使用するのは簡単です。以下の表から事前トレーニング済みのモデルを選択し、手順に従って推論を実行するか、EvalAI が評価するための予測を生成します。（この部分では、まずチュートリアルで紹介したデータをインストールする必要があることに注意してください。チュートリアルのリンクは記事の最後にあります）

ここで、事前トレーニング済みモデルにリンクすると仮定すると (テーブルから選択 > 右クリック > リンクアドレスをコピー)、対応する構成は configs/[task]/[dataset]/[model].yml に配置されているはずです。たとえば、vqa2 train_and_val の設定ファイルは configs/vqa/vqa2/pythia_train_and_val.yml になります。 EvalAI で推論を実行するには、次のコマンドを実行します。

val でトレーニングまたは評価を行う場合は、run_type をそれに応じて train または val に変更します。 --run_type を train+val+inference に設定することで、トレーニング、val の推論、推論など、複数の実行タイプを使用することもできます。

--evalai_inference 引数を削除すると、Pythia は推論を実行し、データセットに直接結果を提供します。テストセットには回答/ターゲットがないため、これは機能しないことに注意してください。したがって、これは val セットに対してローカルに推論を実行する場合に便利です。

--evalai_inference 引数を削除すると、Pythia は推論を実行し、データセット上で直接結果を提供します。テストセットには回答/ターゲットがないため、これは機能しないことに注意してください。したがって、これは val セットに対してローカルで推論を実行する場合に便利です。

次の表は、さまざまな事前トレーニング済みモデルの評価メトリックを示しています。

デモ

関連リソース:

GitHub: 翻訳元:

https://github.com/facebookresearch/pythia

デモ：

https://colab.research.google.com/drive/1Z9fsh10rFtgWe4uy8nvU4mQmqdokdIRR

チュートリアル：

翻訳: 翻訳者: 渡辺俊之