動的ベンチマークDynabenchがリリースされました。Facebookは人間を使って人工知能を「尋問」したいと考えています

Facebook は、人工知能分野初の動的データ収集およびベンチマークプラットフォームである Dynabench を構築し、共有しています。人間によるテストとモデルの反復を組み合わせて、難しい新しいデータとより最適化された AI モデルを作成します。

[[345339]]

過去 10 年ほどにわたる人工知能の大きな成功は、大量のデータと計算能力によるものとされることが多いですが、「ベンチマーク」も進歩を推進する上で重要な役割を果たしています。

SOTA の結果を改善するには、研究者は自分のモデルのパフォーマンスを同僚が開発したモデルと比較する方法が必要です。正確な比較は、新しいモデルが実際にその分野の既存のモデルよりも優れていることを確認するための前提条件です。このプロセスは「ベンチマーキング」と呼ばれます。

研究者は AI を使った比較テストを実行し、AI が実際にどれほど進んでいるかを確認できます。たとえば、1,400 万枚の画像が公開されているデータセットである ImageNet は、画像認識の目標を設定します。 MNIST は手書き数字認識で同じことを行い、GLUE (General Language Understanding Evaluation) は自然言語処理で同じことを行い、GPT-3 のような画期的な言語モデルにつながりました。

ベンチマークは、特に自然言語処理 (NLP) の分野では、ますます急速に飽和状態に達しています。研究チームがMNISTで人間レベルのパフォーマンスを達成するのに約18年、ImageNetで人間を上回るのに約6年かかりましたが、GLUE言語理解ベンチマークで人間を上回るのには約1年しかかかりませんでした。

設定された目標はすぐに超えられてしまいます。 ImageNet もアップデートで GLUE に置き換えられましたが、これはより難しい言語タスクのセットです。

それでも、AI が超人的なレベルに達し、何らかの課題で人間を上回ったと研究者が報告するのは時間の問題です。「ベンチマーク」がアルゴリズムとモデルの進歩を継続的に推進することを望むなら、これは解決すべき緊急の問題です。

Dynabench: 新しい動的敵対的ベンチマーク

Facebook は、研究者がより強力な自然言語処理 (NLP) モデルを開発するのに役立つことを期待して、人工知能と、それを妨害しようと全力を尽くす人間を対決させる新しいテスト方法を発表した。「Dynabench」と呼ばれるこのベンチマークは、人々の選択に基づいて変化し、現在のベンチマーク方法の欠点を解決し、より堅牢な人工知能ソフトウェアの開発を促進します。

[[345340]]

Dynabench のソリューションは、プロセスに人間のテスターを参加させることで、ベンチマークプロセスを部分的に有効にすることです。その考え方は、人間は、あらかじめパッケージ化された一連のテスト問題よりもモデルの精度をより正確に評価でき、ニューラルネットワークに対してより困難で創造的な課題を提示できるというものです。

これは、現在の静的なベンチマークよりも優れたモデル測定メトリックであり、最も重要な状況、つまり、固定されたデータポイントのセットでは捉えられない複雑で絶えず変化する方法で行動し反応する人々と対話する場合に AI モデルがどのように機能するかをより適切に反映します。

「既存のベンチマークは非常に誤解を招く可能性がある」と、このツールの開発チームを率いたフェイスブックAIリサーチのダウ・キエラ氏は述べた。「ベンチマークに重点を置きすぎると、より広範な目標を無視することになり、テストがタスクになってしまう可能性がある」

静的ベンチマーク - 人との交流の経験を無視する

静的なベンチマークでは、モデルが特定の 1 つのことに過度に集中することになりますが、最終的に私たちが重視するのは特定のメトリックやタスクではなく、AI システムが人々と対話する際にどれだけうまく機能するかです。

人工知能の真の評価基準は、正確さや混乱ではなく、直接的または間接的に人々とコミュニケーションをとる際のモデルのエラー率であるべきです。

Kiela 氏は、これが現在 NLP が直面している特定の問題であると考えています。 GPT-3 のような言語モデルは言語を模倣するのが非常に得意なのでインテリジェントですが、これらのシステムが実際にどの程度理解しているかを言うのは困難です。

知能テストを受けるのと同じように、IQ テストを受けることはできますが、その人が実際にある科目を習得したかどうかはわかりません。そのためには、彼らと話し、質問する必要があります。

大量の事実をただ暗記する学生と同じように、この戦略は筆記試験では優れた成績を収めるかもしれませんが、面接で創造的で予想外の質問をされた場合にはそれほど効果的ではありません。

Dynabench も同様のことを行っており、「人間を使って人工知能に質問する」というものです。

Facebook 社もウェブページを立ち上げ、関心のある人たちにサイトにアクセスしてそのモデルをテストするよう呼びかけている。たとえば、言語モデルに Wikipedia ページを与え、質問をしてその回答を評価することができます。

ある意味、この考え方は、人々がすでに GPT-3 を使用してその限界をテストしている方法に似ています。あるいは、チャットボットがローブナー賞を評価する方法や、チューリングテストのようなもの。

AI がテストラウンドを完了すると、Dynabench はモデルを騙した質問を識別し、新しいテストセットにコンパイルします。

研究者はこのテストセットを使用して、より新しく複雑なモデルを構築できます。その後、最初の AI が答えられなかった質問に答えられるモデルが開発されると、Dynabench はプロセスを繰り返し、より難しい質問を含む別のテストデータセットをコンパイルします。

今のところ、Dynabench は言語モデルに焦点を当てます。これは、人間にとって最も理解しやすい AI モデルの 1 つだからです。「誰もが言語を話します」とキエラは言う。「これらのモデルを妨害する方法について、実際の知識は必要ありません。」

この方法は、音声認識システムや画像認識システムなど、他のタイプのニューラルネットワークにも適用できます。「人々に自分の画像をアップロードしてもらうか、テストのために何かを描いてもらう方法を見つければいいだけです」とキエラ氏は言う。 Facebook の長期的なビジョンは、Dynabench をオープンにして、誰もが独自のモデルを開発し、独自のデータを収集できるようにすることです。

Facebook は、NLP モデルをテストするより良い方法があることを AI コミュニティに納得させたいと考えています。これにより、モデルとアルゴリズムの進歩が加速し、人間とのやり取りの体験が真に向上し、やり取りの内容を真に理解できるようになります。

<<: IBMは「キーポイント分析」技術でProject Debaterの機能をさらに向上

>>: 人工知能を活用してビジネスを成長させ、企業価値を創造する方法