動的ベンチマークDynabenchがリリースされました。Facebookは人間を使って人工知能を「尋問」したいと考えています

動的ベンチマークDynabenchがリリースされました。Facebookは人間を使って人工知能を「尋問」したいと考えています

Facebook は、人工知能分野初の動的データ収集およびベンチマーク プラットフォームである Dynabench を構築し、共有しています。人間によるテストとモデルの反復を組み合わせて、難しい新しいデータとより最適化された AI モデルを作成します。

[[345339]]

過去 10 年ほどにわたる人工知能の大きな成功は、大量のデータと計算能力によるものとされることが多いですが、「ベンチマーク」も進歩を推進する上で重要な役割を果たしています。

SOTA の結果を改善するには、研究者は自分のモデルのパフォーマンスを同僚が開発したモデルと比較する方法が必要です。正確な比較は、新しいモデルが実際にその分野の既存のモデルよりも優れていることを確認するための前提条件です。このプロセスは「ベンチマーキング」と呼ばれます。

研究者は AI を使った比較テストを実行し、AI が実際にどれほど進んでいるかを確認できます。たとえば、1,400 万枚の画像が公開されているデータセットである ImageNet は、画像認識の目標を設定します。 MNIST は手書き数字認識で同じことを行い、GLUE (General Language Understanding Evaluation) は自然言語処理で同じことを行い、GPT-3 のような画期的な言語モデルにつながりました。

ベンチマークは、特に自然言語処理 (NLP) の分野では、ますます急速に飽和状態に達しています。研究チームがMNISTで人間レベルのパフォーマンスを達成するのに約18年、ImageNetで人間を上回るのに約6年かかりましたが、GLUE言語理解ベンチマークで人間を上回るのには約1年しかかかりませんでした。

設定された目標はすぐに超えられてしまいます。 ImageNet もアップデートで GLUE に置き換えられましたが、これはより難しい言語タスクのセットです。

それでも、AI が超人的なレベルに達し、何らかの課題で人間を上回ったと研究者が報告するのは時間の問題です。 「ベンチマーク」がアルゴリズムとモデルの進歩を継続的に推進することを望むなら、これは解決すべき緊急の問題です。

Dynabench: 新しい動的敵対的ベンチマーク

Facebook は、研究者がより強力な自然言語処理 (NLP) モデルを開発するのに役立つことを期待して、人工知能と、それを妨害しようと全力を尽くす人間を対決させる新しいテスト方法を発表した。 「Dynabench」と呼ばれるこのベンチマークは、人々の選択に基づいて変化し、現在のベンチマーク方法の欠点を解決し、より堅牢な人工知能ソフトウェアの開発を促進します。

[[345340]]

Dynabench のソリューションは、プロセスに人間のテスターを参加させることで、ベンチマーク プロセスを部分的に有効にすることです。その考え方は、人間は、あらかじめパッケージ化された一連のテスト問題よりもモデルの精度をより正確に評価でき、ニューラル ネットワークに対してより困難で創造的な課題を提示できるというものです。

これは、現在の静的なベンチマークよりも優れたモデル測定メトリックであり、最も重要な状況、つまり、固定されたデータ ポイントのセットでは捉えられない複雑で絶えず変化する方法で行動し反応する人々と対話する場合に AI モデルがどのように機能するかをより適切に反映します。

「既存のベンチマークは非常に誤解を招く可能性がある」と、このツールの開発チームを率いたフェイスブックAIリサーチのダウ・キエラ氏は述べた。「ベンチマークに重点を置きすぎると、より広範な目標を無視することになり、テストがタスクになってしまう可能性がある」

静的ベンチマーク - 人との交流の経験を無視する

静的なベンチマークでは、モデルが特定の 1 つのことに過度に集中することになりますが、最終的に私たちが重視するのは特定のメトリックやタスクではなく、AI システムが人々と対話する際にどれだけうまく機能するかです。

人工知能の真の評価基準は、正確さや混乱ではなく、直接的または間接的に人々とコミュニケーションをとる際のモデルのエラー率であるべきです。

Kiela 氏は、これが現在 NLP が直面している特定の問題であると考えています。 GPT-3 のような言語モデルは言語を模倣するのが非常に得意なのでインテリジェントですが、これらのシステムが実際にどの程度理解しているかを言うのは困難です。

知能テストを受けるのと同じように、IQ テストを受けることはできますが、その人が実際にある科目を習得したかどうかはわかりません。そのためには、彼らと話し、質問する必要があります。

大量の事実をただ暗記する学生と同じように、この戦略は筆記試験では優れた成績を収めるかもしれませんが、面接で創造的で予想外の質問をされた場合にはそれほど効果的ではありません。

Dynabench も同様のことを行っており、「人間を使って人工知能に質問する」というものです。

Facebook 社もウェブページを立ち上げ、関心のある人たちにサイトにアクセスしてそのモデルをテストするよう呼びかけている。たとえば、言語モデルに Wikipedia ページを与え、質問をしてその回答を評価することができます。

ある意味、この考え方は、人々がすでに GPT-3 を使用してその限界をテストしている方法に似ています。あるいは、チャットボットがローブナー賞を評価する方法や、チューリングテストのようなもの。

AI がテスト ラウンドを完了すると、Dynabench はモデルを騙した質問を識別し、新しいテスト セットにコンパイルします。

研究者はこのテスト セットを使用して、より新しく複雑なモデルを構築できます。その後、最初の AI が答えられなかった質問に答えられるモデルが開発されると、Dynabench はプロセスを繰り返し、より難しい質問を含む別のテスト データセットをコンパイルします。

今のところ、Dynabench は言語モデルに焦点を当てます。これは、人間にとって最も理解しやすい AI モデルの 1 つだからです。 「誰もが言語を話します」とキエラは言う。「これらのモデルを妨害する方法について、実際の知識は必要ありません。」

この方法は、音声認識システムや画像認識システムなど、他のタイプのニューラル ネットワークにも適用できます。 「人々に自分の画像をアップロードしてもらうか、テストのために何かを描いてもらう方法を見つければいいだけです」とキエラ氏は言う。 Facebook の長期的なビジョンは、Dynabench をオープンにして、誰もが独自のモデルを開発し、独自のデータを収集できるようにすることです。

Facebook は、NLP モデルをテストするより良い方法があることを AI コミュニティに納得させたいと考えています。これにより、モデルとアルゴリズムの進歩が加速し、人間とのやり取りの体験が真に向上し、やり取りの内容を真に理解できるようになります。

<<:  IBMは「キーポイント分析」技術でProject Debaterの機能をさらに向上

>>:  人工知能を活用してビジネスを成長させ、企業価値を創造する方法

ブログ    
ブログ    

推薦する

...

中国科学院による1万語の説明:最先端の画像拡散モデルのレビュー

中国科学院は、Adobe および Apple の研究者と共同で、画像編集における拡散モデルに関する主...

人工知能企業が利益を上げるのは難しいと言われていますが、具体的に何が難しいのでしょうか?

[[272155]] 2016年にAlphaGoが「人間対機械」の競争に勝利して以来、人工知能への...

...

...

IoT が成功するために AI が必要な理由

モノのインターネットは膨大な量のデータを生成します。そのデータは、都市が事故や犯罪を予測するのに役立...

Java プログラミング スキル - データ構造とアルゴリズム「ハフマン コーディング」

基本的な紹介ハフマン符号化は、(ハフマンコーディング) とも訳されます。ハフマン符号化は、ハフマンコ...

世界中のコードの品質が急激に低下、その原因は AI です。 1億5300万行のコードの詳細な分析レポートが公開されました

AI が世界中のコード品質を低下させています。最近、GitClear が発表した調査レポートによると...

経済の冬の後には人工知能の春が来る

企業が選択する経済発展の道は、多くの場合、時代の背景によって決まります。さまざまな経済状況下で適切な...

2018年は人類の墓掘り元年となるのか?人工知能のせいではない

2018年が近づいてきました。2018年のテーマを大胆に予想すると、間違いなく人工知能が人気のテーマ...

年末総括:2020年の顔認識業界の注目イベント一覧

「顔スキャン」時代の到来が加速するにつれ、人々が旅行したり、出勤記録を取ったり、医療の予約を取ったり...

人工知能について知っておくべきことすべて

人工知能とは何でしょうか? この質問に対する答えは、誰に尋ねるかによって異なります。 1950 年代...

エネルギーの未来: 仮想発電所はエネルギー転換を加速できるか?

コペルニクス気候変動サービスによると、2023年は記録上最も暖かい年となっただけでなく、世界の平均表...

...

アリババのロボットが200語のエッセイを修正し、8つの間違いを発見

最近、浙江外国語大学国際学院で、アリババAIが試験の採点を完了し、200語のエッセイに8つの誤りを発...