動的ベンチマークDynabenchがリリースされました。Facebookは人間を使って人工知能を「尋問」したいと考えています

動的ベンチマークDynabenchがリリースされました。Facebookは人間を使って人工知能を「尋問」したいと考えています

Facebook は、人工知能分野初の動的データ収集およびベンチマーク プラットフォームである Dynabench を構築し、共有しています。人間によるテストとモデルの反復を組み合わせて、難しい新しいデータとより最適化された AI モデルを作成します。

[[345339]]

過去 10 年ほどにわたる人工知能の大きな成功は、大量のデータと計算能力によるものとされることが多いですが、「ベンチマーク」も進歩を推進する上で重要な役割を果たしています。

SOTA の結果を改善するには、研究者は自分のモデルのパフォーマンスを同僚が開発したモデルと比較する方法が必要です。正確な比較は、新しいモデルが実際にその分野の既存のモデルよりも優れていることを確認するための前提条件です。このプロセスは「ベンチマーキング」と呼ばれます。

研究者は AI を使った比較テストを実行し、AI が実際にどれほど進んでいるかを確認できます。たとえば、1,400 万枚の画像が公開されているデータセットである ImageNet は、画像認識の目標を設定します。 MNIST は手書き数字認識で同じことを行い、GLUE (General Language Understanding Evaluation) は自然言語処理で同じことを行い、GPT-3 のような画期的な言語モデルにつながりました。

ベンチマークは、特に自然言語処理 (NLP) の分野では、ますます急速に飽和状態に達しています。研究チームがMNISTで人間レベルのパフォーマンスを達成するのに約18年、ImageNetで人間を上回るのに約6年かかりましたが、GLUE言語理解ベンチマークで人間を上回るのには約1年しかかかりませんでした。

設定された目標はすぐに超えられてしまいます。 ImageNet もアップデートで GLUE に置き換えられましたが、これはより難しい言語タスクのセットです。

それでも、AI が超人的なレベルに達し、何らかの課題で人間を上回ったと研究者が報告するのは時間の問題です。 「ベンチマーク」がアルゴリズムとモデルの進歩を継続的に推進することを望むなら、これは解決すべき緊急の問題です。

Dynabench: 新しい動的敵対的ベンチマーク

Facebook は、研究者がより強力な自然言語処理 (NLP) モデルを開発するのに役立つことを期待して、人工知能と、それを妨害しようと全力を尽くす人間を対決させる新しいテスト方法を発表した。 「Dynabench」と呼ばれるこのベンチマークは、人々の選択に基づいて変化し、現在のベンチマーク方法の欠点を解決し、より堅牢な人工知能ソフトウェアの開発を促進します。

[[345340]]

Dynabench のソリューションは、プロセスに人間のテスターを参加させることで、ベンチマーク プロセスを部分的に有効にすることです。その考え方は、人間は、あらかじめパッケージ化された一連のテスト問題よりもモデルの精度をより正確に評価でき、ニューラル ネットワークに対してより困難で創造的な課題を提示できるというものです。

これは、現在の静的なベンチマークよりも優れたモデル測定メトリックであり、最も重要な状況、つまり、固定されたデータ ポイントのセットでは捉えられない複雑で絶えず変化する方法で行動し反応する人々と対話する場合に AI モデルがどのように機能するかをより適切に反映します。

「既存のベンチマークは非常に誤解を招く可能性がある」と、このツールの開発チームを率いたフェイスブックAIリサーチのダウ・キエラ氏は述べた。「ベンチマークに重点を置きすぎると、より広範な目標を無視することになり、テストがタスクになってしまう可能性がある」

静的ベンチマーク - 人との交流の経験を無視する

静的なベンチマークでは、モデルが特定の 1 つのことに過度に集中することになりますが、最終的に私たちが重視するのは特定のメトリックやタスクではなく、AI システムが人々と対話する際にどれだけうまく機能するかです。

人工知能の真の評価基準は、正確さや混乱ではなく、直接的または間接的に人々とコミュニケーションをとる際のモデルのエラー率であるべきです。

Kiela 氏は、これが現在 NLP が直面している特定の問題であると考えています。 GPT-3 のような言語モデルは言語を模倣するのが非常に得意なのでインテリジェントですが、これらのシステムが実際にどの程度理解しているかを言うのは困難です。

知能テストを受けるのと同じように、IQ テストを受けることはできますが、その人が実際にある科目を習得したかどうかはわかりません。そのためには、彼らと話し、質問する必要があります。

大量の事実をただ暗記する学生と同じように、この戦略は筆記試験では優れた成績を収めるかもしれませんが、面接で創造的で予想外の質問をされた場合にはそれほど効果的ではありません。

Dynabench も同様のことを行っており、「人間を使って人工知能に質問する」というものです。

Facebook 社もウェブページを立ち上げ、関心のある人たちにサイトにアクセスしてそのモデルをテストするよう呼びかけている。たとえば、言語モデルに Wikipedia ページを与え、質問をしてその回答を評価することができます。

ある意味、この考え方は、人々がすでに GPT-3 を使用してその限界をテストしている方法に似ています。あるいは、チャットボットがローブナー賞を評価する方法や、チューリングテストのようなもの。

AI がテスト ラウンドを完了すると、Dynabench はモデルを騙した質問を識別し、新しいテスト セットにコンパイルします。

研究者はこのテスト セットを使用して、より新しく複雑なモデルを構築できます。その後、最初の AI が答えられなかった質問に答えられるモデルが開発されると、Dynabench はプロセスを繰り返し、より難しい質問を含む別のテスト データセットをコンパイルします。

今のところ、Dynabench は言語モデルに焦点を当てます。これは、人間にとって最も理解しやすい AI モデルの 1 つだからです。 「誰もが言語を話します」とキエラは言う。「これらのモデルを妨害する方法について、実際の知識は必要ありません。」

この方法は、音声認識システムや画像認識システムなど、他のタイプのニューラル ネットワークにも適用できます。 「人々に自分の画像をアップロードしてもらうか、テストのために何かを描いてもらう方法を見つければいいだけです」とキエラ氏は言う。 Facebook の長期的なビジョンは、Dynabench をオープンにして、誰もが独自のモデルを開発し、独自のデータを収集できるようにすることです。

Facebook は、NLP モデルをテストするより良い方法があることを AI コミュニティに納得させたいと考えています。これにより、モデルとアルゴリズムの進歩が加速し、人間とのやり取りの体験が真に向上し、やり取りの内容を真に理解できるようになります。

<<:  IBMは「キーポイント分析」技術でProject Debaterの機能をさらに向上

>>:  人工知能を活用してビジネスを成長させ、企業価値を創造する方法

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能オープンプラットフォームの構築が活況を呈しており、AIの将来の発展は有望である

人工知能は、応用と開発のチャンスの時代をもたらしました。人工知能は、新たな産業変革の原動力であるだけ...

Yixue EducationのCui Wei氏:将来、教育分野での授業はロボットに置き換えられるでしょう

[原文は51CTO.comより] 教育業界と人工知能が出会うと、どんな火花が散るでしょうか?国内外の...

...

...

SaaSベースのAIトレーニングがゲームチェンジャーとなる理由

機械学習アプリケーションが増加するにつれて、多くの人が機械学習トレーニング データを使用する利点を理...

インテリジェント運転システムの欠陥解決策の詳細な分析

従来の自動車と比較して、自動運転車は、車両が乗客を安全に目的地まで輸送できるかどうかという実用的な目...

二分木反復アルゴリズム

バイナリ ツリーの事前順序、イン順序、および事後順序のトラバーサルは、アルゴリズムとデータ構造におけ...

パーセントポイントの劉一静氏:おそらくこれは人工知能をこのように見るべきだ

[51CTO.comより] 生活各界におけるデータの急速な増加、ビッグデータ技術の発展、高性能コンピ...

Redis のソースコードを読んで、キャッシュ除去アルゴリズム W-TinyLFU を学びましょう

[[433812]]この記事は董澤潤氏が執筆したWeChat公開アカウント「董澤潤の技術ノート」から...

...

人間をより人間らしくし、機械に触覚を与えましょう!電子皮膚の専門家4人の最新の成果のレビュー

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

LSTM、GRU、ニューラルチューリングマシン: ディープラーニングで最も人気のあるリカレントニューラルネットワークの詳細な説明

リカレント ニューラル ネットワーク (RNN) は、ネットワークに追加の重みを追加してネットワーク...

長文情報の精度はChatGPTを上回る、Metaは大規模モデルの幻覚を軽減する新手法を提案

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIを活用してパイロットプロジェクトを計画する方法

人工知能 (AI) は、あらゆる業界の企業にビジネス運営の成長と改善の機会を提供します。 Fortu...

我が国の人工知能市場の規模は2022年に3705億元に達すると推定されている。

人工知能は、機械を通じて人間の思考と意思決定をシミュレートすることに重点を置いたコンピューターサイエ...