AIが「軍事顧問」に?まずはRedditユーザーを獲得しよう

AIが「軍事顧問」に?まずはRedditユーザーを獲得しよう

[[322491]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

最近、シアトルの研究者らは「TuringAdvice」と呼ばれる新たな人工知能のグランドチャレンジを立ち上げました。これは、現実世界の言語を使用する人間に有用なアドバイスを提供できる言語モデルの作成に焦点を当てています。

TuringAdvice チャレンジは、動的な RedditAdvice データセットに基づいています。 Reddit Advice は、このチャレンジのために、過去 2 週間に Reddit グループで最も多くの賛成票を獲得したアドバイスをクラウドソーシングで集めたデータセットとして作成されました。この課題をクリアするには、機械による推奨が一般的な人間の推奨と同等かそれ以上の有用性を備えていなければなりませんでした。

TuringAdvice の一環として、研究者らはアドバイスを提供する AI モデルをトレーニングするための静的 RedditAdvice 2019 データセットもリリースしました。これには、Reddit サブコミュニティのユーザーが共有した 188,000 のコンテキストからの 616,000 件のアドバイスが含まれています。

予備分析によると、Google の T5 (昨年秋に導入された 110 億のパラメータを持つモデル) などの高度なモデルは、モデレーターが少なくとも人間の提案と同等に有用であると判断する提案を作成するケースはわずか 9% に過ぎません。研究者らは、Grover Transformer モデルと TF-IDF のバージョンも評価しました。この研究では、Google の BERT のような一般的な双方向 NLP モデルは評価しませんでした。これは、これらのモデルがテキスト生成において左から右へのモデルよりも劣っていると一般に考えられているためです。人間関係、法律問題、日常生活に関するアドバイスについては、人間とコンピュータの比較デモをオンラインで見つけることができます。

「今日の最大のモデルはREDDITADVICEに苦戦しているため、新しいモデルが普及していくのを見るのは楽しみだ」と、TuringAdviceに関する最近発表された論文に書かれている。

「私たちは、現在、深刻な問題があると考えています。それは、人間が現実世界で言語を使用する方法と、私たちの評価方法で測定できるものとの間にギャップがあるということです。現在主流となっているパラダイムは、静的なデータセットを研究し、その出力が事前に定義された正解とどれほど類似しているかに基づいて機械を評価することです。」

「しかし、アドバイスをしたり、誰かに概念を教えたりといった現実世界で言語を使ってコミュニケーションをとる場合、比較できる普遍的な正解はほとんどなく、それは私たちが達成したい漠然とした目標にすぎません。私たちは、ベンチマークと現実世界の言語使用の間のギャップを埋めるためのフレームワークを導入します。」

著者らは、TuringAdvice チャレンジによる AI の進歩により、人間にアドバイスを提供したり、仮想セラピストとして機能したりできるより優れた AI が生まれる可能性があると述べています。

結果が現実世界の言語使用法と一致していることを確認するために、研究チームは動的評価方法を選択し、最近 2 週間にわたって Reddit のさまざまなサブコミュニティから 200 の状況を収集しました。彼らがテストシナリオとして推奨を選んだのは、それが誰もがよく知っているものであり、読解などのコアな NLP タスクと重複しているからです。

TuringAdvice チャレンジはワシントン大学とアレン AI 研究所の共同研究であり、arXiv で先週公開された研究論文に詳細が記載されています。この論文のタイトルは「現実世界の言語使用による機械の評価」です。アレン研究所の以前のチームを率い、この論文の共著者でもあるワシントン大学の准教授アリ・ファルハディ氏は、彼のAIスタートアップ企業であるXnorが最近アップルに買収されたと語った。

すべてのモデルのパフォーマンス評価は、Amazon の Mechanical Turk を通じて雇用された人間によって行われます。この論文は、AIモデルのトレーニング用データの取得方法について不満を述べており、メカニカルタークの作業員を雇うことは、助けが必要な人間に応じて自動機械による提案を出すよりも倫理的であると主張している。また、タスクの実行に対して報酬を得ることで外発的動機付けが生まれることも認めている。人間の提案よりも機械の提案を選ぶ傾向のある労働者は解雇された。

主任研究員のローワン・ゼラーズ氏はインタビューで、研究者にはモデルを作成し、調整する機会が与えられると明らかにした。第2ラウンドのリーダーボードの結果は、今後数か月以内に発表される予定だ。

研究者らは、Redditのサブコミュニティで共有されている人気のアドバイスを選んだのは、人々がRedditで助けを求めるリクエストに応じるときに経験するような、ある種の内発的動機付けを生み出そうとしたからだと述べた。

TuringAdvice Challenge の焦点の 1 つは価格です。 Mechanical Turk で 200 件の推奨事項を評価するには、約 370 ドルかかります。今後のチャレンジに参加する人は、モデルを評価してもらったり、TuringAdvice のリーダーボードに掲載してもらったりするために、Mechanical Turk の料金を支払う必要があります。

TuringAdvice は、より堅牢な自然言語モデルを構築するために過去 1 年間に作成された最新のチャレンジです。昨年秋、ワシントン大学のNLPラボは、ニューヨーク大学、FacebookのAIリサーチ、Samsung Researchと共同で、パフォーマンスを評価するためのより複雑な一連のタスクであるSuperGLUEチャレンジと「リーダーボード」を立ち上げました。

<<:  1億3000万元の無人公共交通システムの調達に関する簡単な分析:車両のインターネットの商用利用の条件が整っている

>>:  トリソララン人は救われた!ディープラーニングは三体問題を解決する

ブログ    
ブログ    

推薦する

顔認識の時代の準備はできていますか?

[51CTO.comからのオリジナル記事] 近年、生体認証技術はますます成熟し、私たちの生活の中に...

AI時代のRedis

[[328841]] 【51CTO.com クイック翻訳】リレーショナル データベースは依然として...

食べられる「論理ゲート」:科学者たちはデザートを「ミニコンピューター」に変えた

過去 10 年間で、食品業界では 3D プリント食品、食用センサー、ロボット調理、AR ダイニングな...

...

対称暗号化アルゴリズムと非対称暗号化アルゴリズムの違いは何ですか?

Q: 対称暗号化アルゴリズムと非対称暗号化アルゴリズムの違いは何ですか? 特に暗号化、署名、ハッシ...

...

Pythonを使用して機械学習モデルを作成する方法

導入新しいモデルをトレーニングしたときに、Flask コード (Python Web フレームワーク...

スマートセキュリティカメラの3つの主要市場

2020 年に企業のオーナーや管理者が直面した健康、安全、セキュリティの課題は、非常に明確になりまし...

クラウドコンピューティングの人工知能の開発は遅いものの、注目を集めています

IT プロフェッショナルが AI の適用を実験する際、その多くはパブリック クラウドでそれを実行する...

爆発!ローカル展開、複数のAIモデル間の簡単な切り替え

私は週末に AI で遊んでいて、個人的な知識ベースをローカルに展開しています。基本的には OpenA...

...

AI給与動向:給与が急上昇中!

AI プログラマーの平均給与は約 10 万ドルから 15 万ドルですが、大金を稼ぐには AI エン...

AIを活用してデジタル資産管理ワークフローを効率化する方法

[[412045]]人工知能は、マーケティングテクノロジーを含むあらゆる業界の状況を変えています。マ...

自動運転の3D視覚認識アルゴリズムを理解するための1万語

自動運転アプリケーションでは、最終的には 3D シーン認識が必要になります。理由は簡単です。車は画像...