AIが「軍事顧問」に?まずはRedditユーザーを獲得しよう

AIが「軍事顧問」に?まずはRedditユーザーを獲得しよう

[[322491]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

最近、シアトルの研究者らは「TuringAdvice」と呼ばれる新たな人工知能のグランドチャレンジを立ち上げました。これは、現実世界の言語を使用する人間に有用なアドバイスを提供できる言語モデルの作成に焦点を当てています。

TuringAdvice チャレンジは、動的な RedditAdvice データセットに基づいています。 Reddit Advice は、このチャレンジのために、過去 2 週間に Reddit グループで最も多くの賛成票を獲得したアドバイスをクラウドソーシングで集めたデータセットとして作成されました。この課題をクリアするには、機械による推奨が一般的な人間の推奨と同等かそれ以上の有用性を備えていなければなりませんでした。

TuringAdvice の一環として、研究者らはアドバイスを提供する AI モデルをトレーニングするための静的 RedditAdvice 2019 データセットもリリースしました。これには、Reddit サブコミュニティのユーザーが共有した 188,000 のコンテキストからの 616,000 件のアドバイスが含まれています。

予備分析によると、Google の T5 (昨年秋に導入された 110 億のパラメータを持つモデル) などの高度なモデルは、モデレーターが少なくとも人間の提案と同等に有用であると判断する提案を作成するケースはわずか 9% に過ぎません。研究者らは、Grover Transformer モデルと TF-IDF のバージョンも評価しました。この研究では、Google の BERT のような一般的な双方向 NLP モデルは評価しませんでした。これは、これらのモデルがテキスト生成において左から右へのモデルよりも劣っていると一般に考えられているためです。人間関係、法律問題、日常生活に関するアドバイスについては、人間とコンピュータの比較デモをオンラインで見つけることができます。

「今日の最大のモデルはREDDITADVICEに苦戦しているため、新しいモデルが普及していくのを見るのは楽しみだ」と、TuringAdviceに関する最近発表された論文に書かれている。

「私たちは、現在、深刻な問題があると考えています。それは、人間が現実世界で言語を使用する方法と、私たちの評価方法で測定できるものとの間にギャップがあるということです。現在主流となっているパラダイムは、静的なデータセットを研究し、その出力が事前に定義された正解とどれほど類似しているかに基づいて機械を評価することです。」

「しかし、アドバイスをしたり、誰かに概念を教えたりといった現実世界で言語を使ってコミュニケーションをとる場合、比較できる普遍的な正解はほとんどなく、それは私たちが達成したい漠然とした目標にすぎません。私たちは、ベンチマークと現実世界の言語使用の間のギャップを埋めるためのフレームワークを導入します。」

著者らは、TuringAdvice チャレンジによる AI の進歩により、人間にアドバイスを提供したり、仮想セラピストとして機能したりできるより優れた AI が生まれる可能性があると述べています。

結果が現実世界の言語使用法と一致していることを確認するために、研究チームは動的評価方法を選択し、最近 2 週間にわたって Reddit のさまざまなサブコミュニティから 200 の状況を収集しました。彼らがテストシナリオとして推奨を選んだのは、それが誰もがよく知っているものであり、読解などのコアな NLP タスクと重複しているからです。

TuringAdvice チャレンジはワシントン大学とアレン AI 研究所の共同研究であり、arXiv で先週公開された研究論文に詳細が記載されています。この論文のタイトルは「現実世界の言語使用による機械の評価」です。アレン研究所の以前のチームを率い、この論文の共著者でもあるワシントン大学の准教授アリ・ファルハディ氏は、彼のAIスタートアップ企業であるXnorが最近アップルに買収されたと語った。

すべてのモデルのパフォーマンス評価は、Amazon の Mechanical Turk を通じて雇用された人間によって行われます。この論文は、AIモデルのトレーニング用データの取得方法について不満を述べており、メカニカルタークの作業員を雇うことは、助けが必要な人間に応じて自動機械による提案を出すよりも倫理的であると主張している。また、タスクの実行に対して報酬を得ることで外発的動機付けが生まれることも認めている。人間の提案よりも機械の提案を選ぶ傾向のある労働者は解雇された。

主任研究員のローワン・ゼラーズ氏はインタビューで、研究者にはモデルを作成し、調整する機会が与えられると明らかにした。第2ラウンドのリーダーボードの結果は、今後数か月以内に発表される予定だ。

研究者らは、Redditのサブコミュニティで共有されている人気のアドバイスを選んだのは、人々がRedditで助けを求めるリクエストに応じるときに経験するような、ある種の内発的動機付けを生み出そうとしたからだと述べた。

TuringAdvice Challenge の焦点の 1 つは価格です。 Mechanical Turk で 200 件の推奨事項を評価するには、約 370 ドルかかります。今後のチャレンジに参加する人は、モデルを評価してもらったり、TuringAdvice のリーダーボードに掲載してもらったりするために、Mechanical Turk の料金を支払う必要があります。

TuringAdvice は、より堅牢な自然言語モデルを構築するために過去 1 年間に作成された最新のチャレンジです。昨年秋、ワシントン大学のNLPラボは、ニューヨーク大学、FacebookのAIリサーチ、Samsung Researchと共同で、パフォーマンスを評価するためのより複雑な一連のタスクであるSuperGLUEチャレンジと「リーダーボード」を立ち上げました。

<<:  1億3000万元の無人公共交通システムの調達に関する簡単な分析:車両のインターネットの商用利用の条件が整っている

>>:  トリソララン人は救われた!ディープラーニングは三体問題を解決する

ブログ    

推薦する

Google のアルゴリズムの背後: 検索リクエストは平均 2,400 キロメートルの往復を移動する

3月12日の朝、Googleが検索リクエストを完了するのにかかった時間は1秒未満でしたが、平均往復距...

MIT、筋肉信号を使ってドローンを制御するシステムを開発

MITの研究者たちは、人間とロボットのシームレスなコラボレーションに近づく可能性のある新しいシステム...

投資管理と AI: 顧客関係と投資収益の向上

正直に言うと、顧客はおそらく、投資マネージャーが使用する高度な AI ツールを気にしていないでしょう...

...

アップルが従業員を解雇し調整、好景気の時代とは真逆! Apple AI の堀とは何でしょうか?

ウォール・ストリート・ジャーナルによると、アップルは最近、経営陣の再編と人事異動を行う措置を講じたと...

...

AI プロジェクトの 85% が失敗する理由は何ですか?

現在、人工知能(AI)は、人事、サプライチェーン、マルチレベルマーケティングなど、さまざまな分野で広...

興味深い微表情とAI技術

イギリスの企業が、人が正直に話しているかどうかを識別できるシステムを発明したと言われています。また、...

ロボット開発者イノベーションデー | Horizo​​n RDK と NodeHub の新製品

7月25日、「Horizo​​n 2023 Robotics Developer Innovatio...

Photoshop の新しい AI 機能により、数回クリックするだけで空を置き換えることができます

海外メディアの報道によると、 AdobeはPhotoshopにAIを搭載した空の置き換えツールを追加...

「5つの一般的なアルゴリズム」分岐アルゴリズムとアイデアを図解で紹介

[[355166]]この記事はWeChatの公開アカウント「bigsai」から転載したもので、著者は...

...

現実世界の問題を解決するための 4 つの機械学習戦略

広く認識されている機械学習の形式には、教師あり学習、教師なし学習、半教師あり学習、強化学習の 4 つ...

ついに、データ、情報、アルゴリズム、統計、確率、データマイニングをわかりやすく説明してくれる人がいました!

[[282346]]データとは何かデータとは何でしょうか? これは私たちがほとんど無視する質問にな...

AIビッグモデルオープンソースヒーロー!ザッカーバーグ氏はLLaMAリークについて議会から質問を受けた。「慣れている」

ザッカーバーグ氏は最近また大きなトラブルに巻き込まれた。リチャード・ブルーメンソール議員(プライバシ...