この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 AIは人間を超えるという新たな一歩を踏み出した。 最近、国際的に権威のあるマシンビジョンの質問回答リストVQA Leaderboard がデータを更新しました。 初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー"> ご存知のとおり、このタスクにおける私たち人間の基準値はわずか80.83%です。 この成果は、Alibaba DAMO Academy チームのAliceMind-MMUによって達成されました。 この動きは、AI が 2015 年と 2018 年にそれぞれ視覚認識とテキスト理解で人間を上回った後、マルチモーダル技術でも飛躍的な進歩を遂げたことを意味します。 AIはあなたよりも画像を読むのが得意ですこの AI は画像を読み取るのがどのくらい得意ですか? 理解するには次の例を見てください。 AIに「これらのおもちゃは何に使うのですか?」と尋ねると、 小さなクマが着ているドレスに応じて答えます。 初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー"> AIに別の質問をします。「男性のサッカー帽子はどのチームを表していますか?」 帽子の中の文字「B」に基づいて答えます。 初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー"> チャレンジを増やして、別のチャレンジに挑戦してみましょう。 「写真のおもちゃの男のIPはどの映画のものですか?」 この時、写真に写っているおもちゃや戦闘シーンなどの情報をもとにAIが推論を行います。 しかし、結局、答えは正確でした。 初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー"> たとえば、次の例では、AI が写真の詳細な情報をキャプチャして、質問に正確に答えます。 初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">まあ、丁寧とも言えるでしょう。 これはどうやって行うのですか?おそらく、上記のケースは人間にとってそれほど難しいことではないかもしれません。 しかし、AIにとってそれは簡単な作業ではありません。 主な難しさは次のとおりです。
どうやって破るの? Alibaba DAMO Academy は、多数の革新的なアルゴリズムを組み込んだ AI ビジュアルテキスト推論システムを体系的に設計しました。 初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">具体的には、大きく分けて以下の4つの内容に分けられます。
このモデルに使われている技術は専門家からも認められているようです。 例えば、マルチモーダル事前トレーニングモデル E2E-VLP は、トップクラスの国際会議 ACL2021 に採択されました。 初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">VQAについてVQA は AI 分野における最も困難な課題の 1 つと言えます。 単一の AI モデルの場合、VQA テスト ペーパーの難易度は「異常」と表現できます。 テストでは、AI は与えられた画像と自然言語の質問に基づいて正しい自然言語の回答を生成する必要があります。 つまり、単一の AI モデルに複雑なコンピューター ビジョンと自然言語テクノロジを統合する必要があります。
しかし、VQA の課題を解決することは、汎用人工知能の開発にとって大きな意義があります。 そのため、世界最高峰のコンピュータービジョンカンファレンスであるCVPRは、2015年から6年連続でVQAチャレンジを開催しています。 マイクロソフト、フェイスブック、スタンフォード大学、アリババ、百度など多くのトップ機関が参加しました。 同時に、20万枚以上の実際の写真と110万のテスト問題を含む、世界最大かつ最も認知度の高いVQAデータセットも形成されました。 初めて人間を超えた! 「絵を読み取り、意味を理解する」ことに関しては、AI は人間の目よりも優れています | DAMO アカデミー">今年6月、VQA 2021チャレンジに応募した55チームの中で、アリババDAMOアカデミーが優勝し、2位に約1パーセントポイント、昨年の優勝者に3.4パーセントポイントの差をつけたと理解されている。 わずか 2 か月後、DAMO アカデミーは再び、正解率 81.26% で VQA リーダーボードの世界新記録を樹立しました。 ダルマアカデミーは次のようにコメントした。
関連論文リンク: [1] https://aclanthology.org/2021.acl-long.42/ VQA の例のリンク: DAMO アカデミー AliceMind オープンソース リンク: |
<<: マイクロソフトは1350億のパラメータを持つスパースニューラルネットワークを使用して、各特徴を2値化することで検索結果を改善している。
>>: 騒動を巻き起こしたディープマインドの論文は万能ではない
[[228774]]ビッグデータ概要編集者: Wanjun、VVN、Zhang Lijun、Yun...
Canalysのアナリスト、ベン・キャディ氏とキーレン・ジェソップ氏は最近、一部の消費者が新世代のP...
多くのニューラル ネットワーク モデルと同様に、オブジェクト検出モデルは大量のデータでトレーニングす...
今最もホットな分野といえば、間違いなく「人工知能」でしょう。給与面でも人材ギャップの面でも、この分野...
少し前に、スローン財団は2022年度スローン研究賞の受賞者を発表しました。Chen Danqi、Fa...
大規模言語モデル (LLM) は常識理解やコード生成などのタスクでは大きな進歩を遂げていますが、数学...
face_recognition は、強力でシンプル、使いやすい顔認識オープンソース プロジェクトで...
[[263447]]人工知能技術の継続的な導入は、新たな産業発展の中核的な原動力となり、さまざまな...
「選択ソート」は実際の応用では「挿入ソート」ほど広範囲ではありませんが、ソートアルゴリズムの研究に...
[[342159]]今日の IoT のユースケースでは、デバイスが生成した大量のデータを分析したり、...
人工知能はここ2年で急速に発展し、狂気のレベルにまで達しました。例えば、ロボットは人間社会の「市民」...
2018 CES(国際コンシューマー・エレクトロニクス・ショー)が1月9日から12日まで米国ラスベガ...