AIは万能か？ AI がまだ直面している課題は何ですか?

[はじめに] 人工知能（特にコンピュータビジョンの分野）に関しては、誰もがこの分野における継続的な進歩に関心を持っています。しかし、人工知能はどの程度まで発展したのでしょうか？ AIはすでに新たな王者なのでしょうか？ Heuritech の CTO である Charles Ollion 氏は、この記事が現在の現実の一部を明らかにできることを期待しています。次は著者が何を語ったのか見てみましょう！

著者はXkcdの漫画に基づいています

私は最近、植物の病気を識別できる分類器について説明した Pete Warden の記事を読みました。この分類器は、人間の目よりもはるかに正確に病気の種類を識別しました。ただし、この分類器は、植物が写っていないランダムな画像に直面すると、非常に驚くべきエラー結果を示します (次の図に示すように、左側の図は、分類器が実際の植物の病気の種類をどれだけ正確に検出するかを示しています。一方、右側の図では、コンピューターのキーボードに植物以外のランダムな画像が向けられているにもかかわらず、分類器はそれをまだ損傷した作物であると認識しています)。しかし、この間違いは人間には起こりません。

(出典: Pete Warden のブログ —— 画像分類器が未知の物体に対してできること)

上記の例は、コンピュータービジョンシステムの能力が人間の知能とは依然として異なることを示しています。この点をテスト問題でさらに証明したいと思います。

現在の人工知能システムが何に最も優れているかご存知ですか?

以下に 5 つの異なるコンピュータービジョンの問題を示します。与えられた入力と得られた出力に基づいて、どのタイプの問題がコンピュータービジョンシステムにとって最も簡単に解決できるかを推測してみてください。どのような種類の問題が非常に難しいのでしょうか?

1. 糖尿病網膜症の検出

入力: 制約された網膜画像

出力: 5 つのカテゴリ (さまざまな段階と形態における健康状態と病気)

糖尿病性網膜症は、糖尿病の合併症で、眼に影響を及ぼす。

出典: https://ai.googleblog.com/2016/11/deep-learning-for-detection-of-diabetic.html

2. カメラジェスチャー認識

入力: カメラで撮影した一連の短いビデオ

出力: 25のアクションの中で最も可能性の高いアクション

（注：TwentyBNは現在、より豊富なデータセットを公開しています）

出典: TwentyBN

出典: https://medium.com/twentybn/building-a-gesture-recognition-system-using-deep-learning-video-d24f13053a1

3. Instagramの写真に写っているハンドバッグを特定する

入力: Instagramからの写真

出力: 写真のハンドバッグを丸で囲みます

4. 歩行者認識

入力: 固定カメラで撮影した画像

出力: 写真に写っている歩行者全員を丸で囲みます

5. ロボットが物体をつかむ

入力: 固定カメラで撮影した2枚の画像

出力: ロボット制御戦略

左の写真は掴む対象物です。ロボットには対象物の掴み方を学習するための固定カメラが搭載されています。

出典: https://ai.googleblog.com/2017/10/closing-simulation-to-reality-gap-for.html

しかし真実は何なのでしょうか?

糖尿病性網膜症: このタイプの認識機能は、入力と出力の両方が制約されているため、実装が簡単です (Google はこれを実装したと主張しており、レポートでは良好なパフォーマンスを示しています)。しかし、このシステムが実際に使用されると、困難が生じました。異なるタイプの結果の判断には偏りが生じる可能性があるため、ユーザーエクスペリエンスとシステムと医師の連携が重要な問題となります。
カメラジェスチャ認識: この問題は比較的明確に定義されていますが、カメラで撮影されたビデオでは、人物の距離が異なり、ジェスチャの持続時間も異なるなど、変動性があるため困難です。さらに、ビデオデータを分析およびトレーニングする際には、多くのエンジニアリング上の問題が発生します。この問題は非常に難しいと言わざるを得ませんが、解決されました。
Instagram の画像内のハンドバッグを識別する: この問題は簡単に解決できるように見えるかもしれませんが、入力画像には制約がなく、カテゴリの定義が非常に広範囲です (ハンドバッグにはさまざまな形やサイズがあり、明確な視覚パターンがないため、他の多くのオブジェクトとして簡単に識別できます)。下の図からわかるように、これにより問題が非常に難しくなります。

ハンドバッグ認識を訓練したモデルによる認識結果

トレーニングデータには反例として「斧」の画像はなく、斧の頭はモデルが学習したハンドバッグの画像と非常によく似ています。それは茶色で、ハンドバッグのような形と大きさで、手に持つものでした。

そして私たちは諦めてしまうのでしょうか？いいえ、この問題はアクティブラーニング、つまりモデルによって下された誤った判断をマークし、それらの誤った例をモデルにフィードバックしてさらにトレーニングすることで解決できます。しかし、既存の技術では、Instagram の写真のようなオープンな分野で最高の効果を達成するのは依然として大きな課題です。

私たち人間にとって、糖尿病を扱うのは難しいですが、斧とハンドバッグを識別するのは簡単です。主な理由は、斧が私たちにとって非常に一般的であり、誰もが知っている一種の常識であり、これらの内容がシステムに入力されるデータの範囲を超えているためです。

カメラ内の歩行者の識別: このタイプの問題は単純です。入力は非常に制約されており (固定カメラ)、クラス (歩行者) は標準的です。ターゲットの閉塞に関連する問題があるかもしれませんが、全体的にはこの問題は簡単に解決できます。ただし、問題が少し変更されると、はるかに難しくなります。カメラが動いている場合や、さまざまな方向、角度、範囲から撮影されている場合、問題はさらにオープンでトリッキーになります。
ロボットが物体を掴む：この問題は非常に難しいです。これは標準的な分類および回帰問題の範囲を超えています。出力はロボットを制御するためのポリシーであり、通常は強化学習を使用してトレーニングされますが、これは教師あり学習よりも成熟度の低い学習方法です。さらに、物体は大きさや形が異なり、掴む方法によっては意味の理解が必要になる場合があります。しかし、この問題は 2 歳児でも簡単に解決できます (固定カメラや同一の背景がなくても) が、AI がこれを実行できるようになるまでには、まだ長い道のりがあります。

著者の声明: 私の回答に同意できない場合は、喜んで議論させていただきます。この分野には学ぶべきことがたくさんあり、すべての質問の答えを知っているとは思っていません。

コンピュータビジョンとAIへの期待

「難しさ」の概念は、コンピュータービジョンシステムと人間とでは大きく異なるため、人工知能に対して誤った期待を抱く可能性が高くなります。エンジニアや研究者は、オープンドメインにおける人工知能システムのパフォーマンスを現実的な観点から扱う必要があります。

現時点では、人工知能システムの開発を理解する上でまだ多くの問題が残っています。自動運転を例に挙げると、制約のある運転（高速道路など）と制約のない運転（市街地、脇道など）には大きな違いがあります。現在、ほとんどの企業は、自動運転車が運転手なしで走行したマイル数に基づいて自動運転のレベルを評価しています。これは、テスト担当者が車を運転しやすい環境に置くことをより積極的に促すことにもなりますが、実際に私たちがすべきことは、いくつかの指標を確立し、自動運転車の通常運転の範囲を拡大することに重点を置くことです。

もっと一般的に言えば、「コンピュータービジョンは実現された」と言うのはやめるべきだと私は思います。十分なラベル付きデータと制約付きカテゴリがあれば、限られた範囲の問題を解決できる可能性があります。しかし、世界の常識的な知識をコンピュータービジョンシステムに組み込むことは、依然として大きな課題です。

ClevR、構成言語と低レベルの視覚的推論のための診断データセット

実際、多くの研究者がすでにこの分野の研究を開始しており、視覚的推論、物理的発見法則、教師なし/自己教師による表現学習など、いくつかの研究分野は活況を呈しています。 AI Technology Base Campでは、皆様の便宜を図るため、記事の最後に関連する研究論文を掲載しています。

私がコンピュータービジョンの研究開発に詳しいことを考えると、上記はこの側面に関する私の見解の一部に過ぎませんが、同じ理由が他の機械学習の問題、特にNLP応用ディープラーニングと機械学習の研究分野にも当てはまると信じています。

著者の意見をいくつか読んだ後、AIテクノロジーベースキャンプの背景にメッセージを残して、皆さんと意見を共有することもできます〜

オリジナルリンク:

https://medium.com/@CharlesOllion/whats-easy-hard-in-ai-computer-vision-these-days-e7679b9f7db7

参考文献:

構成言語と初等視覚推論の診断データセット

https://arxiv.org/abs/1612.06890

画像から因果関係のシグナルを発見する

http://openaccess.thecvf.com/content_cvpr_2017/papers/Lopez-Paz_Discovering_Causal_Signals_CVPR_2017_paper.pdf

オブジェクト、関係、物理について学習するためのインタラクションネットワーク

http://papers.nips.cc/paper/6417-interaction-networks-for-learning-about-objects-relations-and-physics

畳み込みを超えた反復的な視覚的推論

https://arxiv.org/abs/1803.11189

ジグソーパズルを解くことによる視覚表現の教師なし学習

出典: http://arxiv.org/pdf/1603.09246.pdf

世界モデル

出典：http://arxiv.org/pdf/1803.10122.pdf

<<: AI はあなたの仕事を奪うだけでなく、もっと恐ろしい脅威をもたらす可能性があります...

>>: 人間は「作り笑顔」を認識できますが、ロボットはどうでしょうか?

ブログ

AIは万能か？ AI がまだ直面している課題は何ですか?

1. 糖尿病網膜症の検出

2. カメラジェスチャー認識

3. Instagramの写真に写っているハンドバッグを特定する

4. 歩行者認識

5. ロボットが物体をつかむ

しかし真実は何なのでしょうか?

コンピュータビジョンとAIへの期待

米陸軍は航空機、戦車、VR訓練にデジタルツインプロジェクトを導入している

近い将来、人工知能によって劇的に変化する11の業界

AIがスマート交通建設を推進し、警察ドローンの高速任務を加速

将来、AIと競争して仕事を得るための16の実践的なヒント

Facebookは人工知能を使ってコンテンツレビューの優先順位を決める

人工知能は気候変動に対する新時代の解決策である

RPAにより業務効率が大幅に向上、40％の企業が効果を確認

AI、機械学習、ディープラーニングの解放

ファーウェイと百度はAI技術で提携している。人工知能の分野で優位に立つことを目指しているのだろうか？

推薦する

中国の研究チームが86%の精度を誇るAI「皮肉」検出モデルを発表

ゼロから学ぶPythonによるディープラーニング！

OpenAI、テキストから動画を生成できる新しい大規模モデル「Sora」を発表

最新のMLPerfランキング：アリババのAIコンピューティングパワーが多くの分野で1位を獲得

アルゴリズム図: スタック内の最小値を見つけるにはどうすればよいでしょうか?

全国人民代表大会代表劉清鋒氏：2019年は人工知能の大規模応用の年となる

スパムボットが誤って7億件のメールアドレスとパスワードを漏洩

Meta はヘッドマウントディスプレイを使用して全身のモーショントラッキングを実現します。脚の情報なしで正確な姿勢推定