AIは万能か? AI がまだ直面している課題は何ですか?

AIは万能か? AI がまだ直面している課題は何ですか?

[はじめに] 人工知能(特にコンピュータビジョンの分野)に関しては、誰もがこの分野における継続的な進歩に関心を持っています。しかし、人工知能はどの程度まで発展したのでしょうか? AIはすでに新たな王者なのでしょうか? Heuritech の CTO である Charles Ollion 氏は、この記事が現在の現実の一部を明らかにできることを期待しています。次は著者が何を語ったのか見てみましょう!

著者はXkcdの漫画に基づいています

私は最近、植物の病気を識別できる分類器について説明した Pete Warden の記事を読みました。この分類器は、人間の目よりもはるかに正確に病気の種類を識別しました。ただし、この分類器は、植物が写っていないランダムな画像に直面すると、非常に驚​​くべきエラー結果を示します (次の図に示すように、左側の図は、分類器が実際の植物の病気の種類をどれだけ正確に検出するかを示しています。一方、右側の図では、コンピューターのキーボードに植物以外のランダムな画像が向けられているにもかかわらず、分類器はそれをまだ損傷した作物であると認識しています)。しかし、この間違いは人間には起こりません。

(出典: Pete Warden のブログ —— 画像分類器が未知の物体に対してできること)

上記の例は、コンピューター ビジョン システムの能力が人間の知能とは依然として異なることを示しています。この点をテスト問題でさらに証明したいと思います。

現在の人工知能システムが何に最も優れているかご存知ですか?

以下に 5 つの異なるコンピューター ビジョンの問題を示します。与えられた入力と得られた出力に基づいて、どのタイプの問題がコンピューター ビジョン システムにとって最も簡単に解決できるかを推測してみてください。どのような種類の問題が非常に難しいのでしょうか?

1. 糖尿病網膜症の検出

入力: 制約された網膜画像

出力: 5 つのカテゴリ (さまざまな段階と形態における健康状態と病気)

糖尿病性網膜症は、糖尿病の合併症で、眼に影響を及ぼす。

出典: https://ai.googleblog.com/2016/11/deep-learning-for-detection-of-diabetic.html

2. カメラジェスチャー認識

入力: カメラで撮影した一連の短いビデオ

出力: 25のアクションの中で最も可能性の高いアクション

(注:TwentyBNは現在、より豊富なデータセットを公開しています)

出典: TwentyBN

出典: https://medium.com/twentybn/building-a-gesture-recognition-system-using-deep-learning-video-d24f13053a1

3. Instagramの写真に写っているハンドバッグを特定する

入力: Instagramからの写真

出力: 写真のハンドバッグを丸で囲みます

4. 歩行者認識

入力: 固定カメラで撮影した画像

出力: 写真に写っている歩行者全員を丸で囲みます

5. ロボットが物体をつかむ

入力: 固定カメラで撮影した2枚の画像

出力: ロボット制御戦略

左の写真は掴む対象物です。ロボットには対象物の掴み方を学習するための固定カメラが搭載されています。

出典: https://ai.googleblog.com/2017/10/closing-simulation-to-reality-gap-for.html

しかし真実は何なのでしょうか?

  • 糖尿病性網膜症: このタイプの認識機能は、入力と出力の両方が制約されているため、実装が簡単です (Google はこれを実装したと主張しており、レポートでは良好なパフォーマンスを示しています)。しかし、このシステムが実際に使用されると、困難が生じました。異なるタイプの結果の判断には偏りが生じる可能性があるため、ユーザーエクスペリエンスとシステムと医師の連携が重要な問題となります。
  • カメラ ジェスチャ認識: この問題は比較的明確に定義されていますが、カメラで撮影されたビデオでは、人物の距離が異なり、ジェスチャの持続時間も異なるなど、変動性があるため困難です。さらに、ビデオ データを分析およびトレーニングする際には、多くのエンジニアリング上の問題が発生します。この問題は非常に難しいと言わざるを得ませんが、解決されました。
  • Instagram の画像内のハンドバッグを識別する: この問題は簡単に解決できるように見えるかもしれませんが、入力画像には制約がなく、カテゴリの定義が非常に広範囲です (ハンドバッグにはさまざまな形やサイズがあり、明確な視覚パターンがないため、他の多くのオブジェクトとして簡単に識別できます)。下の図からわかるように、これにより問題が非常に難しくなります。

ハンドバッグ認識を訓練したモデルによる認識結果

トレーニング データには反例として「斧」の画像はなく、斧の頭はモデルが学習したハンドバッグの画像と非常によく似ています。それは茶色で、ハンドバッグのような形と大きさで、手に持つものでした。

そして私たちは諦めてしまうのでしょうか?いいえ、この問題はアクティブラーニング、つまりモデルによって下された誤った判断をマークし、それらの誤った例をモデルにフィードバックしてさらにトレーニングすることで解決できます。しかし、既存の技術では、Instagram の写真のようなオープンな分野で最高の効果を達成するのは依然として大きな課題です。

私たち人間にとって、糖尿病を扱うのは難しいですが、斧とハンドバッグを識別するのは簡単です。主な理由は、斧が私たちにとって非常に一般的であり、誰もが知っている一種の常識であり、これらの内容がシステムに入力されるデータの範囲を超えているためです。

  • カメラ内の歩行者の識別: このタイプの問題は単純です。入力は非常に制約されており (固定カメラ)、クラス (歩行者) は標準的です。ターゲットの閉塞に関連する問題があるかもしれませんが、全体的にはこの問題は簡単に解決できます。ただし、問題が少し変更されると、はるかに難しくなります。カメラが動いている場合や、さまざまな方向、角度、範囲から撮影されている場合、問題はさらにオープンでトリッキーになります。
  • ロボットが物体を掴む:この問題は非常に難しいです。これは標準的な分類および回帰問題の範囲を超えています。出力はロボットを制御するためのポリシーであり、通常は強化学習を使用してトレーニングされますが、これは教師あり学習よりも成熟度の低い学習方法です。さらに、物体は大きさや形が異なり、掴む方法によっては意味の理解が必要になる場合があります。しかし、この問題は 2 歳児でも簡単に解決できます (固定カメラや同一の背景がなくても) が、AI がこれを実行できるようになるまでには、まだ長い道のりがあります。

著者の声明: 私の回答に同意できない場合は、喜んで議論させていただきます。この分野には学ぶべきことがたくさんあり、すべての質問の答えを知っているとは思っていません。

コンピュータビジョンとAIへの期待

「難しさ」の概念は、コンピューター ビジョン システムと人間とでは大きく異なるため、人工知能に対して誤った期待を抱く可能性が高くなります。エンジニアや研究者は、オープンドメインにおける人工知能システムのパフォーマンスを現実的な観点から扱う必要があります。

現時点では、人工知能システムの開発を理解する上でまだ多くの問題が残っています。自動運転を例に挙げると、制約のある運転(高速道路など)と制約のない運転(市街地、脇道など)には大きな違いがあります。現在、ほとんどの企業は、自動運転車が運転手なしで走行したマイル数に基づいて自動運転のレベルを評価しています。これは、テスト担当者が車を運転しやすい環境に置くことをより積極的に促すことにもなりますが、実際に私たちがすべきことは、いくつかの指標を確立し、自動運転車の通常運転の範囲を拡大することに重点を置くことです。

もっと一般的に言えば、「コンピュータービジョンは実現された」と言うのはやめるべきだと私は思います。十分なラベル付きデータと制約付きカテゴリがあれば、限られた範囲の問題を解決できる可能性があります。しかし、世界の常識的な知識をコンピューター ビジョン システムに組み込むことは、依然として大きな課題です。

ClevR、構成言語と低レベルの視覚的推論のための診断データセット

実際、多くの研究者がすでにこの分野の研究を開始しており、視覚的推論、物理的発見法則、教師なし/自己教師による表現学習など、いくつかの研究分野は活況を呈しています。 AI Technology Base Campでは、皆様の便宜を図るため、記事の最後に関連する研究論文を掲載しています。

私がコンピュータービジョンの研究開発に詳しいことを考えると、上記はこの側面に関する私の見解の一部に過ぎませんが、同じ理由が他の機械学習の問題、特にNLP応用ディープラーニングと機械学習の研究分野にも当てはまると信じています。

著者の意見をいくつか読んだ後、AIテクノロジーベースキャンプの背景にメッセージを残して、皆さんと意見を共有することもできます〜

オリジナルリンク:

https://medium.com/@CharlesOllion/whats-easy-hard-in-ai-computer-vision-these-days-e7679b9f7db7

参考文献:

  • 構成言語と初等視覚推論の診断データセット

https://arxiv.org/abs/1612.06890

  • 画像から因果関係のシグナルを発見する

http://openaccess.thecvf.com/content_cvpr_2017/papers/Lopez-Paz_Discovering_Causal_Signals_CVPR_2017_paper.pdf

  • オブジェクト、関係、物理について学習するためのインタラクションネットワーク

http://papers.nips.cc/paper/6417-interaction-networks-for-learning-about-objects-relations-and-physics

  • 畳み込みを超えた反復的な視覚的推論

https://arxiv.org/abs/1803.11189

  • ジグソーパズルを解くことによる視覚表現の教師なし学習

出典: http://arxiv.org/pdf/1603.09246.pdf

  • 世界モデル

出典:http://arxiv.org/pdf/1803.10122.pdf

<<:  AI はあなたの仕事を奪うだけでなく、もっと恐ろしい脅威をもたらす可能性があります...

>>:  人間は「作り笑顔」を認識できますが、ロボットはどうでしょうか?

ブログ    
ブログ    

推薦する

自動運転のためのマルチモーダルセンサーフュージョンのレビュー

2022年2月6日にarXivにアップロードされたレビュー論文「自動運転認識のためのマルチモーダルセ...

...

制御可能な人工知能には未来がある

8月29日、2019年世界人工知能会議が上海で開幕した。世界各国の著名なテクノロジー企業や学界、産業...

GPT-4 の RAW 画像はまだリリースされていないのですか? CMUの中国人医師の新作、大型モデルGILLは画像生成や検索が可能で誰でも遊べる

GPT-4 のマルチモーダル機能については、もう少し待たなければならないかもしれません。最近、CMU...

成長痛に遭遇: 2017 年の AI およびビッグデータ業界のレビュー

2017 年、人工知能とビッグデータの開発では次の 10 の成長痛が発生しました。 [[216307...

...

...

Google がニューラル ネットワーク コーデック SoundStream を発表、オープンソース プロジェクト Lyra に統合される予定

Google は最近、エンドツーエンドのニューラル オーディオ コーデックである SoundStre...

ブラウザで TensorFlow を使用するにはどうすればいいですか?

[[341102]] [51CTO.com クイック翻訳] TensorFlow を使用すると、少...

OpenAIは「世界クラスの人材」を採用するためにロンドンに海外支社を設立すると発表

オープンAIは6月29日水曜日、ロンドンに新オフィスを設立すると発表した。これは同社にとって米国外初...

...

...

沈興陽博士:30年間の科学研究で私が遭遇した落とし穴

先日開催されたX-Talkでは、米国工学アカデミーの外国人会員であり、XiaoIce会長でもあるハリ...

機械学習が製造業に革命を起こす10の方法

人工知能の導入は製造業に大きな経済的利益をもたらすでしょう。この点に関しては、さまざまな研究機関が関...