AIは万能か? AI がまだ直面している課題は何ですか?

AIは万能か? AI がまだ直面している課題は何ですか?

[はじめに] 人工知能(特にコンピュータビジョンの分野)に関しては、誰もがこの分野における継続的な進歩に関心を持っています。しかし、人工知能はどの程度まで発展したのでしょうか? AIはすでに新たな王者なのでしょうか? Heuritech の CTO である Charles Ollion 氏は、この記事が現在の現実の一部を明らかにできることを期待しています。次は著者が何を語ったのか見てみましょう!

著者はXkcdの漫画に基づいています

私は最近、植物の病気を識別できる分類器について説明した Pete Warden の記事を読みました。この分類器は、人間の目よりもはるかに正確に病気の種類を識別しました。ただし、この分類器は、植物が写っていないランダムな画像に直面すると、非常に驚​​くべきエラー結果を示します (次の図に示すように、左側の図は、分類器が実際の植物の病気の種類をどれだけ正確に検出するかを示しています。一方、右側の図では、コンピューターのキーボードに植物以外のランダムな画像が向けられているにもかかわらず、分類器はそれをまだ損傷した作物であると認識しています)。しかし、この間違いは人間には起こりません。

(出典: Pete Warden のブログ —— 画像分類器が未知の物体に対してできること)

上記の例は、コンピューター ビジョン システムの能力が人間の知能とは依然として異なることを示しています。この点をテスト問題でさらに証明したいと思います。

現在の人工知能システムが何に最も優れているかご存知ですか?

以下に 5 つの異なるコンピューター ビジョンの問題を示します。与えられた入力と得られた出力に基づいて、どのタイプの問題がコンピューター ビジョン システムにとって最も簡単に解決できるかを推測してみてください。どのような種類の問題が非常に難しいのでしょうか?

1. 糖尿病網膜症の検出

入力: 制約された網膜画像

出力: 5 つのカテゴリ (さまざまな段階と形態における健康状態と病気)

糖尿病性網膜症は、糖尿病の合併症で、眼に影響を及ぼす。

出典: https://ai.googleblog.com/2016/11/deep-learning-for-detection-of-diabetic.html

2. カメラジェスチャー認識

入力: カメラで撮影した一連の短いビデオ

出力: 25のアクションの中で最も可能性の高いアクション

(注:TwentyBNは現在、より豊富なデータセットを公開しています)

出典: TwentyBN

出典: https://medium.com/twentybn/building-a-gesture-recognition-system-using-deep-learning-video-d24f13053a1

3. Instagramの写真に写っているハンドバッグを特定する

入力: Instagramからの写真

出力: 写真のハンドバッグを丸で囲みます

4. 歩行者認識

入力: 固定カメラで撮影した画像

出力: 写真に写っている歩行者全員を丸で囲みます

5. ロボットが物体をつかむ

入力: 固定カメラで撮影した2枚の画像

出力: ロボット制御戦略

左の写真は掴む対象物です。ロボットには対象物の掴み方を学習するための固定カメラが搭載されています。

出典: https://ai.googleblog.com/2017/10/closing-simulation-to-reality-gap-for.html

しかし真実は何なのでしょうか?

  • 糖尿病性網膜症: このタイプの認識機能は、入力と出力の両方が制約されているため、実装が簡単です (Google はこれを実装したと主張しており、レポートでは良好なパフォーマンスを示しています)。しかし、このシステムが実際に使用されると、困難が生じました。異なるタイプの結果の判断には偏りが生じる可能性があるため、ユーザーエクスペリエンスとシステムと医師の連携が重要な問題となります。
  • カメラ ジェスチャ認識: この問題は比較的明確に定義されていますが、カメラで撮影されたビデオでは、人物の距離が異なり、ジェスチャの持続時間も異なるなど、変動性があるため困難です。さらに、ビデオ データを分析およびトレーニングする際には、多くのエンジニアリング上の問題が発生します。この問題は非常に難しいと言わざるを得ませんが、解決されました。
  • Instagram の画像内のハンドバッグを識別する: この問題は簡単に解決できるように見えるかもしれませんが、入力画像には制約がなく、カテゴリの定義が非常に広範囲です (ハンドバッグにはさまざまな形やサイズがあり、明確な視覚パターンがないため、他の多くのオブジェクトとして簡単に識別できます)。下の図からわかるように、これにより問題が非常に難しくなります。

ハンドバッグ認識を訓練したモデルによる認識結果

トレーニング データには反例として「斧」の画像はなく、斧の頭はモデルが学習したハンドバッグの画像と非常によく似ています。それは茶色で、ハンドバッグのような形と大きさで、手に持つものでした。

そして私たちは諦めてしまうのでしょうか?いいえ、この問題はアクティブラーニング、つまりモデルによって下された誤った判断をマークし、それらの誤った例をモデルにフィードバックしてさらにトレーニングすることで解決できます。しかし、既存の技術では、Instagram の写真のようなオープンな分野で最高の効果を達成するのは依然として大きな課題です。

私たち人間にとって、糖尿病を扱うのは難しいですが、斧とハンドバッグを識別するのは簡単です。主な理由は、斧が私たちにとって非常に一般的であり、誰もが知っている一種の常識であり、これらの内容がシステムに入力されるデータの範囲を超えているためです。

  • カメラ内の歩行者の識別: このタイプの問題は単純です。入力は非常に制約されており (固定カメラ)、クラス (歩行者) は標準的です。ターゲットの閉塞に関連する問題があるかもしれませんが、全体的にはこの問題は簡単に解決できます。ただし、問題が少し変更されると、はるかに難しくなります。カメラが動いている場合や、さまざまな方向、角度、範囲から撮影されている場合、問題はさらにオープンでトリッキーになります。
  • ロボットが物体を掴む:この問題は非常に難しいです。これは標準的な分類および回帰問題の範囲を超えています。出力はロボットを制御するためのポリシーであり、通常は強化学習を使用してトレーニングされますが、これは教師あり学習よりも成熟度の低い学習方法です。さらに、物体は大きさや形が異なり、掴む方法によっては意味の理解が必要になる場合があります。しかし、この問題は 2 歳児でも簡単に解決できます (固定カメラや同一の背景がなくても) が、AI がこれを実行できるようになるまでには、まだ長い道のりがあります。

著者の声明: 私の回答に同意できない場合は、喜んで議論させていただきます。この分野には学ぶべきことがたくさんあり、すべての質問の答えを知っているとは思っていません。

コンピュータビジョンとAIへの期待

「難しさ」の概念は、コンピューター ビジョン システムと人間とでは大きく異なるため、人工知能に対して誤った期待を抱く可能性が高くなります。エンジニアや研究者は、オープンドメインにおける人工知能システムのパフォーマンスを現実的な観点から扱う必要があります。

現時点では、人工知能システムの開発を理解する上でまだ多くの問題が残っています。自動運転を例に挙げると、制約のある運転(高速道路など)と制約のない運転(市街地、脇道など)には大きな違いがあります。現在、ほとんどの企業は、自動運転車が運転手なしで走行したマイル数に基づいて自動運転のレベルを評価しています。これは、テスト担当者が車を運転しやすい環境に置くことをより積極的に促すことにもなりますが、実際に私たちがすべきことは、いくつかの指標を確立し、自動運転車の通常運転の範囲を拡大することに重点を置くことです。

もっと一般的に言えば、「コンピュータービジョンは実現された」と言うのはやめるべきだと私は思います。十分なラベル付きデータと制約付きカテゴリがあれば、限られた範囲の問題を解決できる可能性があります。しかし、世界の常識的な知識をコンピューター ビジョン システムに組み込むことは、依然として大きな課題です。

ClevR、構成言語と低レベルの視覚的推論のための診断データセット

実際、多くの研究者がすでにこの分野の研究を開始しており、視覚的推論、物理的発見法則、教師なし/自己教師による表現学習など、いくつかの研究分野は活況を呈しています。 AI Technology Base Campでは、皆様の便宜を図るため、記事の最後に関連する研究論文を掲載しています。

私がコンピュータービジョンの研究開発に詳しいことを考えると、上記はこの側面に関する私の見解の一部に過ぎませんが、同じ理由が他の機械学習の問題、特にNLP応用ディープラーニングと機械学習の研究分野にも当てはまると信じています。

著者の意見をいくつか読んだ後、AIテクノロジーベースキャンプの背景にメッセージを残して、皆さんと意見を共有することもできます〜

オリジナルリンク:

https://medium.com/@CharlesOllion/whats-easy-hard-in-ai-computer-vision-these-days-e7679b9f7db7

参考文献:

  • 構成言語と初等視覚推論の診断データセット

https://arxiv.org/abs/1612.06890

  • 画像から因果関係のシグナルを発見する

http://openaccess.thecvf.com/content_cvpr_2017/papers/Lopez-Paz_Discovering_Causal_Signals_CVPR_2017_paper.pdf

  • オブジェクト、関係、物理について学習するためのインタラクションネットワーク

http://papers.nips.cc/paper/6417-interaction-networks-for-learning-about-objects-relations-and-physics

  • 畳み込みを超えた反復的な視覚的推論

https://arxiv.org/abs/1803.11189

  • ジグソーパズルを解くことによる視覚表現の教師なし学習

出典: http://arxiv.org/pdf/1603.09246.pdf

  • 世界モデル

出典:http://arxiv.org/pdf/1803.10122.pdf

<<:  AI はあなたの仕事を奪うだけでなく、もっと恐ろしい脅威をもたらす可能性があります...

>>:  人間は「作り笑顔」を認識できますが、ロボットはどうでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

AIの到来、将来のアプリケーション開発における7つのトレンド

最近テクノロジーのニュースに注目しているなら、良いことであれ悪いことであれ、人工知能に関する何かを読...

DeepMind のニューラル ネットワーク記憶研究を分析: 動物の脳をシミュレートして継続的な学習を実現する

1. はじめにインターネットに溢れる AI 関連の情報の大半は、一般の人向けに進歩を説明するものと、...

MITの新世代の昆虫型ドローンは、転がったり、ジャンプしたり、群れをなして飛んだりすることができ、人間の衝撃にも耐えられる。

バイオニック鳥類や昆虫はドローン研究の分野で常に重要なテーマであり、スタンフォード大学の学者が作った...

この式がブロックされると、AI IQはゼロになります

[[214770]]この記事はQuantum School(WeChat:quantumschool...

生成AIとクラウドの相互利益を探る

近年、生成 AI とクラウドの融合に関心が集まっているのには理由があります。人工知能 (AI) とク...

人工知能の主な発展とその原動力

本日の講演は、アリババCIOアカデミーが開催した人工知能(AI)技術に関する特別研修コースのために賈...

Nature: AI はなぜいつも差別的なのか?

[[241142]]ビッグデータダイジェスト制作編集者: Hu Jia、Wang Yiding、X...

...

AIが継続的にモンスターと戦い、アップグレードできるようにするために、DeepMindは「メタバース」を作成した。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

アンドリュー・ングのパレートの法則: データの 80% + モデルの 20% = より優れた機械学習

機械学習の進歩がモデルによってもたらされるのか、それともデータによってもたらされるのかは、今世紀の論...

言語は「絆」であり、イメージバインドを超えて、さまざまなモードでパンチとキックを行う

北京大学とテンセントがマルチモーダル15角形の戦士を制作しました!言語を中心に据えて、ビデオ、オーデ...

インテリジェントビルにおける人工知能技術の応用の展望

現在の人工知能技術と製品の実用レベルによると、インテリジェントビルの分野では、建物の自己調節型「呼吸...

世界では毎年24の言語が消滅している。AIは絶滅危惧言語の新たな救世主となった

昨年、国連は2019年を「国際先住民族言語年」と宣言し、今、このお祭りがますます近づいてきています。...

顔認識システムはすごいですね!チケット転売業者が体調を崩して入院、警戒を呼び起こす

最近、北京同仁病院の警報システムが作動し、職員は北京天壇病院で活動していたチケット転売業者が北京同仁...

...