AIの発展に伴い、コンピュータービジョン技術の応用範囲は徐々に広がっています。顔認識や物体検出などの技術は、セキュリティや無人車両などの分野で重要な役割を果たしています。テンセントYoutuラボの著名な科学者である賈佳雅氏は、2017年6月21日に中国深センで開催された「クラウド+未来」サミットでAIビジョン技術に関する講演を行い、聴衆にYoutuラボの高度なAIビジョンシステムを実演しました。 スピーチの内容は以下のとおりです。 AIという言葉がみんなの視野に入り、みんなに知られるようになるまで、たった2年しかかかりませんでした。AIはこの間に突然発見されたようなものです。どのように表現したらいいでしょうか?ハリー・ポッターの透明マントを例に挙げましょう。透明マントを着ると、そこには誰もいないことがわかりますが、透明マントを脱ぐと、中には巨大な怪物が隠れていることがわかります。
実際、AIビジョン技術はそのようなプロセスです。AIの開発は、始まりから現在まで数十年にわたる開発を経てきたため、今日の規模は決して一夜にして達成できるものではありません。そこで、最初から始め、透明マントの例を使って AI テクノロジーを理解する方法を見ていきます。 多くの小説、映画、SF小説には擬人化されたロボットや製品が登場します。その中で最も重要な機能は4つあります。1つ目は「見る」、2つ目は「聞く」、3つ目は「話す」、4つ目は「動く」です。もちろんすべてが動くわけではありませんが、超インテリジェントな製品であれば、他のものを動かすのは間違いなく制御され、それ自体が動く必要はありません。今日、皆さんに AI を紹介する際に、私は 1 つの方向、つまり観察に焦点を当てたいと思います。なぜこれについて話す必要があるのでしょうか? 自然な知能を理解することから始めなければならないと思います。 自然知能は AI 知能の反対ではありませんが、その反対です。人工知能は人間が作り出したものですが、自然知能は古代から現代まで進化してきました。私たちは自然知能から多くのことを学びました。例えば、自然知能を見ると、円柱細胞や脊髄細胞など網膜神経細胞がたくさんあると思いますが、視覚情報を処理するニューロンは40億個以上あります。それに比べて、触覚と聴覚はそれぞれ8%と3%に過ぎないかもしれません。これは何を示しているのでしょうか?それは、私たちの世界が複雑すぎることを示しています。私たち人間が世界を理解し始めた最初の日から、世界を理解するのに十分なニューロンまたは処理ユニットがあったため、「見る」ことが世界を理解する上で最も重要な部分です。 私たちは何をしましたか? ビジュアル AI は、体性感覚ゲームや拡張現実ゲームなど、多くのゲームで使用できます。プレイヤーが路上でポケモンを探すゲームは、その重要な例です。視覚的なエンターテインメント以外にも、さまざまな用途があります。例えば、監視やセキュリティ、あるいは大勢の人が動画や画像を観察する必要がある問題の解決にも役立ちます。数百人から数人にまで人数を減らしたのも、ビジュアルAIの役割です。
テンセントは、人々のコミュニケーションを支援するさまざまなメディアやソフトウェアを備えた非常に大規模なソーシャルネットワーキング企業です。たとえば、みんなに見せたい素敵な写真があります。それを10歳若くすることはできますか?それは可能です。性別を男の子から女の子に変えたい場合でも、とても簡単で、病院に行く必要さえありません。これらは、フォトアルバムや携帯電話で起こる変化です。さらに、他の2つの非常に大きな部分があります。1つはスマート医療です。CTフィルムやMRIフィルムなど、すべての医療フィルムを機械がインテリジェントに読み取れるようにする方法は非常に重要な部分です。自動運転もありますが、視覚AIに運転支援や自動運転の機能を追加できるのでしょうか? これらの AI 技術は、この分野における急速な発展を表していますが、同時に、さまざまなチャンネル、ビデオ、または専門家がさまざまな方法を紹介すると、私たちの技術がいかに強力で優れたものになったかが語られます。ここでは、科学者の観点から、私たちの視覚 AI がどの程度発展したかを紹介したいと思います。 まず、1,000 を超えるカテゴリの数億枚の画像を分類して理解できます。 画像があれば、それが牛であろうと花であろうと、人間も機械もその画像が何であるかを教えてくれます。機械は人間よりも優れた能力を発揮できると想像できることもあります。私の3歳の娘はよく「お父さん、あそこにとてもきれいな蝶を見たよ」と言います。私は彼女を訂正しました、ベイビー、あれは蝶ではなく、蛾ですよ。しかし、私の赤ちゃんは、この蛾は蝶よりも美しいと言ったので、それは蝶に違いない。 これは、画像理解にはプロセスがあることを示しています。結果を得るにはその意味を理解する必要がありますが、機械学習に関しては、大人よりも高いレベルに到達することさえできます。人間の理解を超えた、丘と山の違いを細分化することができます。科学者たちは、この分野では解決されたと考えられているこの問題にもはや満足しておらず、次に解決すべきは検出の問題です。写真がある場合、写真の全体的な表現だけでなく、写真のどの部分が車なのか、どの部分が路面なのか、どの部分が人物なのかを知りたいと思います。これが検出プロセスです。現在私たちが持つ強力なコンピューティング リソースとコンピューティング能力のおかげで、5 億種類以上の品種を検出できるようになりました。これは、ビジュアル AI のもう 1 つの達成可能な目標です。 さらに、科学者たちは、いくつかの物体を検出できる場合、詳細レベルをさらに深くすることができるのか疑問に思っています。たとえば、より細かい粒度を持つ各ピクセルまたは各ポイントについて、この点が道路、人、または車のどれに属しているかを知ることができるでしょうか。これは、以前の問題をはるかに超える、より高度な一般化の問題です。これをセマンティックセグメンテーションと呼びます。現在では、合計 4,000 億ピクセルを超える複数の画像をセグメント化できます。これは、近年この分野全体で達成された大きな進歩と研究成果です。これに加えて、もっと身近なのが顔照合クエリです。1億人以上の顔を照合して、目的の人物を見つけることができます。自分自身に問いかけてみてください。1億人の人を知ることができますか?100人の人を知ることができたらとても幸せです。これは、コンピューター上での人間の能力をはるかに超えています。
5〜10年前、私の学校のチームも興味深い研究をしました。私たちは、このようなぼやけた画像を見たらどうするかを考えました。ぼやけた画像を見たらどうするか。おそらく誰もがそれを削除するでしょう。なぜでしょうか。この画像はぼやけていて、もはや役に立たないからです。しかし、私たち科学者にとっては非常に貴重なリソースです。この画像を通じて、人間には見えないものを発見したからです。
興味深い例を挙げましょう。たとえば、この画像では、私たちは高速で走行している車に乗っており、周囲の環境は簡単にぼやけています。環境を理解しようとすると、ナンバープレートや道路標識がぼやけていることに気付くでしょう。この画像では、高速道路に関する情報がこのアイコンに表示されていますが、左側にある小さなものは何ですか?左側の道路標識の数字は何ですか?大学のチームは、この情報を完全に理解するために5年から10年の研究を行ってきました。最終的に、私たちの技術的手段を通じて、これが米国のハイウェイ101のシーンであることがわかりました。私たちは人間の画像のぼやけを超えることができます。 もう一つあります。私たちは、10年後に家具ロボットが登場することを期待しています。家具ロボットとは何でしょうか?洗濯、食器洗い、料理、さらには子供の世話まで手伝ってくれることを期待しています。しかし、このインテリジェントなロボットを実現するには、どうすればよいでしょうか?重要なのは、自然言語と自然画像をどのように組み合わせるか、つまり、この2つを完全に組み合わせることです。そこで私たちは、これまでに一連の研究を行ってきました。画像を見ると、私のスタッフが質問に来ます。ワークショップのテーブルの上に何が置かれているかです。コンピューターはあなたの文章を見て、その意味を分析し、この画像でどのような質問がされたかを探します。最後に、画像上の重要な位置を見つけて結果をフィードバックします。それは船であり、答えが正しいことを意味します。
これは、コンピューターが自然言語を組み合わせることができるようになったこと、そして私が話す内容と私が見る風景を組み合わせることができるようになったことを示しています。これは驚くべき進歩です。まさにこの進歩があるからこそ、家具ロボットの理想は10年以内に実現できると私は信じています。 他に何ができるでしょうか? 幸いなことに、人間は創造できるが、AIは創造できないので、AIが到達するレベルは人間ほど高くない、という講義もあるかもしれません。この発言は実は間違っているということをお伝えしたいと思います。コンピューターは創造もでき、その創造するタイプやサンプルは私たちを驚かせることがよくあります。これらのモジュールは、以前の知識ベースには見つかりません。これが創造の機能であり、視覚AIはすでに創造を実現できます。
例えば、この2枚の写真を見てください。右の絵はコンピューターで描かれたと思いますか?真実は常に少数の人々の手にあります。右の絵は確かにコンピューターで描かれています。コンピューターは鉛筆を使って全体の輪郭と影を描き、非常に高いレベルに達しています。人間が描くには長期間の訓練が必要ですが、この絵を描くのにたった0.1秒しかかかりませんでした。これが創作のプロセスです。これは非常に興味深いことです。 昨年、この非常に複雑なシーンを理解するために、私の大学のチームは、シーンの理解と分析を実行するための世界で最もピクセルレベルのセグメンテーション技術を開発しました。
この例では、車が色であることがわかります。車として認識したので、青色です。その隣の木は、木として認識したので、緑色でマークされています。昨年は、大規模なシナリオにおける複数の複雑な環境でのコンテンツ分析を実現しました。これが昨年の成果です。今年はこのような結果に満足できなかったので、他に何ができるだろうかと考えました。そして、私のチームは今年、もう一つのエキサイティングなことに着手しました。私たちは、これまでで最も正確なピクセルレベルのセマンティックセグメンテーション技術を実現しました。既知の論文の中で、私たちの技術は2位をはるかに上回り、計算速度は1秒あたり30回の検出です。ハードウェアリソースを変更することなく、100倍も高速化しました。 先ほどお話しした AI ビジョン技術の商業的価値と学術的価値に加えて、今日はもう 1 つお話ししたいトピックがあります。 Youtu AIが生み出す社会的価値についてお話ししたいと思います。 Youtuはテンセントの公共福祉部門、テンセントクラウド、テンセントインターネット+部門と協力し、「Sky Eye」という新しい活動を開始しました。 映画「ディア」をご覧になりましたか?誘拐され行方不明になった多くの家族の物語です。親たちはグループを作り、このグループを通じて子供を見つけることを望みます。これは、2014年に公開されたこの映画に反映された深刻な現実です。子供の喪失は社会の小さな部分かもしれませんが、この現象は確かに存在します。そういった環境下では、大まかな推定はできると思いますが、現在、統計的に見て迷子になるという現象は非常に大きいです。各都市でそのようなケースは非常に少ないのですが、中国は人口が多いので、その大きな中国人人口の基盤をもとに、少しずつこの割合を高めていくことができ、これも私たちが貢献できることです。私たちは人身売買と戦うためにWeiboなどさまざまなチャネルを持ち、出所を見つけるために皆さんの貢献をしていますが、貢献率は依然として0です。 2015年、Youtuチームはテンセントの公共福祉部門、テンセントクラウド、テンセントインターネット+と共同で「Sky Eye」プロジェクトに参加し、Youtuの技術蓄積を通じて、商業価値だけでなく社会的価値を社会に実現することに貢献したいと考えました。これは私たちにとって比較的簡単なことですが、社会的価値をAIにどのように反映させることができるのでしょうか。 そこで私たちはこの公共福祉プログラムに参加しました。上海の友人たちはこのプログラムを受け取ったとき、とても興奮していました。彼らは、いつかスパイダーマンのようにコンピューターの前に座っているだけで、外に出て人々を救えるようになると感じていたのです。彼らは多くの評価を行い、私たちの顔認識率はたったの 40% であることがわかりました。この数字は私たちの友人たちを本当に驚かせました。彼らは、問題が非常に難しいため、写真を撮って検索するだけでは人を見つけることができないことに気づいたのです。主な困難は 3 つあります。 1つ目はシーン 都市、田舎、山や森、さまざまな地域など、非常に複雑なシーンがあります。このように行方不明の人を見つけるときも、髪型や服装、輪郭の変化など、すべてが複雑な要素です。 2番目は年齢 行方不明者が見つかると、数年、あるいは 10 年もの間、外をさまよっていた人が多くいます。これは非常に長い期間であるため、顔の特徴は、輪郭、しわ、肌のざらつきなど、大きく変化しており、これらはすべて、実用的なアルゴリズムにとって大きな課題となります。 3 番目に、何億もの顔を検索する機能が必要です。 検索写真を取得したら、リアルタイム検索と比較でその人物を見つけることができますか? これらは、当時私が直面した 3 つの大きな課題でしたが、幸いなことに、Youtu の同僚たちは諦めませんでした。彼らは、私たちがこれをやった以上は、最後までやり遂げ、うまくやらなければならないと感じていました。そこで私たちは1年以上にわたって一連の研究を重ね、Megafaceの精度を40%から83.29%に向上させました。これは、数億の顔を検索する場合に数ミリ秒の速度を実現できるようになり、成功率も50%未満から99%に向上したことを意味します。プロジェクトを開始してからわずか3か月以内に、私たちは福建省公安局と協力して、人々を見つけるためのオンラインシステムを構築し始めました。
2017年3月、福建省公安局は一般市民から電話を受け、小学校の近くでおばあさんを発見したと報告を受けた。彼女は精神的に混乱しており、話すこともできない状態だった。彼女を警察署に連れて行った後、オンライン顔照合システムを通じて、このおばあさんが行方不明になっている可能性があることがわかった。最終的に、彼女の家族が彼女が迷子にならないように公安システムに登録していたことが判明した。最終的に、このシステムを通じておばあさんを発見した。 このシステムを導入してからまだ3か月しか経っていません。福建省公安部門の協力を得て、わずか3か月で120人以上を救出することができました。これは、一般の人々からの電話に頼り、その後、針を突き止めるようなインタビューを行って結果を得るという以前のプロセスよりも効果的です。そのため、福建省のシステム全体の「Caring about you」にはプロセスがあります。リストの写真を送信し、一般の人々を通じて特定のグループの人々を見つけたら写真を撮り、最終的にデータベースと比較し、その人を見つけ出します。この方法で成功したケースは100件以上あります。これは非常に励みになり、有意義です。 さらに、私たちはテクノロジーがこれらの迷える人々を助けるだけでなく、さらに一歩先へ進むことができることを願っています。そのため、過去数年間、私たちは「万象ポルノ検出」と呼ばれる世界的な児童インターネット保護キャンペーンを実施してきました。Youtuチーム全体がアダルト画像の検出に貢献し始めました。ほとんどのオンラインシステムで精度が99%を超えることがわかりました。これは、インターネット上の子供たちを保護し、これらの子供たちがいじめや欺瞞に遭うことを防ぐことができることを意味します。これは、私たちのチームメンバーが最も喜んで行うことの1つです。 結論 AIはツールです。AIの出現により職を失う人もいるかもしれませんが、AIは私たちの社会を助け、調和のとれたより良い社会を築くのに役立ちます。何か悪い事実を発見すると、AIシステムは正確に判断し、犯罪と戦うことができます。それはナイフと同じように道具です。野菜を切るには良い道具ですが、人を傷つけるとなると悪い道具になります。 AIは良いものでも悪いものでもありませんが、良い部分を広め、広く世に知らしめる必要があります。最後に、技術者は皆コンピューターの前に座り、皆が私たちをコンピューターの専門家だと思っているけれども、私たち一人一人はスパイダーマンの心を持っているということを言いたいです。私たちは、いつの日か、街に出て行かなくても、人々を助け、犯罪と戦えるようになることを願っています。 |
<<: まずはFace IDから始め、顔認識技術について簡単に分析してみましょう。
>>: AIシステムが初めて真の自律プログラミングを実現:遺伝的アルゴリズムを使用して初心者プログラマーを上回る
世界的な技術競争において、人工知能は他の追随を許さない世界的な技術革新の新たな局面において、人工知能...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
本日、インテルとその開発者エコシステム パートナーは、「インテリジェント エッジに焦点を当て、開発者...
1. 質問の仕方を理解するChatGPT と対話するときに使用されるプロンプトの主な 4 つのタイプ...
C# 選択ソート アルゴリズムとは何ですか?これはどのように達成されるのでしょうか?この紹介が C#...
Siri に道順を尋ねるたびに、複雑なコード列がアクティブ化され、「Siri」は質問を理解し、必要...
私はネットユーザーの一部が言ったことにとても満足しています。 「この子は本当にダメだ、もう一匹産もう...
人工知能の活発な発展は大きな論争を引き起こしています。発展の一般的な傾向からすると、これはデメリット...
AI はこれらの分野で大きな進歩を遂げており、世界がネットゼロの未来を目指す中でのエネルギー効率と持...
10月17日、老舗テクノロジー大手の百度が「文心大モデル4.0」を発表し、すでに激動していた百機種...
翻訳者 |ブガッティレビュー | Chonglou他の人はAI画像を使って超リアルな顔を生成できるの...
電気自動車メーカー、テスラの自動操縦機能に関連する死亡事故がまた発生した。被害者は高速道路脇でモデル...
ドローンは長い間、高価な軍事用途に関連付けられてきましたが、現在では商業分野でも使用されることが増え...