最も強力な AI 搭載スマートフォンに関する神の視点: iPhone X

最も強力な AI 搭載スマートフォンに関する神の視点: iPhone X

世界中で人気のiPhone Xがついに登場。バージョン番号を埋めるためだけに名付けられたiPhone 8とは別に、10周年記念特別版はまさに皆の期待を掻き立てました。今朝、ついに謎のベールが明らかになった。まずは、Apple iPhone X 発表イベントを 40 秒のビデオで振り返ってみましょう。

iPhone Xのブラックテクノロジー

01. iPhone Xの待望の顔認識

人工知能技術の進歩と発展により、顔認識は最も急速に普及する分野の1つになるはずです。中国では、すでに駅、銀行、出退勤管理機、携帯電話アプリなど、多くの場所でこの技術を体験できます。

今回、Appleが新たに発売したiPhone Xでは指紋認証とホームボタンが廃止され、完全に顔認証でロック解除されるようになった。

[[203597]]

電話を見ると、自動的に顔が認識され、自動的にロックが解除されます。Appleのマーケティング担当上級副社長、フィル・シラー氏は、「Face IDは、電話のロック解除とユーザー情報の保護の未来です」と述べています。

Appleの記者会見での紹介によると、Appleの顔認証ロック解除Face IDには9つの主要機能が含まれている。

  • 顔認証
  • TrueDepthカメラ
  • 簡単な検証
  • 特殊なニューラルネットワーク
  • 自然で安全
  • ユーザーのプライバシー
  • 注意検出
  • 適応性
  • Apple Payと他のアプリの統合

Appleは、赤外線レンズ、投光器感知素子、業界ドットマトリックスプロジェクターを通じてFace ID顔認識を実現するために8つのセンサーを統合しました。

Appleは、Face IDのセキュリティを強調するために、Touch IDがランダムにクラックされる確率は5万分の1、Face IDがクラックされる確率は100万分の1であると述べました。さらに、デバイス上でデータ処理が行われ、ユーザーの注意を識別してロック解除が決定されます。

しかし、顔認識の一般的な問題には誰もがさらに注意を払う必要があります。たとえば、双子の姉妹がいる場合や、整形手術を受ける予定がある場合、Face ID では依然として困難です。Apple は、ロック解除にパスワードを使用することを推奨しています。

では、スムーズで使いやすい顔認識ロック解除はどのようにして実現されるのでしょうか。この技術は、TrueDepth カメラ技術とそれに対応するサブシステムを使用します。これには、赤外線センサー、照明装置、ドット プロジェクター、距離センサー、周囲光センサーなどのさまざまなセンサー デバイスが含まれます。

ユーザーが携帯電話を見ると、30,000 個の目に見えない赤外線ドットが顔に投影され、カメラが画像をキャプチャして撮影し、保存されている顔画像と比較します。すべてリアルタイムで行われます。

この機能は、ニューラルネットワーク技術とその他のセンサー技術を統合しており、異なる顔を効果的に区別し、携帯電話の前の肖像画が単なる写真であるかどうかを判断できます(写真を使用して機械を欺く問題は、CCTV 315から疑問を集めています)。また、ユーザーがマスクを着用しているかどうかも検出できます。

そのため、眠くても、宝石や帽子を身につけていても、iPhone Xの反応には影響しません。使いやすさとスピードが解決されれば、携帯電話のロック解除はまったく新しい段階に進むと言わざるを得ません。


iPhone X には、深度カメラ システムを通じて、Animoji アニメーション表現という興味深いアプリケーションも搭載されています。これは、3D 表現を顔と同期させ、顔の筋肉の変化を追跡します。将来的には、WeChat 画像を再生する新しい方法が登場します。

[[203598]]

ここからが最も重要なポイントです。皆さん、注目してください。最も不満なのは、Face IDです。

[[203599]]

予想外に、デモンストレーションはすぐに失敗してしまい、画面越しでも恥ずかしい思いをしました。 (実際、コンピューターを初めて起動するときにはパスワードを入力する必要があります) しかし、人々をさらに混乱させる質問が再び出てきます:

みんなが言っているように、Apple は韓国市場を完全に放棄するつもりのようです。そうでなければ、このような顔照合の状況に遭遇した場合、それをどのように解決するか教えてください...

[[203600]]

次の機能に移ると、電源ボタンをダブルクリックしてApple Payを起動すると、Face ID経由で支払うこともできます。

[[203601]]

クレジットカード詐欺を防止するため、Appleはハリウッドのモデルチームと顔モデルの比較と検証を実施し、Face IDで認識された顔が本物そっくりの蝋人形などの模造品に置き換えられないことを確認した。

[[203602]]

02. 新型iPhoneの超ファッショナブルなAR機能

以前、一部の評論家は、AR がスマートフォンの次のキラー機能になると予想されており、今後 3 年間で 4,040 億ドルの市場機会を生み出す可能性があると考えていました。

今回、アップルのグローバルマーケティング担当上級副社長フィル・シラー氏は記者会見で、A11 Bionicチップは現在入手可能なスマートフォン用チップの中で最も高性能なものだと発言した。

これを踏まえると、iPhone Xは、拡張現実機能向けに特別に調整されたカメラ、新しいジャイロスコープと加速度計、60fpsのリフレッシュレート、正確なモーショントラッキングを備え、真にAR向けに作られた最初のスマートフォンになるはずです。

[[203603]]

Snapchatは、この深度カメラシステムをベースにしたARフィルターをデモしており、トラッキング品質は良好である。

現在、AR機能とゲームはApple App Storeで徐々にリリースされる予定です。「Skyguid」では、携帯電話を空に向けると星座情報が表示されます。「At Bat」では、野球の試合シーンに重ね合わせたAR情報を見ることができます。「Warhammer 40k: Free Blade」のARバージョンでは、プレーヤーは携帯電話を通じて仮想キャラクターと戦うことができます。

[[203604]]

Apple初の公開AI論文

顔認識について、CVPR 2017 最優秀論文

Appleは7月20日、Apple Machine Learning Journalという新しい研究ブログを立ち上げた。Appleは通常、研究プロジェクトについて公に語ることはないため、人工知能の研究論文に特化したブログを持つのはAppleにとって非常に新しいことだ。

ブログで公開された最初の記事は、ニューラル ネットワークのトレーニング用に合成画像をよりリアルに作成する方法についてです。

これは、昨年末にarXivで公開されたApple初のAI論文「シミュレートされた教師なし画像からの敵対的トレーニングによる学習」の紹介でもあります。この論文はCVPR 2017で最優秀論文賞を受賞しました。

記事によると、Appleは写真内の顔やその他の物体を検出するためのニューラルネットワークをトレーニングしたいと考えている。しかし、ニューラルネットワークをトレーニングするために何百万もの画像サンプルを含む巨大なデータセットを作成する代わりに、Apple のアプローチは、コンピューターで生成された人物の合成画像を作成し、フィルターを適用してその合成画像をよりリアルにするというものだ。

これは、ニューラル ネットワークをトレーニングする従来の方法よりも安価で高速です。

機械学習の研究では、現実世界の画像ではなく、ビデオゲームなどのコンピューター生成画像を使用してニューラル ネットワークをトレーニングする方が効率的です。

生成された画像データにはすべてラベルが付けられ、注釈が付けられていますが、実際の画像データでは、コンピューターが見たものに、木、犬、自転車などであるとラベルを付ける作業が人手によって必要になるからです。

しかし、画像の生成方法にも問題があります。アルゴリズムが学習した内容が必ずしも現実世界のシナリオにシームレスに転送されるとは限らないからです。画像を生成するために使用されるデータは「多くの場合、十分に現実的ではないため、ニューラルネットワークは生成された画像の詳細を学習するだけで、実際の画像にうまく転送することができない」とアップルの論文には記されている。

論文で使われている「ラベルのない実画像」「合成画像」「精細画像」などの例は、すべて人間の目の写真です。iPhone Xの新機能Face IDもこの手法を使っているのでしょうか。Appleが公表していない研究結果も他にもあるのでしょうか。

図: このモデルはラベル付けされていない実際のデータを使用し、シミュレータを使用して、注釈情報を保持しながら合成画像のリアリティを向上させます。

より賢いSiri

Apple の機械学習ブログは 8 月に Siri チームからの 3 つの技術記事を公開しました。

  • クロスバンド幅とクロスリンガル初期化によるニューラルネットワーク音響モデルの改善
  • ラベル付け問題としての逆テ​​キスト正規化
  • Siri の音声のためのディープラーニング: ハイブリッド単位選択合成のためのデバイス上のディープ混合密度ネットワーク

3 つの記事のタイトルは非常に先進的で、Siri の背後にある技術的な進歩を紹介しています。最初の記事では、音響モデル データに基づく転移学習技術を使用して、Siri の新しい言語バージョンの精度を大幅に向上させ、Siri がより多くの言語をサポートできるようにする方法について説明します。

2 番目の記事では、Siri が機械学習を使用して日付、時刻、場所などの表示をフォーマットする方法を紹介します。 3 番目の記事では、Siri の音声の進化についてより包括的に紹介し、ディープラーニングを使用して Siri をより話しやすくなるようにする方法について説明します。

具体的には、Siri は 2014 年半ばにディープ ニューラル ネットワーク (DNN) を使用する新しい音声認識エンジンを導入しました。米国英語から始まり、2015年半ばまでに13言語に拡大しました。

他の言語への拡張を成功させるために、Apple の研究者は、限られた書き起こしデータを使用して高品質の音響モデルを構築するという問題を解決する必要がありました。

彼らは、比較的帯域が制限されていて収集が容易な広帯域オーディオを使用して、不足している狭帯域 Bluetooth オーディオの問題を解決することを提案しています。彼らは転移学習フレームワーク上でニューラル ネットワークの初期化を使用しました。

図: 狭帯域 Bluetooth テストにおけるワードエラー率

図: 言語間の初期化

もう一つ言及する価値があるのは、Siri のテキスト読み上げ (TTS) システムです。

iOS 9 から iOS 11 までの Siri 音声比較

iPhone Xの背後で、人工知能のトレンドはすでに爆発している

顔認識でロックを解除する新しいiPhone「iPhone X(iPhone 10)」は、Appleの最も強力なAI製品かもしれない。記者会見では、AppleがAIチップ「A11 Biological Neural Network Engine」を発表した。最近では、スマートフォンを中心とした端末機器向けのカスタマイズチップが新たなトレンドとなっています。

先日、ファーウェイ独自の新世代携帯電話SOCプロセッサ、Kirin 970チップがドイツで正式にリリースされました。これはAIを搭載した初の携帯電話チップでもあります。Kirin 970を搭載した新しいフラッグシップ携帯電話Mate10シリーズは、今年10月16日にドイツのミュンヘンで正式にリリースされる予定です。

ファーウェイは、AIチップをリリースし、モバイル端末にAI技術を本格的に導入した最初のメーカーでもあります。この動きにより、AIは本格的に普及段階に入り、携帯電話の新しい世界への扉が開かれる可能性があります。

HuaweiやXiaomiなどの国産携帯電話ブランドの台頭により、中国におけるAppleの市場シェアは低下しています。そのため、iPhoneを購入するかどうかは、高価かどうかの問題ではないようです。

[[203606]]

10年が経過し、AppleファンのiPhoneに対する熱狂は以前ほどではなくなった。iPhoneが再び神話を再現したいのであれば、前例のない課題に直面することになる。

しかし、人工知能をどのように活用してより多くの機能と能力を発揮させるかが、携帯電話開発における次の戦場となっていることは明らかです。

携帯電話の均質化という現在のジレンマの中で、AI 技術は業界にとっての突破口となる可能性があると考えられています。将来のテクノロジーの最も重要な分野の一つとして、人工知能ブームはAppleによって巻き起こると予想されています。

今年初めから、Appleは人工知能の分野での研究開発を強化してきた。アップルのライバルであるアルファベット、マイクロソフト、フェイスブックも人工知能分野の人材を採用している。ファーウェイもAIで遅れをとるつもりはない。同社の携帯電話用チップ「Kirin 970」は、アップルのAI専用チップ「Apple Neural Engine」と真っ向から競合することになる。

人工知能時代の到来とともに、さまざまなテクノロジー大手が第一ラウンドのレイアウトを開始しました。テクノロジー大手が業界の動向を判断する際の一貫性は、AI元年が到来したことを示しているのかもしれません。

<<:  人工知能は教育に大きな変化をもたらすだろう

>>:  開発者の能力を最大限に引き出すAISpeech DUIオープンプラットフォームがリリースされました

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

いくつかのシンプルな負荷分散アルゴリズム

負荷分散とは負荷分散(英語名は Load Balance)とは、複数のサーバーを対称的に構成したサー...

2021 年の人工知能データ収集および注釈業界の 4 つの主要トレンド予測

人工知能データ収集およびラベリングのリーディングカンパニーであるYunce Dataは最近、「202...

クラウドコンピューティングは AI を民主化するための鍵となるのでしょうか?

日本の収穫期には、農家の中には毎日多くの時間を費やして、農場で収穫したキュウリを種類ごとに仕分けする...

製造業における人工知能の応用

資産集約型組織の中には、運用効率の向上、主要業績評価指標 (KPI) の改善、生産およびサポート プ...

24時間365日対応のAI教師は生徒にどのような影響を与えるのでしょうか?

伝統的な教育方法は、過去 1 世紀か 2 世紀の間にあまり変わっていません。通常、生徒は教室で教師の...

人工知能が医療をどのように改善できるか

人工知能は医療と医療の分野で大きな力を発揮することが証明されている 人工知能は、特に医療分野において...

...

ジャック・マー:機械が人間に取って代わることは決してできない!それは何に代わるのでしょうか?

近年、人工知能、クラウドコンピューティング、ビッグデータ、モノのインターネット、産業用インターネット...

2022 AIOPS のトレンドと予測: 知っておくべきことすべて

人工知能、機械学習、自動化などの高度なテクノロジーの登場により、最先端のビジネスシナリオは大きな変化...

教師なし機械学習技術は金融セキュリティの懸念を解決できる

「テクノロジーがなければ、金融は存在しない。」モバイルインターネット時代の到来により、テクノロジーや...

エラー分析を正しく行う方法、NLP研究者は学ぶ必要がある

著者注:機械学習モデルがいつ、どのように、なぜ失敗するかを分析することを「エラー分析」と呼びます。科...

NetEase Games AIOps実践:異常検知の最適化戦略とプラットフォーム構築

この共有では主に以下の点が紹介されます。 AIOps ロードマップ異常検出プラットフォーム構築インテ...

人工知能とモノのインターネット:完璧な組み合わせ

IoT デバイスのデータ生成の基本的な能力と、さまざまなデバイスのインテリジェントな動作をシミュレー...

...