自動運転車、交通標識検出、顔認識、セルフサービスチェックアウト。 これらすべての高度なソリューションを統合するのがコンピューター ビジョンです。 コンピューター ビジョンにより、コンピューターは生の画像から情報を抽出できるようになり、より効率的なビジネスのデジタル化を実現する多くの機会が生まれます。 コンピューター ビジョンがさまざまな業界にどのような変化をもたらし、それが経営者にとって重要なビジネス課題の解決にどのような独自のメリットをもたらすのかを見てみましょう。 1. 物体検出従来のコンピューター ビジョンの実装では、入力と出力の詳細な分析が使用されます。従来の CV の典型的なパイプラインは、エッジ検出などの画像処理技術を利用して、画像内のオブジェクトを識別し、ラベル付けします。 コンピュータサイエンスにおけるディープラーニングアーキテクチャの出現により、従来の CV 技術 (定義済みの特徴構造に基づくものなど) から AI 駆動型画像ニューラルネットワーク分析への劇的な移行がもたらされ、画像内のデータの抽出と分類のほぼ完全な自動化が可能になりました。簡単に言えば、AI はプログラミングを排除し、コンピューターが入力データを解釈し、画像の内容を認識できるように自らをトレーニングするという、あまり監督されないアプローチに置き換えます。 ユースケースAI が医療画像などの分野に参入すると、コンピューターは優れたパターン認識機能を使用して、X 線や MRI 内の微量の癌細胞の存在など、生の画像内の微妙な要素を識別します。機械の推論を確認するには依然として人間の解釈と専門知識が必要ですが、超高速分析という追加レイヤーは人間の知性を補完し、人命を救うのに役立ちます。 自動運転車が米国や他の多くの国で路上を走行するようになるにつれ、商用車部門は爆発的な成長を遂げる態勢が整っています。自動運転車はコンピュータービジョンなしでは存在できません。車両のオンボード コンピューターは、道路上の潜在的な障害物について迅速な判断を行う必要があるため、高度に最適化された一連の CV ベースの技術に依存しています。 特に、医療、セキュリティ、製造などの分野では、AI 駆動型システムがどのように意思決定を行うかについての透明性が重要です。ここで説明可能な AI が役立ちます。この技術により、システムの調査結果を人間が理解できる形で説明できるようになり、AI アルゴリズムによって行われた特定の決定の信頼性を示すことができます。 コンピューター ビジョンを使用して、次のビジネス上の課題を解決します。
2. 光学文字認識(OCR)光学式文字認識 (OCR) は、さまざまなドメイン固有のタスクを解決できるコンピューター ビジョンの独自の実装です。 OCR は、入力画像から文字、数字、その他の文字を検出して抽出することを目的としています。 ユースケースGoogle レンズは OCR を使用して、写真から外国語を翻訳したり、画像や Google 検索からテキストを抽出したりできるようにします。 OCR テクノロジーにより、新聞、雑誌、書籍のスキャンからテキストを抽出し、従来のメディアを簡単にデジタル化できるようになります。以前は、大学にとって、チベット仏教の宗教文書のような難解な文書をデジタル化することは困難でしたが、現代の OCR 技術により、非標準言語の文書からテキストを抽出することが簡単になりました。 金融機関は、OCR を使用して顧客の生活の質を向上させています。たとえば、顧客が文書から国際銀行口座番号 (IBAN) を抽出したり、小切手の画像をスキャンして銀行に預金しなくても済むようにしたりしています。一部のアプリケーションでは、デビット カードやクレジットカードをスキャンして支払いの詳細を入力できるため、チェックアウト ウィンドウですべての支払い情報を面倒に入力する必要がありません。 政府は、国境での処理時間を短縮したり、文書を識別して登録したりするために、OCR をよく使用します。現代のパスポートや運転免許証の機械読み取り可能領域は、政府環境と商用環境の両方の OCR システムと互換性があります。 3. 顔認識物体認識と同様に、顔認識はコンピュータービジョンを使用して画像内の人間の顔の特徴を識別することを目的としています。従来のコンピューター ビジョンのアプローチでは、「Haar のような特徴」を利用して顔の特徴間のセグメントを計算しますが、現代の顔認識の実装では、物体認識に AI が使用されるのと同様に、人工知能に依存しています。 ユースケース顔認識技術は、モバイルおよび Web アプリケーションの脆弱性を防ぐのに役立つため、セキュリティ アプリケーションにとって非常に重要です。数え切れないほど多くの Apple iPhone ユーザーが、携帯電話のロックを解除するための生体認証として Apple の Face ID テクノロジーを利用しています。 小売業者は、既知の万引き犯を特定するために同様の実装を導入しています。ライブスキャナーは、セキュリティカメラのストリームから顧客の顔を取得し、既知の犯罪者のデータベースと相互参照します。同じ技術は、法執行機関のデータベースから情報を取得して行方不明の子供を見つけるのにも役立ちます。 顔認識は次のようなタスクにも役立ちます。
次世代の顔認識ソフトウェアは、姿勢、身振り、表情まで見て、顧客がカジノで不正行為をする可能性があるかどうかを判断します。同じセキュリティソフトウェアにバンドルされている歩行分析は、多くの犯罪者がマスクを着用して顔認識を逃れているため、独特の足取りや歩幅のパターンに基づいて犯罪者を検出するのにも役立ちます。 4. 画像の復元とシーンの再構築コンピューター ビジョン テクノロジーは、劣化がひどいアーカイブ映像や画像を復元することもできるため、重要なビジネス テクノロジーとなり得ます。写真からノイズを除去するだけで十分な単純なケースとは異なり、コンピューター ビジョンは、大幅な変更と詳細な分析を必要とする、より破損した画像にも役立ちます。画像の破損した部分は、写真の放送内容を推定する生成モデルを使用して埋められることが多いです。 ユースケース最新のニューラル ネットワークは、画像やビデオを復元するだけでなく、写真内のオブジェクトをスキャンするだけで 3D シーンを再構築することもできます。考古学者、法医学の専門家、環境科学者、その他多くの専門家が、画期的なコンピューター ビジョン パラダイムであるシーン再構築を使用しています。 RetrievalFuse などのプロジェクトでは、単一の RGB 画像からパノラマ 3D シーンを構築できます。 5. 人間の姿勢推定ポーズ推定は、人間の視覚能力をエミュレートすることを目的としており、特に画像やビデオ内のポーズやジェスチャーを認識します。高度な人間の姿勢推定の最も初期の例のいくつかは、ピーター・ジャクソン監督の『ロード・オブ・ザ・リング』などの大予算映画に登場しました。コンピューティング リソースが時間とともに拡大するにつれて、姿勢推定はさまざまな製品で役割を果たすようになります。 ユースケースセキュリティ アプリケーションでは、顔認識が不可能な場合に、姿勢推定によって歩き方を分析して潜在的なトラブル発生者を特定できます。コンピュータービジョンは、体の姿勢を分析することで、万引きをリアルタイムで検出するのに役立ちます。このシステムは、通常の買い物行動と、商品を取ってポケットやコートに隠すなどの不審な行動を区別することができます。不審な行動が検出されると、管理者に警告が送られ、泥棒が店を出る前に迅速に対応できます。 ビジネスでポーズ推定を使用する方法はいくつかあります。
姿勢推定はかつては計算上の大きな課題でしたが、クラウド コンピューティングとハードウェアの革新により、より多くの企業がこの技術を利用できるようになりました。 すべては可能だ物体検出、顔認識、シーン再構成、画像復元、人間の姿勢推定などは、コンピューター ビジョン技術のさまざまな実装例のほんの一部です。次世代 AI の力により、コンピューター ビジョンは、業界を問わず、競合他社より優位に立つ独自の利点を提供できます。犯罪現場の写真のフルデプス 3D モデルの再構築から、工場のラインで大量生産される製品の欠陥の特定まで、コンピューター ビジョンはビジネスのやり方を変え続けています。 |
<<: 機械学習ツールボックスには6つの重要なアルゴリズムが隠されています
要点を一目でAI アライメントは、RLHF/RLAIF などの成熟した基本手法だけでなく、スケーラブ...
7月19日、「新バージョンの文心易言の性能はChatGPT 3.5を上回り、これは我が国の関連技術作...
近年、バーチャルデジタルヒューマン業界は大変人気が高まっており、あらゆる分野の人々が独自のデジタルヒ...
今年5月のGoogle I/Oカンファレンスで、ピチャイ氏はGPT-4と競合する大規模モデルであるP...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
3D ポートレート合成は、常に AIGC の注目を浴びている分野です。 NeRF と 3D 対応 ...
[51CTO.com クイック翻訳] 人工知能 (AI) システムは経済を変え、大量の失業と巨大な独...
近年、人工知能が話題になっています。 AlphaGoが次々と人間の囲碁の名人に勝利して以来、人工知能...
著者: Yajie Yingliang、Chen Long 他導入美団のフードデリバリー事業が成長を...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
[[191396]]カルロス・E・ペレスコンピレーション | 聖人、ワンショットオックスフォード大学...
人工知能の将来はどうなるのでしょうか?どのような方向に発展していくべきでしょうか?開発プロセス中に注...
人工知能(AI)は現在、将来のトレンドと発展の方向性として広く認識されています。 AI がすべての仕...