顔認識、音声認識、自動運転などが注目されるようになり、人工知能(AI)と社会や人間の生活の融合が急速に進んでいます。 実際、「人工知能」という用語は 1956 年に正式に提案されました。しかし、限られた高価な計算能力、既存の計算方法の欠陥、データの不足など、克服できない根本的な障害に直面して、「人間の脳をシミュレートする」ことは非常に遠いように思えます。 1980 年代初頭になってようやく、AI 熱狂の第二波が起こり、「エキスパート システム」と呼ばれる AI プログラムが世界中の企業に採用され始めました。各国は多額の投資を始め、例えば日本の経済産業省は、人と会話したり、言語を翻訳したり、画像を解釈したり、人間のように推論したりできる機械を作ることを目標に、「第5世代コンピュータ」の開発を目指した野心的な研究プログラムを開始した。 1980 年代後半、業界は人工知能システムへの巨額の投資と、それによって生み出されるアプリケーションの限界に疑問を抱き始めました。人工知能バブルは徐々に崩壊し、投資は大幅に減少し、人工知能は再び寒い冬を迎えました。 では、人工知能が一般大衆に普及するには何が必要でしょうか?業界の専門家は、ビジュアル AI 技術が今後の発展の方向になると考えています。
人間の場合、情報の70%~80%は視覚から得られます。人工知能においては、ビジュアルAIは現在最も応用価値のあるAI技術とも考えられています。これにより、機械は「人や物を認識することから、あらゆるものを認識するようになる」能力を持つようになり、世界を理解し、生産や仕事における情報処理の効率化に貢献できるようになります。 簡単に言えば、ビジュアル AI とは、機械に「見る」方法、つまり、人間の目の代わりにカメラとコンピューターを使用して画像の特徴を抽出および分析し、それによって新しい画像データに対する検出や認識などのタスクを実行するモデルをトレーニングし、画像やマルチモーダル データから「情報」を取得できる人工知能システムを確立する研究です。 ディープラーニングの進歩により、視覚 AI の認識能力は飛躍的に向上しました。2012 年に起きた 2 つのセンセーショナルな出来事は、視覚 AI の発展における転換点と見なされています。当時、トロント大学のジェフリー・ヒントン氏が率いるチームは、ディープラーニングとGPUの強力な計算能力を活用して、ImageNetと呼ばれる画像認識コンテストでエラー率を10%削減しました。それまでエラー率は毎年1%~2%しか減少していなかったため、学界に衝撃を与えました。 同年、「Google Brainの父」アンドリュー・ン氏は、事前の知識なしに、ラベルのないYouTube動画を観るだけで、大量の写真から猫の顔を自動的に識別する、10億パラメータのニューラルネットワークを使用した猫の顔認識システムを作成するチームを率いた。
ビジュアル AI は、セキュリティ、医療、無人運転などの分野への応用の見通しにより、急速に人工知能の分野で最も重要な研究分野となっています。 例えば、セキュリティ分野では、視覚AI技術は群衆分析や逃亡者追跡に活用できます。市内の何千もの道路に設置されたカメラを通じて対象の人物をロックしてスクリーニングし、リアルタイムの警報を発してセキュリティ効率の向上に役立ちます。携帯電話分野では、AIは顔認証によるロック解除や顔認証による支払いなど、より安全で便利な体験を提供できるほか、顔を自動的に美化できるため、後から写真を編集する時間が省けます。自動運転分野では、AI技術はカメラで取得した画像を通じて車両の周辺環境を識別・分析し、正確な経路計画を支援します。 将来的には、ビジュアル AI を活用したアプリケーションの展望がさらに広がるでしょう。例えば、顔認証技術はより多くのIoT端末機器に応用され、安全で便利な身分認証が普及し、生活体験が向上することが期待されています。AI +産業分野では、産業用ロボットや物流ロボットが従来の労働力に取って代わる割合が増加します。AI +文化分野では、AIベースの拡張現実技術により、古代の文化遺跡や古代の風景を本物と区別がつかないほど鮮明に復元できます。AI +教育分野では、視覚技術を使用して学生の注意を管理し、知識ポイントの習得状況を追跡することで、適性に応じた真の教育を実現します。 もちろん、AI によってもたらされた産業の新たな波は、ほんの数年しか続かなかった。技術の継続的な進歩と革新が必要であり、業界は引き続き深化と探求を続け、一般大衆も十分な忍耐力を持つ必要がある。 |
<<: ビッグデータ、クラウドコンピューティング、人工知能は密接に結びついている
>>: 持続可能な開発の達成において AI はどのような役割を果たすのでしょうか?
ミッドジャーニー火災以降、アーティストの道はますます狭くなっていった。最近、Midjourney や...
昨日(6月7日)、2022年度全国大学入学試験が始まりました。午前中に中国語科目試験が終了し、中国語...
2018年の初めに、人工知能は大きな進歩を遂げました。 1月11日、スタンフォード大学が主催する世界...
ブルームバーグによると、1月17日、現地時間火曜日にダボスで行われた世界経済フォーラム年次総会で、O...
[[272599]]人工知能は、英語の正式名称を「Artificial general intel...
年末から年始にかけて、ビッグモデルの過去を振り返り、ビッグモデルの未来に期待してみましょう。 28日...
LiBai モデル ライブラリは、Hugging Face、Megatron-LM、DeepSpe...
国慶節の連休中、Douyinの「方言一つで故郷の出身者と証明」というアクティビティが全国のネットユー...
Bing Chat のリリースから 6 か月後の 8 月 8 日、Microsoft Bing チー...
650 億パラメータの大規模モデルの事前トレーニング ソリューションは、リリース時にオープン ソース...