AI推論を加速し、OCRアプリケーション実装におけるインテル® Xeon® スケーラブル・プロセッサーの実用的応用を探る

AI推論を加速し、OCRアプリケーション実装におけるインテル® Xeon® スケーラブル・プロセッサーの実用的応用を探る

AIを活用して企業業務の自動化プロセスを加速し、デジタルトランスフォーメーションや業務プロセスのアップグレードを推進することは、企業が業務効率を向上させ、ビジネスイノベーションを推進するための重要な方法となっています。このプロセスにおいて、AI 対応のインテリジェント光学文字認識 (OCR) アプリケーションがますます重要な役割を果たしています。

人工知能技術の発展に伴い、AI 対応 OCR は、金融、政府、製造、インターネット、医療の各業界で、文書認識、情報流入、画像翻訳、ナンバープレート認識などのシナリオで広く使用され、企業が人材を効果的に解放し、作業効率を向上させ、幅広いデジタルアプリケーションに基本的な機能サポートを提供するのに役立っています。

インテリジェント OCR アプリケーションを導入すると、企業のビジネスや AI アプリケーション レイアウトにどのようなメリットがもたらされるのでしょうか?

UFIDAのアルゴリズムエンジニアリング専門家であるSong Qi氏、AsiaInfo Technologiesの製品運用専門家であるLv Ying氏、Neusoft Groupの医療保険部門の製品開発部門のディレクターであるHuang Xiaowei氏、Intelの人工知能ソフトウェアアーキテクトであるGui Sheng氏、Hubo Technologyの創設者兼CEOであるChen Ye氏が、「OCRから始まるエンタープライズAIアプリケーションの実装の促進」をテーマに素晴らしいプレゼンテーションを行いました。

AI は OCR を強化し、企業の効率向上とコスト削減を支援します

大規模言語モデルの現在の発展により、OCR テクノロジは、大規模言語モデルのアプリケーションにとって重要なエントリ ポイントおよびフロントエンド入力ソースになります。 OCR 自体は巨大な市場であり、そのアルゴリズムとプログラムは、パブリック クラウド、プライベート クラウド、エッジのローカル サーバー、さらには一部の端末デバイスなど、さまざまな場所に展開する必要があります。

多くのソフトウェア開発者やアルゴリズムサプライヤーが関与しており、メーカーは通常、コスト面での優位性が高く、ハードウェアの適応性が広いソリューションを必要としています。

一般的に、ユーザーが解決する必要がある次の 2 つの問題があります。

1 つ目は、GPU の使用によって生じる高コストと導入の困難さの問題を解決することであり、2 つ目は、CPU の計算パフォーマンスを向上させることです。

このため、UFIDA、AsiaInfo、Neusoft は Intel と協力し、Intel® Xeon®スケーラブルプロセッサーと内蔵 AI アクセラレーターの強力なパフォーマンスを活用して OCR アプリケーションのパフォーマンスを向上させ、顧客のデジタル変革を加速させることを選択しました。

OCRアプリケーションのパフォーマンスを最適化し、CPUのコンピューティング能力を最大限に引き出します

UFIDA のアルゴリズム エンジニアリング専門家である Song Qi 氏は、「UFIDA OCR シナリオにおける Intel AI アクセラレーション テクノロジーの応用」について語りました。

月間レポート量が多く、サービス コールが集中しているときに GPU の使用率とピーク時のサービス コールの可用性のバランスをとるために、UFIDA は異種プロセッサ サービス アーキテクチャを採用しました。つまり、OpenVINO™️ ツールキットを搭載した Intel® Xeon® スケーラブル プロセッサを使用して、ピーク時にデータを転送しますピーク需要に対応するには 16 コア CPU サーバーを 2 台追加するだけで済み、ピーク時に使用される GPU の数は 50% 削減されます。

OpenVINO™️ ツールキットによって最適化されたアルゴリズム サービスは、応答時間が 3 秒未満に短縮されるため、処理アーキテクチャ全体を切り替えても、全体的なビジネス応答時間と対応する遅延は影響を受けず、ユーザーはそれを意識することはありません。

AsiaInfo の製品運用専門家 Lv Ying 氏は、AsiaInfo の Robotic Process Automation Platform (AISWare AIRPA) は、人間とコンピューターの相互作用をシミュレートして強化することでワークフローの自動化を実現するプラットフォームであると紹介しました。 RPA 機能に基づいて、強力なインテリジェント OCR サポートを提供します。

インテリジェント OCR アプリケーションでは、AsiaInfo は第 4 世代 Xeon®️スケーラブルプロセッサと Intel®️ AMXを使用して、FP32 から INT8/BF16 への量子化をサポートし、スループットを向上させて、許容できる精度の低下で推論を高速化します。

結果から判断すると、従来の手作業による方法と比較して、コストは 1/5 ~ 1/9 に削減され、効率は約 5 ~ 10 倍向上します。

Neusoft が独自に開発した OCR 認識アルゴリズムは、主流のディープラーニング技術に基づいており、複雑な背景の下で、さまざまな病院やさまざまな形式の請求書、処方箋、請求書、経費リスト、詳細などの請求書情報を識別できます。 Intel Xeon®️スケーラブル・サーバーおよび OpenVINO™️ 環境では、より高い認識精度とより速い認識速度を実現できます。

さらに、Neusoftはソリューション設計段階でIntelと協力し、さまざまな世代のXeon®️スケーラブルプロセッサを搭載したサーバーを使用して、全体的なアルゴリズムのパフォーマンスを検証しました。最終的な実験結果では、第 4 世代 Intel®️ Xeon®️ スケーラブル プロセッサー上でモデル推論の高速化に OpenVINO™️ を使用すると、OCR認識パフォーマンスが大幅に向上することがわかりました

これらの OCR アプリケーションの正常な実装は、Intel のソフトウェアおよびハードウェア製品のサポートと切り離せません。

インテルの人工知能ソフトウェアアーキテクトである桂盛氏は、インテル® Xeon®スケーラブル・プロセッサーの進化に伴い、単一CPUのコア数は第1世代の最大28コアから第4世代の最大60コアまで増加し続けており、コア数の増加により、より強力なコンピューティングパワーがもたらされていると述べた。

さらに、Intel は、Intel®️ AMXなどの人工知能アプリケーションに特化した CPU 命令セットの最適化も数多く行っています。幅広いハードウェアとソフトウェア向けに最適化されており、マトリックス型演算を提供することで人工知能アプリケーションのクロックあたりの命令数 (IPC) を大幅に増加します。AMX アクセラレーション エンジンの助けにより、Xeon®スケーラブルプロセッサーは推論だけでなく、一部の機械学習トレーニング ワークロードの処理にも使用できます。

ビッグモデル技術の推進により、OCR の将来はどこにあるのでしょうか?

ビッグモデルテクノロジーは、OCR および関連アプリケーションにどのような新しい変化をもたらすのでしょうか?さまざまな業界にどのような力を与えるのでしょうか?セミナーの最後には、Hubo Technologyの創設者兼CEOであるChen Ye氏が、「OCRおよび関連アプリケーションの大規模モデルの実装に関する考えと新技術の開発の展望」について詳しく語りました。

インテリジェント OCR について語る際、陳葉氏は、その製品には 2 つの主要なポイントがあると述べました。1 つ目は、知識ベースを正確に確立し、文書を真に理解して、知識ベースとビッグモデルが理解できる形式に変換する必要があることです。2 つ目はビッグモデルです。

Hubo Technology の位置づけは、基本モデルをすべての人に提供し、ユーザーがその基本モデルに基づいて独自の分野で大規模な言語モデルやアプリケーションを迅速に構築できるようにすることです。

陳葉氏は、この旅はまだ始まったばかりだと信じており、Huobo Technology は、エコシステム パートナー、開発者、ユーザーの皆様とともに、人工知能 NLP 大規模言語モデルの次の刺激的で繁栄する数十年を目撃することを楽しみにしています。

Intel®️ Xeon®️スケーラブル・プロセッサーとIntel®️ AMXがOCR推論性能を大幅に向上させる技術的な詳細に興味があり、またTigerBo Technologyの大規模モデルの応用に関する考え方を知りたい場合は、Intelの「Xeon実践コース」の「OCRから企業AI応用を推進」で、より包括的で詳細な実際の説明が得られます。ポスターのQRコードをスキャンして登録し、視聴してください。

OCR マルチシナリオ アプリケーションにおけるIntel®️ AMXのパフォーマンス向上の詳細については、リンクをクリックしてください

<<:  AIがコスト削減、生産性、雇用に与える影響

>>:  人工知能の急速な成長がアジア太平洋地域のデータセンター市場を牽引する

ブログ    
ブログ    

推薦する

最新のロボット学習システムが登場、たった1本の動画で仕事内容を学習可能

近い将来、人間はロボットにやり方を一度見せるだけで、タスクの実行方法を教えることができるようになるか...

GPT-4Vの自動運転への応用の見通しは?現実世界のシナリオの包括的な評価はここにあります

GPT-4V のリリースにより、多くのコンピューター ビジョン (CV) アプリケーションに新たな可...

新しい指紋技術でコカインの使用を検出できる

[[401970]]メラニー・ベイリー博士は、工学・物理科学研究評議会 (EPSRC) の研究員です...

2024年のテクノロジートレンド: AIは金融サービス企業のデジタル変革の実現に役立つ

AIは銀行の顧客サービスの性質を変える銀行やその他の金融機関は、コールセンターからチャットボット、よ...

ニュースローン賞受賞者 宋 樹蘭: 視覚の観点からロボットの「目」を構築する

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

AI によるマインドリーディング: コンピューターはどのようにして脳波を復元するのか?

[[255490]]画像出典: Visual China 「私の体は潜水鐘のように重いが、私の心は...

2021 年に備えるべきビジネス インテリジェンスのトレンド トップ 10

2020 年には多くの業界セクターが根本的な変化を経験しましたが、ビジネス インテリジェンス業界も...

...

人工知能は人間に取って代わるでしょうか?

この記事のタイトルは少し大まかです。私の意見では、実際には 2 つの意味が含まれています。1 つ目は...

メルセデス・ベンツCIO:デジタル変革には人工知能の推進力が必要

メルセデス・ベンツは長年、機械学習と従来の人工知能に依存してきました。しかし、現在では、たとえば M...

GPT-4 より 10 倍高速!この売れ筋の AI エージェント製品がビッグモデルを揺るがします!

執筆者 | Yan Zheng制作:51CTO テクノロジースタック(WeChat ID:blog)...

二足歩行ロボット「キャシー」が機械学習を使って5kmのジョギングを完走

ロボット工学の世界では 4 年というのは長い期間ですが、特にオレゴン州立大学 (OSU) が開発した...

Google PaLM モデルも素人によって覚醒したと宣言されましたか?業界関係者:Rational テストは GPT よりわずか 3% 優れている

「汎用人工知能」は、今や2020年代の「水から石油」の技術になりつつあります。ほぼ2週間ごとに、大規...

ディープラーニングにおける多体問題の解決方法

「多体問題」(N 体問題とも呼ばれる)は単純に見えますが、実際には今日の数学で解決するのが非常に難し...

SAIC Maxus、クローズドループエコシステム構築に向けた「RVスマートモビリティビジョン」を発表

2017年6月30日、第一回世界知能大会で上汽大通の「RVスマートモビリティビジョン」が盛大に発表さ...