860万の超軽量中国語と英語のOCRモデルをオープンソース化し、ワンストップでトレーニングと展開が可能

860万の超軽量中国語と英語のOCRモデルをオープンソース化し、ワンストップでトレーニングと展開が可能

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

生活の中で最も一般的で便利な AI アプリケーション技術といえば、OCR (光学式文字認識) がその 1 つです。

さまざまなビジネス業務における日常的な身分証明書の認識から、自動運転車における最先端の道路標識の認識まで、そのサポートは不可欠です。

開発者として、カード認識、紙幣認識、自動車シーン、教育シーンのテキスト認識など、OCR に関連するさまざまなニーズがあることは当然です。

このモデルのサイズはわずか8.6Mで、 GPU なしでも実行でき、カスタム トレーニングからマルチハードウェア展開までの開発キット一式を備えたオープンソースの一般的な OCR プロジェクトも提供されます。詳細を知りたいですか?

では早速、結果を見てみましょう。

この超軽量モデルは、テキストが横書きでも縦書きでも認識効果が良好であることがわかります。

難易度は少し高めですが、実生活でよく遭遇するシナリオは問題ありません。

では、状況がもう少し複雑になった場合、このような小さなモデルでも耐えられるのでしょうか?

結局のところ、実際のアプリケーションシナリオでは、画像内のテキストは、文字が曲がったりぼやけたりするなど、多くの問題を必然的に抱えることになります。

たとえば、道路標識は高解像度ではありません。

画像本体は基本的に正しく認識されましたが、小さな英語の文字は確かにぼやけていて、認識効果は理想的ではありませんでした。

複雑なテキスト背景による画像認識効果を見てみましょう。

誤字脱字1つにつき1点減点されます。満点が10点なら、私は9点を付けます。

実際、OCR プロジェクトの実際の実装では、開発者は次の 2 つの問題点に直面することがよくあります。

1. モバイル側でもサーバー側でも、認識する画像の数は非常に多い場合が多く、モデルがより小さく、より正確で、より高速な予測が可能になることが期待されています。 GPU は高価すぎるので、より経済的な CPU を使用する方が良いでしょう。ビジネスニーズを満たすことを前提として、モデルが軽量であればあるほど、消費するリソースが少なくなります。

2. 実際のビジネス シナリオでは、OCR はさまざまな問題に直面します。ビジネス シナリオのパーソナライズには、カスタマイズされたデータ セットの再トレーニングが必要になることが多く、ハードウェア環境の多様化には、さまざまな展開方法のサポートが必要です。データ収集などの面倒な作業に加え、プロジェクトの実施にかかる時間の多くは、アルゴリズム開発以外の部分に費やされることがよくあります。R&D の進行を加速し、貴重な R&D 時間を節約するために、完全なフルプロセス ソリューションが緊急に必要とされています。

言い換えれば、超軽量モデルとそのフルプロセスソリューションは、特に計算能力とストレージ容量が限られているモバイルデバイスや組み込みデバイスにとって必要不可欠です。

このオープンソース プロジェクトでは、開発者は直接テストできるデモも用意してくれました。

QuantumBit の実際のハンズオンテストでは、モバイルデモ上の 10M 未満のモデルは、基本的に数秒で結果を生成できます。

このプロジェクトは、中国の公開データセット ICDAR2017-RCTW で、画像の長辺サイズを 960 ピクセルに制限し、同じテスト データとテスト条件を使用してテストされ、かつて GitHub のホット リストに載っていた Chineseocr_Lite の最新の 10M モデル (5.1k スター) と比較されました。モデルのサイズ、精度、予測速度に関しては、結果は次のようになります。

この 8.6M 超軽量モデルの場合、単一の V100 GPU カードの平均予測時間は 57 ミリ秒、CPU の平均予測時間は 319 ミリ秒です。

Chineseocr_Lite の 10M モデルの場合、単一の V100 カードの予測速度は 230ms、CPU の平均予測時間は 739ms です。

もちろん、モデル予測速度の向上は、モデルサイズの縮小によるだけでなく、アルゴリズムとフレームワークの徹底的な適応と最適化と切り離せないものです。

プロジェクトで指定されたベンチマークは次のとおりです。

GitHub で働くプログラマーとして、私は突然、上司がさまざまな OCR 要件を満たす方法がないと感じました。

[[333938]]

さらに、この 8.6M の超軽量オープンソースモデルは、大手メーカーによってサポートされています。

開発元は他でもない国内大手の AI 開発会社 Baidu であるため、この最新のオープンソース OCR ツール ライブラリはPaddleOCRと名付けられました。

GitHub アドレス: https://github.com/PaddlePaddle/PaddleOCR

8.6MユニバーサルOCRモデルの作成方法

PaddleOCRがリリースした超軽量モデルは、主に4.1Mの検出モデルと4.5Mの認識モデルで構成されています。

そのうち、検出モデルのベースモデルは DB アルゴリズムを採用し、テキストモデルのベースモデルは古典的な CRNN アルゴリズムを採用しています。

エンドサイドシリーズのモデルにおける MobileNetV3 の優れたパフォーマンスを考慮して、両方のモデルはバックボーン ネットワークとして MobileNetV3 を使用することを選択しました。これにより、最初はモデル サイズを 90% 以上削減できます。

さらに、開発者は、モデルのサイズをさらに圧縮するために、特徴チャネルの数を減らすなどの戦略も採用しました。

モデルは小さいですが、トレーニングに使用したデータセットは決して小さいものではありません。プロジェクト関係者から提供されたデータによると、モデルが使用したデータ量(合成データを含む)はおよそ数百万から数千万に上ります。

しかし、一部の開発者は、一部の垂直シナリオでは、一般的な OCR モデルの精度がニーズを満たさず、実際のプロジェクト展開でアルゴリズム モデルがさまざまな問題に遭遇する可能性があると疑問に思うかもしれません。どうすればよいでしょうか?

[[333939]]

PaddleOCR は、トレーニングから展開まで非常に包括的なワンストップ ガイダンスを提供しており、「最も完全な OCR 開発者ギフト パッケージ」と言えます。

「最も完全なOCR開発パッケージ」

業界で最も包括的なギフトパッケージカタログ

カスタムトレーニングをサポート

OCRビジネスは実は非常に特殊であり、一般的なモデルではユーザーのニーズを満たすことが困難です。以前のオープンソースのChineseocr_Liteも、ユーザーのトレーニングをサポートしていません。

開発者が独自のデータを使用して超軽量モデルをカスタマイズできるようにするために、860万の超軽量モデルに加えて、PaddleOCRは2つのテキスト検出アルゴリズム(EAST、DB)と4つのテキスト認識アルゴリズム(CRNN、Rosseta、STAR-Net、RARE)も提供しており、これらは基本的に一般的なOCRタスクのニーズをカバーでき、アルゴリズムは現在も強化されています。

特に、「モデルのトレーニング/評価」の中の「中国語OCRトレーニングと予測スキル」は目を引くもので、クリックすると「中国語の長文認識の特殊処理、異なるバックボーンの変更方法などの実用的なビジネススキル」が見られます。これは、実際のプロジェクト実践における開発者の錬金術ニーズと非常に一致しています。

[[333940]]

予測展開のプロセス全体を公開する

PaddleOCR がモバイル端末 (iOS および Android デモを含む)、組み込み端末、大規模データ オフライン予測、オンライン サービス予測など、さまざまな予測ツール コンポーネントをサポートしているため、開発者にとってさらに使いやすく、さまざまな産業グレードのアプリケーション シナリオに対応できます。

データセットの概要

このプロジェクトは、開発者が一般的に使用される中国語のデータセット、注釈、合成ツールを整理するのに役立ち、継続的に更新されます。

現在含まれているデータセットは次のとおりです:

  • 5 つの大規模一般データセット (ICDAR2019-LSVT、ICDAR2017-RCTW-17、中国の街頭風景テキスト認識、中国の文書テキスト認識、ICDAR2019-ArT)
  • 大規模手書き中国語データセット(中国科学院自動化研究所 - 手書き中国語データセット)
  • 垂直多言語 OCR データセット (中国の都市ナンバープレート データセット、銀行クレジットカード データセット、検証コード データセット - キャプチャ、多言語データセット)

また、よく使用されるデータ注釈ツール (labelImg、roLabelImg、labelme) とよく使用されるデータ合成ツール (text_renderer、SynthText、SynthText_Chinese_version、TextRecognitionDataGenerator、SynthText3D、UnrealText) も整理します。

オープンソース化されて以来、開発者から広く注目を集め、多数の開発者がプロ​​ジェクト構築に投資し、コンテンツを提供してきました。

本当に役立つ情報が満載です。

[[333941]]

体験してみませんか?

これを見て感動しましたか?実際に確認したい場合は、PaddleOCR が Web バージョンとモバイル バージョンの両方で試すことができるオンライン デモを提供しています。

興味があれば、下のポータルを集めて自分で体験してみてください〜

ポータル:

プロジェクトアドレス: https://github.com/PaddlePaddle/PaddleOCR

Web 版デモ: https://www.paddlepaddle.org.cn/hub/scene/ocr

モバイルデモ:

https://ai.baidu.com/easyedge/app/openSource?from=paddlelite

<<:  この記事では、インテリジェントな注釈の原理について説明します。人工知能が注釈の問題を解決する方法を学びます。

>>:  人工知能を活用して機密情報を保護する 5 つの方法

ブログ    
ブログ    
ブログ    

推薦する

IBMは、人間の音声認識の実際の単語エラー率は5.1%であると主張している。

昨年 10 月、マイクロソフトの AI および研究部門の研究者およびエンジニアのチームは、自社の音声...

...

ディープラーニングを使用して、あなたのようにチャットできるロボットをトレーニングするにはどうすればよいでしょうか?

[[201242]]チャットボットとは一体何でしょうか? 簡単に言えば、音声またはテキスト方式で会...

登ったり、ジャンプしたり、狭い隙間を通り抜けたり:オープンソースの強化学習戦略により、ロボット犬がパルクールを行えるようになる

パルクールはエクストリームスポーツであり、複雑な環境におけるさまざまな障害物を素早く克服する必要があ...

AIがイノベーションの大きな原動力となる理由

近年、人工知能は新興技術から必需品へと徐々に変化してきました。より大規模な企業の問題に対する解決策を...

完全なグラフが利用できない場合にグラフディープラーニングを使用するにはどうすればよいでしょうか?

多様体学習は、2000 年に有名な科学雑誌 Science で初めて提案されて以来、情報科学の分野に...

機械学習アルゴリズムは簡単に詐欺を検出できるので、詐欺を恐れる必要はありません。

実のところ、誰もが詐欺防止を必要としているわけではありません。金融機関が最新の犯罪手法に追いつこうと...

世界人工知能会議が終了しました。今後、AIは私たちの生活にどのように浸透していくのでしょうか?

過去 2 年間で最もホットな話題は何かと聞かれれば、人工知能は間違いなくそのリストに載るでしょう。金...

ソフトウェアエンジニアの年収は930万ドル! Googleの給与が明らかに:15億6千万ドルは史上最高額

シリコンバレーの大企業の中でも、グーグルの従業員はテクノロジー業界で最も高給を得ている社員の一部であ...

誰も教えてくれないAI大規模導入の効率的なプロセス!

現在、AIに関するチュートリアルは数多くあります。オブジェクト検出、画像分類、NLP の実行方法、チ...

Java 実装と読み取り/書き込みロック アルゴリズムの考え方

問題の背景: 複数のスレッドが共有リソースへの読み取りおよび書き込みアクセスを実行します。書き込みス...

...

ロボット兵士はもはやSFではない

ロボット兵士はまもなく現実のものとなり、戦争作戦の遂行において人間の兵士を支援し、負傷した兵士に医療...

...

顔認識は「ワーテルロー」に見舞われ、ビッグデータが将来の方向性を明らかに

顔認識技術の利用が増えるにつれ、さまざまなリスクが徐々に明らかになってきています。 CCTVの「3....