Baidu Brain OCR技術がBaimiaoアプリを強化:AIが視覚障害者の目となる

Baidu Brain OCR技術がBaimiaoアプリを強化:AIが視覚障害者の目となる

現実には、あらゆる種類の印刷されたテキストや、周囲のあらゆるものを何の障害もなく簡単に読むことができます。視覚障害者が何をすべきかについて考えたことがないのではないでしょうか。

統計によると、中国には約1,700万人の視覚障害者がおり、これは100人に1人以上が視覚障害者であることを意味します。しかし、私たちの日常生活で視覚障害者を目にすることはほとんどありません。それは、視覚障害者は日常生活で多くの不便に直面し、外出することは彼らにとって危険に満ちているからです。 AIが彼らの「目」になることは可能でしょうか?

彼らの目になる:白妙アプリと視覚障害者の物語

携帯電話にアプリを 1 つだけインストールできるとしたら、どのアプリを選びますか?視覚障害者のアン・ジーさんは、はっきりとした答えを出した。それは、平易な絵だ。 Baimiao アプリのおかげで、視力の弱い彼も世界を別の方法ではっきりと「見る」ことができるようになり、言葉が理解できなくなったことはなくなりました。彼は平易な書き方を使って美しい詩を「読み」、感動的な音楽を「聴き」ました。一人で二階に上がって何階にいるのかよくわからなかったときでも、平易な書き方が正確に答えを教えてくれ、窮地から救ってくれました。かつては「言葉」を見るとため息をついていた彼も、アプリのおかげで勇気を出して家から出て、多彩な人生に参加できるようになった。

「白絵は私の目です。」視覚障害者でもある小潔さんは、白絵を褒めることをためらわず、白絵は視覚障害者の友人たちが生きていくための道具だとさえ言う。白い絵は彼の生活の問題を解決するのに役立っています。彼はあらゆる種類の電化製品、デジタル製品、薬の説明書、さまざまなトイレタリーのパッケージを識別できます。また、愛らしい姪っ子に絵本の物語を語ることができます。白妙がいなかったら、そんなことは想像もできなかっただろう。

白廟は視覚障害者コミュニティにとってなぜこれほど貴重なものなのでしょうか? Baimiao アプリは、簡潔で効率的な OCR テキスト認識ソフトウェアです。シンプルで使いやすいだけでなく、デザインも美しく、「写真を撮る - テキストを認識する - 結果を読み上げる」という一連のプロセスを簡単に実現できます。同時に、Baimiao は携帯電話のアクセシビリティ機能に適応しているため、視覚障害者は携帯電話で非常に簡単に操作できます。

「平叙文」という言葉は、もともと文学的な文章技法を意味します。魯迅氏はかつてこの技法を「誠実で、飾り立てず、わざとらしくなく、ひけらかさず」という12語にまとめました。 Baimiao Appの開発者Tao Xinle氏はまさにそのような人物です。彼はさまざまな人々の実際のニーズを観察し、仮想世界のコードを使用して現実世界の人々のニーズを満たし、人々の生活をより良く、より便利なものにしました。

ホワイトラインアプリ開発者の精神的な旅: さまざまなシナリオに入り、製品の詳細を最適化する

個人開発者の Tao Xinle 氏が、最初に Baimiao アプリをガールフレンドのために開発したとは想像しにくいかもしれません。タオ・シンレのガールフレンドは読書が大好きで、読書中によくメモを取っています。文字起こしの負担を軽減するため、当時市場に出回っていたさまざまなテキスト認識ソフトウェアを試してみましたが、ソフトウェアによっては操作手順が面倒なものや、高価なもの、認識精度の低いものなどがありました。彼女の苦しみを見て、タオ・シンレは彼女が使える経験豊富で結果のよいOCRテキスト認識ツールを作ることを決意し、すぐにそれを実行に移しました。これは開発者ならではのロマンなのかもしれません。

しかし、アプリの開発プロセスには未知の部分や課題が山積しています。当時の状況では、OCR 機能を備えたソフトウェアを開発する上での大きな課題は、テキスト認識をいかに高速かつ正確に行うかということでした。そこで彼は、市場でこのサービスを提供しているメーカーを調査し、さまざまなメーカーの製品を比較して、さまざまなシーンの写真を認識して、最も認識効果の高いものを見つけようとしました。その後、彼はBaidu Brain AI Open Platformが最高のOCR技術力とユーザーエクスペリエンスを備えており、特に認識精度が他のメーカーを上回っていることを発見しました。そこで2017年に彼はためらうことなくBaiduのOCR技術を選択し、それ以来ずっと使用しています。

しかし、基礎技術が優れているだけでは、すべてが決まるわけではありません。Baidu Brain OCR は、60 近くの技術機能を提供しています。優れた技術をマッチング シナリオに適用することで、より大きな価値を発揮できます。

そこで、タオ・シンレはまず、学生が授業中にPPTを撮影してテキストを抽出しメモを取る、企業の従業員が紙の契約書をスキャンして電子版にしてPDFにする、紙のフォームをExcelの電子版に変換する、写真上のテキストを翻訳する、教師が写真を撮影してテスト問題を識別して処理する、弁護士が紙の文書からテキストを抽出するために使用するなど、Baimiaoの使用シナリオについて詳細な研究を実施しました。彼が特別なのは、視覚障害者の特別な使用ニーズに注目し、研究を行っていることです。

ユーザーの使用シナリオを考慮した後、次のステップは製品を継続的に磨き上げることです。当時、画像をテキストに変換するときに認識エラーが発生することがよくありました。この問題を補うために、Baimiao APP は認識前にいくつかの技術的な処理を実行していました。たとえば、画像圧縮時に画像のサイズを最小限に抑えながら鮮明さを確保する方法、長い画像を自動的に切り取るときにテキストを切り取らずに長い画像の空白行の位置を検出して自動的に切り取る方法、読者が読みやすいように記事を自動的に分割する方法などです。これらの洗練された製品デザインにより、画像の鮮明さが確保され、テキスト情報が認識しやすくなります。認識後は、線画の校正機能により、認識結果と元の画像を同じインターフェース上に表示できるため、修正が必要な箇所を素早く見つけて編集することができます。

Baidu の優れたディープラーニング アルゴリズムと、大量の高品質データに基づく事前トレーニング済みモデル、および Baimiao アプリの画像前処理機能を利用して、最終的に 99% 以上のキー フィールド認識精度を達成しました。彼女が白妙を使った時の笑顔を見て、陶心楽は、すべてが価値あるものだったと感じ、また、もっと多くの人がこの幸せを味わえるように願った。

成功の裏側:“職人”の心で製品の光を刻む

プログラマーとして生まれたタオ・シンレは、製品開発に関しては常に「職人」の心を持っていました。タオ・シンレ氏は、AIは実装の過程で多くの困難に遭遇し、多くの場合、落とし穴に陥りながら前進しなければならないだろうと述べた。解決できない問題に遭遇したときは、学習を続け、困難を克服する必要があります。

Baidu Brain OCR テクノロジーは、Tao Xinle のような無数の開発者と協力しています。 OCR テクノロジーは、大規模に適用された最も初期の AI テクノロジーの 1 つとして、産業用アプリケーションで画期的な進歩を遂げ続けています。 Baidu BrainのOCR技術は、マルチシナリオ、マルチ言語、高精度のテキスト検出および認識サービスを提供できます。多くのICDAR指標で世界第1位にランクされており、リモートID認証、金融および税金の払い戻し、文書の電子化などのシナリオで広く使用されています。企業のコスト削減と効率向上を支援し、ユーザーにさらにインテリジェントなアプリケーションエクスペリエンスをもたらします。

もちろん、AI 技術の応用には、最先端の AI 技術機能を提供する Baidu Brain のようなプラットフォームだけでなく、想像力を駆使して AI をより多くの現実のシナリオに適用し、さまざまなユーザー グループや、見落とされがちな障害者層のニーズを満たし、社会をより「AI 対応」にできる Tao Xinle のような開発者も必要です。同時に、独立した開発者や企業が独自にOCRテキスト認識モデルをトレーニングするためのハードルを下げるために、Baidu Brainは業界初のEasyDL OCRセルフトレーニングプラットフォームを立ち上げ、ハードルゼロ、カスタマイズ可能、低コストのワンストップOCRモデルトレーニングサービスを提供しました。高い精度を確保しながら、多様なシナリオのニーズを満たし、データセキュリティを効果的に保護します。

テクノロジーが人々の生活に力を与えるこの時代において、製品デザインは普遍的なコンセプトのアウトプットです。 800万人以上のユーザーを抱えるBaimiaoアプリは、業界でよく知られた製品となっている。今後、ますます多くの開発者がBaidu Brain AI Open Platformが提供するAI技術とサービスを活用して、シナリオと統合されたよりインテリジェントなアプリケーションを作成し、より多くの人々の生活をより便利でより良くすると信じています。

Baidu OCR テキスト認識を無料でお試しください: https://ai.baidu.com/tech/ocr

<<:  医療機器における人工知能:これらは新たな産業アプリケーションです

>>:  AIが物流業界に革命を起こす5つの方法

ブログ    
ブログ    
ブログ    

推薦する

...

2021年の世界人工知能産業の市場規模と投資・資金調達状況を分析人工知能は今後スパイラル状に発展する

人工知能業界の主要上場企業:現在、国内の人工知能業界の上場企業は主に百度(BAIDU)、テンセント(...

Ant Financialが機械学習ツールSQLFlowをオープンソース化、機械学習はSQLよりも簡単

5月6日、アント・ファイナンシャルの副CTOである胡曦氏はオープンソースの機械学習ツールSQLFlo...

AI が「インターネット セレブ」メタバースと出会うと、どのような変化が起こるでしょうか?

2021年に世界を爆発的に盛り上げたメタバースは、2022年に入っても冷める気配がなく、今も多くの...

2030 年までにどの AI アプリケーションが普及するでしょうか?

何十年もの間、人工知能はSFの中で邪悪な力として描かれてきました。アーサー・C・クラークの『宇宙の旅...

AIがオペレーターにできること、できないこと

人工知能は重要な戦略的基盤技術として、政府、産業界、社会から高い注目を集めています。第19回党大会報...

シンボリック人工知能、シンボリックAIの利点と限界について学びます

現在、AI は主に人工ニューラル ネットワークとディープラーニングに関するものです。しかし、必ずしも...

フェデレーテッドラーニングも安全ではないのでしょうか? Nvidiaの研究は「プライバシーフリー」データを使用して元の画像を直接再構築します

フェデレーテッド ラーニングは、データがローカルの場所から出ないようにするプライバシー保護戦略により...

...

Nvidia が PC CPU 市場に参入することが明らかになりました。ネットユーザー:Apple M1が市場を開拓したことを羨ましく思う

GPU マニアのNvidiaが、突如としてノート PC の CPU に狙いを定めました。ロイター通信...

Mambaはこのように使用できます。バイトをトークンに分割せずに効率的に学習します。

言語モデルを定義するときは通常、基本的な単語分割方法を使用して文を単語、サブワード、または文字に分割...

Python を使用したソーシャル メディア感情分析の入門

[[265146]]自然言語処理の基礎を学び、2 つの便利な Python パッケージを調べます。自...

2024年のトレンド: 時系列データと人工知能の融合アプリケーション

今日のデータ主導の世界では、競争上の差別化を図ることが成功の鍵となります。この目標を達成するために、...