Baidu Brain OCR技術がBaimiaoアプリを強化:AIが視覚障害者の目となる

Baidu Brain OCR技術がBaimiaoアプリを強化:AIが視覚障害者の目となる

現実には、あらゆる種類の印刷されたテキストや、周囲のあらゆるものを何の障害もなく簡単に読むことができます。視覚障害者が何をすべきかについて考えたことがないのではないでしょうか。

統計によると、中国には約1,700万人の視覚障害者がおり、これは100人に1人以上が視覚障害者であることを意味します。しかし、私たちの日常生活で視覚障害者を目にすることはほとんどありません。それは、視覚障害者は日常生活で多くの不便に直面し、外出することは彼らにとって危険に満ちているからです。 AIが彼らの「目」になることは可能でしょうか?

彼らの目になる:白妙アプリと視覚障害者の物語

携帯電話にアプリを 1 つだけインストールできるとしたら、どのアプリを選びますか?視覚障害者のアン・ジーさんは、はっきりとした答えを出した。それは、平易な絵だ。 Baimiao アプリのおかげで、視力の弱い彼も世界を別の方法ではっきりと「見る」ことができるようになり、言葉が理解できなくなったことはなくなりました。彼は平易な書き方を使って美しい詩を「読み」、感動的な音楽を「聴き」ました。一人で二階に上がって何階にいるのかよくわからなかったときでも、平易な書き方が正確に答えを教えてくれ、窮地から救ってくれました。かつては「言葉」を見るとため息をついていた彼も、アプリのおかげで勇気を出して家から出て、多彩な人生に参加できるようになった。

「白絵は私の目です。」視覚障害者でもある小潔さんは、白絵を褒めることをためらわず、白絵は視覚障害者の友人たちが生きていくための道具だとさえ言う。白い絵は彼の生活の問題を解決するのに役立っています。彼はあらゆる種類の電化製品、デジタル製品、薬の説明書、さまざまなトイレタリーのパッケージを識別できます。また、愛らしい姪っ子に絵本の物語を語ることができます。白妙がいなかったら、そんなことは想像もできなかっただろう。

白廟は視覚障害者コミュニティにとってなぜこれほど貴重なものなのでしょうか? Baimiao アプリは、簡潔で効率的な OCR テキスト認識ソフトウェアです。シンプルで使いやすいだけでなく、デザインも美しく、「写真を撮る - テキストを認識する - 結果を読み上げる」という一連のプロセスを簡単に実現できます。同時に、Baimiao は携帯電話のアクセシビリティ機能に適応しているため、視覚障害者は携帯電話で非常に簡単に操作できます。

「平叙文」という言葉は、もともと文学的な文章技法を意味します。魯迅氏はかつてこの技法を「誠実で、飾り立てず、わざとらしくなく、ひけらかさず」という12語にまとめました。 Baimiao Appの開発者Tao Xinle氏はまさにそのような人物です。彼はさまざまな人々の実際のニーズを観察し、仮想世界のコードを使用して現実世界の人々のニーズを満たし、人々の生活をより良く、より便利なものにしました。

ホワイトラインアプリ開発者の精神的な旅: さまざまなシナリオに入り、製品の詳細を最適化する

個人開発者の Tao Xinle 氏が、最初に Baimiao アプリをガールフレンドのために開発したとは想像しにくいかもしれません。タオ・シンレのガールフレンドは読書が大好きで、読書中によくメモを取っています。文字起こしの負担を軽減するため、当時市場に出回っていたさまざまなテキスト認識ソフトウェアを試してみましたが、ソフトウェアによっては操作手順が面倒なものや、高価なもの、認識精度の低いものなどがありました。彼女の苦しみを見て、タオ・シンレは彼女が使える経験豊富で結果のよいOCRテキスト認識ツールを作ることを決意し、すぐにそれを実行に移しました。これは開発者ならではのロマンなのかもしれません。

しかし、アプリの開発プロセスには未知の部分や課題が山積しています。当時の状況では、OCR 機能を備えたソフトウェアを開発する上での大きな課題は、テキスト認識をいかに高速かつ正確に行うかということでした。そこで彼は、市場でこのサービスを提供しているメーカーを調査し、さまざまなメーカーの製品を比較して、さまざまなシーンの写真を認識して、最も認識効果の高いものを見つけようとしました。その後、彼はBaidu Brain AI Open Platformが最高のOCR技術力とユーザーエクスペリエンスを備えており、特に認識精度が他のメーカーを上回っていることを発見しました。そこで2017年に彼はためらうことなくBaiduのOCR技術を選択し、それ以来ずっと使用しています。

しかし、基礎技術が優れているだけでは、すべてが決まるわけではありません。Baidu Brain OCR は、60 近くの技術機能を提供しています。優れた技術をマッチング シナリオに適用することで、より大きな価値を発揮できます。

そこで、タオ・シンレはまず、学生が授業中にPPTを撮影してテキストを抽出しメモを取る、企業の従業員が紙の契約書をスキャンして電子版にしてPDFにする、紙のフォームをExcelの電子版に変換する、写真上のテキストを翻訳する、教師が写真を撮影してテスト問題を識別して処理する、弁護士が紙の文書からテキストを抽出するために使用するなど、Baimiaoの使用シナリオについて詳細な研究を実施しました。彼が特別なのは、視覚障害者の特別な使用ニーズに注目し、研究を行っていることです。

ユーザーの使用シナリオを考慮した後、次のステップは製品を継続的に磨き上げることです。当時、画像をテキストに変換するときに認識エラーが発生することがよくありました。この問題を補うために、Baimiao APP は認識前にいくつかの技術的な処理を実行していました。たとえば、画像圧縮時に画像のサイズを最小限に抑えながら鮮明さを確保する方法、長い画像を自動的に切り取るときにテキストを切り取らずに長い画像の空白行の位置を検出して自動的に切り取る方法、読者が読みやすいように記事を自動的に分割する方法などです。これらの洗練された製品デザインにより、画像の鮮明さが確保され、テキスト情報が認識しやすくなります。認識後は、線画の校正機能により、認識結果と元の画像を同じインターフェース上に表示できるため、修正が必要な箇所を素早く見つけて編集することができます。

Baidu の優れたディープラーニング アルゴリズムと、大量の高品質データに基づく事前トレーニング済みモデル、および Baimiao アプリの画像前処理機能を利用して、最終的に 99% 以上のキー フィールド認識精度を達成しました。彼女が白妙を使った時の笑顔を見て、陶心楽は、すべてが価値あるものだったと感じ、また、もっと多くの人がこの幸せを味わえるように願った。

成功の裏側:“職人”の心で製品の光を刻む

プログラマーとして生まれたタオ・シンレは、製品開発に関しては常に「職人」の心を持っていました。タオ・シンレ氏は、AIは実装の過程で多くの困難に遭遇し、多くの場合、落とし穴に陥りながら前進しなければならないだろうと述べた。解決できない問題に遭遇したときは、学習を続け、困難を克服する必要があります。

Baidu Brain OCR テクノロジーは、Tao Xinle のような無数の開発者と協力しています。 OCR テクノロジーは、大規模に適用された最も初期の AI テクノロジーの 1 つとして、産業用アプリケーションで画期的な進歩を遂げ続けています。 Baidu BrainのOCR技術は、マルチシナリオ、マルチ言語、高精度のテキスト検出および認識サービスを提供できます。多くのICDAR指標で世界第1位にランクされており、リモートID認証、金融および税金の払い戻し、文書の電子化などのシナリオで広く使用されています。企業のコスト削減と効率向上を支援し、ユーザーにさらにインテリジェントなアプリケーションエクスペリエンスをもたらします。

もちろん、AI 技術の応用には、最先端の AI 技術機能を提供する Baidu Brain のようなプラットフォームだけでなく、想像力を駆使して AI をより多くの現実のシナリオに適用し、さまざまなユーザー グループや、見落とされがちな障害者層のニーズを満たし、社会をより「AI 対応」にできる Tao Xinle のような開発者も必要です。同時に、独立した開発者や企業が独自にOCRテキスト認識モデルをトレーニングするためのハードルを下げるために、Baidu Brainは業界初のEasyDL OCRセルフトレーニングプラットフォームを立ち上げ、ハードルゼロ、カスタマイズ可能、低コストのワンストップOCRモデルトレーニングサービスを提供しました。高い精度を確保しながら、多様なシナリオのニーズを満たし、データセキュリティを効果的に保護します。

テクノロジーが人々の生活に力を与えるこの時代において、製品デザインは普遍的なコンセプトのアウトプットです。 800万人以上のユーザーを抱えるBaimiaoアプリは、業界でよく知られた製品となっている。今後、ますます多くの開発者がBaidu Brain AI Open Platformが提供するAI技術とサービスを活用して、シナリオと統合されたよりインテリジェントなアプリケーションを作成し、より多くの人々の生活をより便利でより良くすると信じています。

Baidu OCR テキスト認識を無料でお試しください: https://ai.baidu.com/tech/ocr

<<:  医療機器における人工知能:これらは新たな産業アプリケーションです

>>:  AIが物流業界に革命を起こす5つの方法

ブログ    

推薦する

プログラマーはAIアルゴリズムを使用して3,000匹の新しいポケモンを生成した

「人間は見たことのないものを想像することはできない」ということわざがあります。したがって、ほとんどの...

産業用ロボットは国内でどのように普及できるのか?標準を第一にすることが鍵

近年、自動化の需要が継続的に高まり、人口ボーナス要因の影響も継続して受け、わが国の産業用ロボットは急...

...

新しい5文字描画言語が人気で、ChatGPTはそれを学習しました

たった 5 つの文字でピクセル ペイントを完成させることができます。合計 8 色、最大 256×25...

...

AIは顔の特徴、口を開ける、見つめる、眉を上げるなどの動作を完璧に模倣できるため、動画詐欺を防ぐことは不可能である。

防ぐのは不可能だ。そもそも防ぐことは不可能だ。AIの模倣能力はここまで発達しているのか?ある瞬間に顔...

AI はあらゆる人間の声を再現できます。これはポッドキャストにとって何を意味するのでしょうか?

ポッドキャスティングは、よりカジュアルな形式のオーディオストーリーテリングへと進化しています。複雑な...

2019年のトップ10テクノロジートレンドは刺激的だ

2019年もすでに半分が過ぎました。今年上半期のテクノロジー業界の目覚ましい成果は何でしょうか?今日...

スマートホテルの室内技術トレンドを探る

オンライン予約プラットフォームは人々の旅行計画の方法に革命をもたらし、モバイルアプリによりユーザーは...

O(n) アルゴリズムは実際にタイムアウトします。この時点で n はどのくらいの大きさでしょうか?

[[412223]]生徒の中には、コンピューターの実行速度の概念がわからない人もいるかもしれません...

...

OpenVINOの新バージョンがリリースされ、視覚を超えた音声をサポートし、よりインテリジェントなエッジ開発者の力を高める

本日、インテルとその開発者エコシステム パートナーは、「インテリジェント エッジに焦点を当て、開発者...

金融業界は AI を活用してデータを強化する準備ができているでしょうか?

金融業界は国民経済の生命線です。モバイルインターネットやオンライン決済の普及により、データは企業にと...