画像内の文字の教師なし学習

画像内の文字の教師なし学習

[[201526]]

人間の行動に関する研究が最近、Nature の子会社である Nature Human Behavior に掲載されました。この研究では、人間が自然画像内の文字の教師なし学習を通じて、テキストを認識する能力をどのように獲得したかが調査されました。研究者らは、確率的生成モデルを視覚入力に適合させることにより、完全に教師なしの方法で複雑な内部表現の階層を開発する、深層ニューラルネットワークに基づく文字認識のための大規模な計算モデルを提案した。

文字の使用は人類文化の発展における大きな成果です。しかし、抽象的な文字表現が視覚でどのように学習されるかは未解決の問題のままです。 Nature.com に掲載された「文字認識は教師なしのディープラーニングと自然画像の特徴のリサイクルから生まれる」と題する研究レポートで、研究者らは、確率的生成モデルを視覚入力に適合させることで、完全に教師なしの方法でより複雑な内部表現の階層を開発した、ディープニューラルネットワークに基づく文字認識の大規模計算モデルを提案しました。

書かれた記号を学習することで、物体認識のための既存の神経回路が部分的に再利用され、モデルの初期処理段階では自然画像から学習したドメイン一般的な視覚的特徴が活用される一方で、ドメイン固有の特徴は印刷された文字にさらされた上流のニューロンに現れるという仮説が立てられています。

私たちは、これらの高レベル表現が、ノイズで劣化した画像であっても、文字認識に容易にマッピングできることを実証し、人間の観察者によるものと同様の、文字認識に関する幅広い経験的結果の正確なシミュレーションが得られることを示しています。私たちのモデルは、書かれた記号を学習するには、自然な視覚プリミティブを再利用することで、限定されたドメイン固有の適応のみが必要であることを示しており、文字の形状は自然環境の統計的構造に合わせて文化的に選択されるという仮説を裏付けています。

図 1a は研究者によって提案されたモデルの全体的なアーキテクチャを示しています。ネットワークの最下層は、画像ピクセルのグレーレベル活性化としてエンコードされた知覚信号を受信します。網膜と視床で行われる低レベルの視覚処理は、コントラスト正規化のステップとして画像内の局所的な空間関係を捉える、生物学にヒントを得たホワイトニング アルゴリズムによって模倣されます。

図 1 は、ディープラーニングのアーキテクチャと自然画像および印刷文字データのサンプルを示しています。

a、ディープラーニングアーキテクチャ。各ボックスは、ネットワーク内のニューロンの層を表します。ホワイトニング手順に対応する有向矢印はフィードフォワード処理を導入し、無向接続は教師なし生成学習によって活用される双方向処理を示します。線形読み出し層に対応する有向矢印は、教師あり学習を導入します。文字処理に関与する対応する脳ネットワークが右側に示されています(LGN、背外側膝状体、V1、一次視覚皮質、V2、二次視覚皮質、V4、線条体外視覚皮質、OTS、側頭後頭溝)。

b、右側に示されているように、複数の小さなパッチ(40 × 40 ピクセル)を含む自然画像。c、さまざまなフォント、スタイル、サイズ、位置関係を使用して作成された、研究者のデータセット内の印刷された文字のサンプル。

研究者たちは、最初の内層(暗黙的)ニューロンにエンコードされた潜在的な特徴セットを H1 と呼んでいます。これは、初期の皮質視覚(V1 および V2)で発生する処理の種類を模倣しています。

図 2 は、モデル内で新たに出現したニューロン受容野、表現選択、および文字認識精度を示しています。

a、H1 層のニューロン サンプルの受容野。グレースケールは接続の強さを反映しています (黒: 強い、抑制性接続、白: 強い、興奮性接続)。

b、H2層の隠れニューロンのサンプルの受容野。

c および d、H1 層 (c) および H2 層 (d) におけるさまざまな刺激に対する平均フィードバック (活性化基準)。

e、ノイズ レベルの関数としての異なる表現レイヤーでの読み取り精度 (ガウス ノイズの標準偏差)。f、ノイズのない刺激サンプルと、同様に約 50% のパフォーマンスを示すノイズのある刺激サンプル。

図 3 は人間の心理物理学研究のシミュレーションです。

a、モデル混同行列とさまざまな経験的混同行列との間のピアソン相関(すべてP < 0.001)。すべての経験的マトリックス間の平均相互相関は 0.56 であることに注意してください。b、H2 表現の階層的クラスタリングによって取得されたデンドログラム。これは、文字間の視覚的な類似性がネットワークの内部表現で保持されていることを示しています。接続バーの高さはユークリッド距離を示します (バーが小さいほど類似性が高いことを示します)。

c、各フォントの平均周囲の複雑さと、ノイズ劣化刺激の対応する平均文字認識精度との間の負の相関。

d、平均的な文字の混乱度によってランク付けされたすべてのフォントのリスト。混乱が最も少ない (上) から最も混乱が多い (下) まで。

図 4 は、知覚チャネルを介した文字認識の空間周波数分析です。

a、b、ガウスノイズ(RMSコントラスト= 0.2)と背景(明るさ= 0.2)に重ね合わせた、ローパス(a)とハイパス(b)フィルタリングされた文字のサンプル。

c、フィルター タイプに応じた H2 読み出し感度比較関数。各文字の頻度は 0.8 ~ 6.6 の範囲です (両軸とも対数)。変調ノイズの代わりに入力信号を直接フィルタリングしたため、ローパス フィルタリングとハイパス フィルタリングに対応する曲線は、ローパス ノイズとハイパス ノイズに対応する曲線とは逆になっていることに注意してください。

<<:  ロボットの開発について冷静に考える:ロボットは本当にあなたの仕事を奪うのでしょうか?倫理的価値観の再構築のきっかけとなるか?

>>:  TensorFlow を使用してリカレント ニューラル ネットワークを構築、トレーニング、改善する方法

ブログ    
ブログ    

推薦する

ロボティック プロセス オートメーション (RPA): 6 つのオープン ソース ツール

[[321682]] [51CTO.com クイック翻訳] 多くの新しいソフトウェアを実装する場合と...

Google、イスラエルの交差点にAI信号機を設置

2021年最後の法定休日に別れを告げ、皆が仕事に戻り、仕事帰りの通勤のリズムが戻りました。北京、上海...

ロボットはサービス業界に参入できるのか?事実が教えてくれる

有名なアニメーション会社ディズニーは、近々人工知能とロボット工学の分野に参入すると発表しました。ディ...

職場環境は依然として変化しているが、AIは「古いオフィス」を再現する以上の可能性を秘めている。

私たちは職場における技術革命の真っ只中にいます。 1か月ちょっと前に世界の人口の3分の1が隔離された...

2022年の人工知能産業の10大発展トレンド

電子ファンネットワークが報じた(文/李婉婉)近年、技術の継続的な進歩に伴い、人工知能産業は急速に発展...

ChatGPT エッセイの書き方の説明

1. 質問の仕方を理解するChatGPT と対話するときに使用されるプロンプトの主な 4 つのタイプ...

研究者は人工知能を使ってSARS-CoV-2のような次のウイルスを見つける

ジョージタウン大学の科学者が率いる国際研究チームは、COVID-19パンデミックの原因ウイルスである...

WebGPT について簡単に説明してください。学びましたか?

原作者: エベネザー・ドン元のアドレス: https://blog.logrocket.com/in...

Metaは、すべての製品のビデオ推奨エンジンをサポートする巨大なAIモデルを構築しています。

3月7日水曜日、Metaの上級幹部は米国時間、同社がFacebookを含む傘下のさまざまなプラット...

...

AIも失業するだろう。スウェーデンの銀行はAIを解雇した

将来自分の仕事が人工知能に置き換えられるのではないかと心配していたら、このニュースはあなたにいくらか...

...

AIが「軍事顧問」に?まずはRedditユーザーを獲得しよう

[[322491]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...