画像内の文字の教師なし学習

画像内の文字の教師なし学習

[[201526]]

人間の行動に関する研究が最近、Nature の子会社である Nature Human Behavior に掲載されました。この研究では、人間が自然画像内の文字の教師なし学習を通じて、テキストを認識する能力をどのように獲得したかが調査されました。研究者らは、確率的生成モデルを視覚入力に適合させることにより、完全に教師なしの方法で複雑な内部表現の階層を開発する、深層ニューラルネットワークに基づく文字認識のための大規模な計算モデルを提案した。

文字の使用は人類文化の発展における大きな成果です。しかし、抽象的な文字表現が視覚でどのように学習されるかは未解決の問題のままです。 Nature.com に掲載された「文字認識は教師なしのディープラーニングと自然画像の特徴のリサイクルから生まれる」と題する研究レポートで、研究者らは、確率的生成モデルを視覚入力に適合させることで、完全に教師なしの方法でより複雑な内部表現の階層を開発した、ディープニューラルネットワークに基づく文字認識の大規模計算モデルを提案しました。

書かれた記号を学習することで、物体認識のための既存の神経回路が部分的に再利用され、モデルの初期処理段階では自然画像から学習したドメイン一般的な視覚的特徴が活用される一方で、ドメイン固有の特徴は印刷された文字にさらされた上流のニューロンに現れるという仮説が立てられています。

私たちは、これらの高レベル表現が、ノイズで劣化した画像であっても、文字認識に容易にマッピングできることを実証し、人間の観察者によるものと同様の、文字認識に関する幅広い経験的結果の正確なシミュレーションが得られることを示しています。私たちのモデルは、書かれた記号を学習するには、自然な視覚プリミティブを再利用することで、限定されたドメイン固有の適応のみが必要であることを示しており、文字の形状は自然環境の統計的構造に合わせて文化的に選択されるという仮説を裏付けています。

図 1a は研究者によって提案されたモデルの全体的なアーキテクチャを示しています。ネットワークの最下層は、画像ピクセルのグレーレベル活性化としてエンコードされた知覚信号を受信します。網膜と視床で行われる低レベルの視覚処理は、コントラスト正規化のステップとして画像内の局所的な空間関係を捉える、生物学にヒントを得たホワイトニング アルゴリズムによって模倣されます。

図 1 は、ディープラーニングのアーキテクチャと自然画像および印刷文字データのサンプルを示しています。

a、ディープラーニングアーキテクチャ。各ボックスは、ネットワーク内のニューロンの層を表します。ホワイトニング手順に対応する有向矢印はフィードフォワード処理を導入し、無向接続は教師なし生成学習によって活用される双方向処理を示します。線形読み出し層に対応する有向矢印は、教師あり学習を導入します。文字処理に関与する対応する脳ネットワークが右側に示されています(LGN、背外側膝状体、V1、一次視覚皮質、V2、二次視覚皮質、V4、線条体外視覚皮質、OTS、側頭後頭溝)。

b、右側に示されているように、複数の小さなパッチ(40 × 40 ピクセル)を含む自然画像。c、さまざまなフォント、スタイル、サイズ、位置関係を使用して作成された、研究者のデータセット内の印刷された文字のサンプル。

研究者たちは、最初の内層(暗黙的)ニューロンにエンコードされた潜在的な特徴セットを H1 と呼んでいます。これは、初期の皮質視覚(V1 および V2)で発生する処理の種類を模倣しています。

図 2 は、モデル内で新たに出現したニューロン受容野、表現選択、および文字認識精度を示しています。

a、H1 層のニューロン サンプルの受容野。グレースケールは接続の強さを反映しています (黒: 強い、抑制性接続、白: 強い、興奮性接続)。

b、H2層の隠れニューロンのサンプルの受容野。

c および d、H1 層 (c) および H2 層 (d) におけるさまざまな刺激に対する平均フィードバック (活性化基準)。

e、ノイズ レベルの関数としての異なる表現レイヤーでの読み取り精度 (ガウス ノイズの標準偏差)。f、ノイズのない刺激サンプルと、同様に約 50% のパフォーマンスを示すノイズのある刺激サンプル。

図 3 は人間の心理物理学研究のシミュレーションです。

a、モデル混同行列とさまざまな経験的混同行列との間のピアソン相関(すべてP < 0.001)。すべての経験的マトリックス間の平均相互相関は 0.56 であることに注意してください。b、H2 表現の階層的クラスタリングによって取得されたデンドログラム。これは、文字間の視覚的な類似性がネットワークの内部表現で保持されていることを示しています。接続バーの高さはユークリッド距離を示します (バーが小さいほど類似性が高いことを示します)。

c、各フォントの平均周囲の複雑さと、ノイズ劣化刺激の対応する平均文字認識精度との間の負の相関。

d、平均的な文字の混乱度によってランク付けされたすべてのフォントのリスト。混乱が最も少ない (上) から最も混乱が多い (下) まで。

図 4 は、知覚チャネルを介した文字認識の空間周波数分析です。

a、b、ガウスノイズ(RMSコントラスト= 0.2)と背景(明るさ= 0.2)に重ね合わせた、ローパス(a)とハイパス(b)フィルタリングされた文字のサンプル。

c、フィルター タイプに応じた H2 読み出し感度比較関数。各文字の頻度は 0.8 ~ 6.6 の範囲です (両軸とも対数)。変調ノイズの代わりに入力信号を直接フィルタリングしたため、ローパス フィルタリングとハイパス フィルタリングに対応する曲線は、ローパス ノイズとハイパス ノイズに対応する曲線とは逆になっていることに注意してください。

<<:  ロボットの開発について冷静に考える:ロボットは本当にあなたの仕事を奪うのでしょうか?倫理的価値観の再構築のきっかけとなるか?

>>:  TensorFlow を使用してリカレント ニューラル ネットワークを構築、トレーニング、改善する方法

推薦する

「中関村スマートAIパートナープログラム」の登録受付が開始

「中関村スマート人工知能パートナープログラム」(以下、プログラム)の登録は2021年3月1日に正式に...

顔認識はどのように機能しますか?

顔認識は、テクノロジーを通じて人の顔を識別する方法です。顔認識システムは生体認証技術を使用して、写真...

AIoTの生死に関わる状況:将来的にはAIoTは非常に収益性が高いが、現時点ではAI+IoTは非常に高価

Huawei が初めて AIoT 戦略を発表したり、JD.com が IoT 事業を Xiaojin...

...

高校時代の位相除算と位相減算のアルゴリズムについて

[[356850]]プログラミングの本質はアルゴリズムから来ており、アルゴリズムの本質は数学から来て...

教育におけるAIの役割: AIが学習方法をどのように変えるか

教育分野では、人工知能(AI)の適応性が大きな注目を集めています。学習者、教育者、政策立案者はいずれ...

バーチャル彼女に触れることもできます!ネイチャーに新たな研究が掲載、トッププレイヤーのシナリオが実現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

参入から放棄までのデータマイニング:線形回帰とロジスティック回帰

「データマイニングのアルゴリズムは、線形代数、確率論、情報理論に基づいています。それらを深く掘り下げ...

GitHubが11,000スターを獲得、ソフトウェア開発プロセスをシミュレート、オープンソースフレームワークMetaGPTが爆発的に増加

大規模言語モデル (LLM) が成熟するにつれて、それを使用して AI エージェントを構築することが...

6つの権威あるリストを制覇したDAMOアカデミー独自の深層言語モデルシステムAliceMindはオープンソースです

[[406821]]自然言語処理 (NLP) は、AI の最高傑作として知られています。従来の NL...

MetaMath: 逆思考で大規模モデルをトレーニングする新しい数学的推論言語モデル

複雑な数学的推論は、大規模言語モデルの推論能力を評価するための重要な指標です。現在、一般的に使用され...

大規模な言語モデルをローカルで実行する 5 つの簡単な方法

翻訳者 |陳俊レビュー | Chonglou今日では、ChatGPT や phind などの AI ...

...