画像内の文字の教師なし学習

画像内の文字の教師なし学習

[[201526]]

人間の行動に関する研究が最近、Nature の子会社である Nature Human Behavior に掲載されました。この研究では、人間が自然画像内の文字の教師なし学習を通じて、テキストを認識する能力をどのように獲得したかが調査されました。研究者らは、確率的生成モデルを視覚入力に適合させることにより、完全に教師なしの方法で複雑な内部表現の階層を開発する、深層ニューラルネットワークに基づく文字認識のための大規模な計算モデルを提案した。

文字の使用は人類文化の発展における大きな成果です。しかし、抽象的な文字表現が視覚でどのように学習されるかは未解決の問題のままです。 Nature.com に掲載された「文字認識は教師なしのディープラーニングと自然画像の特徴のリサイクルから生まれる」と題する研究レポートで、研究者らは、確率的生成モデルを視覚入力に適合させることで、完全に教師なしの方法でより複雑な内部表現の階層を開発した、ディープニューラルネットワークに基づく文字認識の大規模計算モデルを提案しました。

書かれた記号を学習することで、物体認識のための既存の神経回路が部分的に再利用され、モデルの初期処理段階では自然画像から学習したドメイン一般的な視覚的特徴が活用される一方で、ドメイン固有の特徴は印刷された文字にさらされた上流のニューロンに現れるという仮説が立てられています。

私たちは、これらの高レベル表現が、ノイズで劣化した画像であっても、文字認識に容易にマッピングできることを実証し、人間の観察者によるものと同様の、文字認識に関する幅広い経験的結果の正確なシミュレーションが得られることを示しています。私たちのモデルは、書かれた記号を学習するには、自然な視覚プリミティブを再利用することで、限定されたドメイン固有の適応のみが必要であることを示しており、文字の形状は自然環境の統計的構造に合わせて文化的に選択されるという仮説を裏付けています。

図 1a は研究者によって提案されたモデルの全体的なアーキテクチャを示しています。ネットワークの最下層は、画像ピクセルのグレーレベル活性化としてエンコードされた知覚信号を受信します。網膜と視床で行われる低レベルの視覚処理は、コントラスト正規化のステップとして画像内の局所的な空間関係を捉える、生物学にヒントを得たホワイトニング アルゴリズムによって模倣されます。

図 1 は、ディープラーニングのアーキテクチャと自然画像および印刷文字データのサンプルを示しています。

a、ディープラーニングアーキテクチャ。各ボックスは、ネットワーク内のニューロンの層を表します。ホワイトニング手順に対応する有向矢印はフィードフォワード処理を導入し、無向接続は教師なし生成学習によって活用される双方向処理を示します。線形読み出し層に対応する有向矢印は、教師あり学習を導入します。文字処理に関与する対応する脳ネットワークが右側に示されています(LGN、背外側膝状体、V1、一次視覚皮質、V2、二次視覚皮質、V4、線条体外視覚皮質、OTS、側頭後頭溝)。

b、右側に示されているように、複数の小さなパッチ(40 × 40 ピクセル)を含む自然画像。c、さまざまなフォント、スタイル、サイズ、位置関係を使用して作成された、研究者のデータセット内の印刷された文字のサンプル。

研究者たちは、最初の内層(暗黙的)ニューロンにエンコードされた潜在的な特徴セットを H1 と呼んでいます。これは、初期の皮質視覚(V1 および V2)で発生する処理の種類を模倣しています。

図 2 は、モデル内で新たに出現したニューロン受容野、表現選択、および文字認識精度を示しています。

a、H1 層のニューロン サンプルの受容野。グレースケールは接続の強さを反映しています (黒: 強い、抑制性接続、白: 強い、興奮性接続)。

b、H2層の隠れニューロンのサンプルの受容野。

c および d、H1 層 (c) および H2 層 (d) におけるさまざまな刺激に対する平均フィードバック (活性化基準)。

e、ノイズ レベルの関数としての異なる表現レイヤーでの読み取り精度 (ガウス ノイズの標準偏差)。f、ノイズのない刺激サンプルと、同様に約 50% のパフォーマンスを示すノイズのある刺激サンプル。

図 3 は人間の心理物理学研究のシミュレーションです。

a、モデル混同行列とさまざまな経験的混同行列との間のピアソン相関(すべてP < 0.001)。すべての経験的マトリックス間の平均相互相関は 0.56 であることに注意してください。b、H2 表現の階層的クラスタリングによって取得されたデンドログラム。これは、文字間の視覚的な類似性がネットワークの内部表現で保持されていることを示しています。接続バーの高さはユークリッド距離を示します (バーが小さいほど類似性が高いことを示します)。

c、各フォントの平均周囲の複雑さと、ノイズ劣化刺激の対応する平均文字認識精度との間の負の相関。

d、平均的な文字の混乱度によってランク付けされたすべてのフォントのリスト。混乱が最も少ない (上) から最も混乱が多い (下) まで。

図 4 は、知覚チャネルを介した文字認識の空間周波数分析です。

a、b、ガウスノイズ(RMSコントラスト= 0.2)と背景(明るさ= 0.2)に重ね合わせた、ローパス(a)とハイパス(b)フィルタリングされた文字のサンプル。

c、フィルター タイプに応じた H2 読み出し感度比較関数。各文字の頻度は 0.8 ~ 6.6 の範囲です (両軸とも対数)。変調ノイズの代わりに入力信号を直接フィルタリングしたため、ローパス フィルタリングとハイパス フィルタリングに対応する曲線は、ローパス ノイズとハイパス ノイズに対応する曲線とは逆になっていることに注意してください。

<<:  ロボットの開発について冷静に考える:ロボットは本当にあなたの仕事を奪うのでしょうか?倫理的価値観の再構築のきっかけとなるか?

>>:  TensorFlow を使用してリカレント ニューラル ネットワークを構築、トレーニング、改善する方法

ブログ    
ブログ    

推薦する

Python コードを書くことができる人工知能 Kite が Linux のサポートを発表。プログラマーは職を失うことになるのでしょうか?

[[264788]]プログラマーが Python コードを書くという反復的な作業を軽減するのに役立...

...

AmazonがTitanシリーズのAIモデルを発売:画像やテキストを生成でき、価格と性能のバランスが取れていると主張

アマゾンは12月1日、昨日のre:Inventカンファレンスで、アマゾン初の画像生成モデル「Tita...

大規模機械学習のためのプログラミング手法、計算モデル、Xgboost および MXNet の事例

[[191977]]現在、機械学習のトレンドは、従来の方法のシンプルなモデル + 少量データ (手動...

住宅地での顔認識が論争を巻き起こす。所有者には「好意を示すことを拒否する」権利がある

[[349278]]今は「顔を見る時代」であり、「顔をスキャンする時代」でもあります。明らかに、後者...

パーソナライズされた推奨の CTR 推定にディープラーニングを使用する理由は何ですか?

ディープラーニングはおそらく、過去 2 年間でコンピューター コミュニティで最もホットな言葉です。エ...

絵画制作において想像力を最大限に発揮できる 8 つの優れた AI ペイント ツール

今日は、絵画作成において無限の想像力を発揮するのに役立つ 8 つの優れた AI ペイント ツールを紹...

言葉はもっと欺瞞的だ! MITの最新研究:DeepFakeによる顔の加工はペンを使った編集ほど良くない

​DeepFake は発売以来、潜在的な「悪質な AI」としてリストアップされてきました。 有名な「...

ソラ爆発的人気の裏側|世界のモデルとは何かを語ろう!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

国内トップクラスのAIカンファレンスCPALに採択された論文の成果を公開!合計30件の口頭発表と60件のスポットライト記事

今年5月に発表され、国内の有力者である馬怡氏と沈向陽氏が主導する、まったく新しい初のAI学術会議CP...

基礎知識がない人でも機械学習に切り替えることは可能ですか?

基礎知識がない人でも機械学習に切り替えることは可能ですか?機械学習には一定の数学的基礎が必要であり、...

漫画の着色に機械学習を使用する

何百ものトレーニング データの例を手描きせずに、シンプルなカラー スキームを自動的に適用できますか?...

「無人運転」の技術的道筋

無人運転車が実際に走行するには、認識、意思決定、実行における技術的な問題を解決する必要があります。 ...

Google、機械学習を使用して医療イベントを予測するFHIRプロトコルバッファツールをオープンソース化

先月26日、GoogleはarXivに「電子健康記録のためのスケーラブルで正確なディープラーニング」...

機械学習: Python による分類

子供にリンゴとオレンジの区別を教えたいとします。これを行うには複数の方法があります。お子様にこの 2...