[51CTO.com クイック翻訳]人工知能を使用して画像上のピクセルシーケンスをテキストに変換する技術は、5年前やそれ以前ほど原始的ではありません。パフォーマンス、精度、信頼性の向上により、ソーシャル メディアから電子商取引まで、さまざまな分野でスムーズかつ効率的な画像キャプション作成が可能になります。また、ダウンロードした画像に応じてタグが自動的に作成されます。 この記事では、画像キャプション技術の使用例、基本構造、長所と短所について説明し、入力画像に表示される内容の意味のある説明を作成できるモデルを紹介します。 視覚言語の目標として、画像キャプションはコンピュータービジョンと自然言語処理の助けを借りて解決できます。 AI 部分では、畳み込みニューラル ネットワーク (CNN) や再帰型ニューラル ネットワーク (RNN)、または適用可能なモデルを使用して目標を達成します。 技術的な詳細を説明する前に、画像キャプションの位置づけを理解することが重要です。 AI による画像のタグ付けと説明のユースケース「画像キャプション作成は、幅広いサービスを可能にするコンピューター ビジョンのコア機能の 1 つです」と、マイクロソフトのテクニカル フェロー兼 Azure AI Cognitive Services の最高技術責任者である Xuedong Huang 氏は述べています。 彼の指摘はもっともだ。画像キャプション技術は、電子商取引、写真共有サービス、オンラインカタログにおける画像タグ付けなど、すでに幅広い用途で使われているからだ。 この場合、画像からラベルを自動的に作成できます。たとえば、ユーザーがオンライン ディレクトリに画像をアップロードすると、画像キャプションが生成され、ユーザーの操作が簡素化されます。この場合、AI は画像を認識して属性を生成します。これらの属性は、署名、カテゴリ、または説明になります。この技術は、オンライン ストアで販売する商品の種類、素材、色、パターン、その他の適切な商品を決定することもできます。 一方、画像キャプションは、画像共有サービスやオンライン ディレクトリを通じて実装でき、SEO や分類の目的で意味のある画像の説明を自動的に作成します。さらに、画像キャプション技術により、画像がプラットフォームの公開ルールに準拠しているかどうかを確認することもできます。ここでは、畳み込みニューラル ネットワーク (CNN) 分類の代替として機能し、トラフィックと収益の増加に役立ちます。 注: ビデオの説明を作成するのは、より複雑な作業です。しかし、現在の技術ではそれが可能になりました。 (1)視覚障害者のための自動画像注釈 このようなソリューションを開発するには、画像をテキストに変換し、さらに音声に変換する必要があります。これらはディープラーニング技術の 2 つの有名な応用です。 マイクロソフトが開発した「Seeing AI」というアプリケーションにより、視覚障害のあるユーザーはスマートフォンを使って周囲の世界を見ることができる。携帯電話のカメラを目の前のものに向けると、アプリケーションが画像をテキストに変換し、音声による指示を出すことができます。また、印刷されたテキストや手書きのテキスト、物体や人物も認識できます。 Google はまた、画像の説明文を作成できるツールもリリースしており、視覚に障害のある人や弱視の人でも画像やシーンを理解できるようにしている。この機械学習ツールは複数のレイヤーで構成されています。最初のモデルは、画像内のテキストと手書きの数字を認識します。次に、別のモデルが車、木、動物など周囲の世界のオブジェクトを識別します。 3 番目のレイヤーは、全文説明から要約説明を見つけることができる高レベル モデルです。 (2)ソーシャルメディア向けAI画像キャプション作成 AI ベースのツールを利用して生成された画像キャプションは、すでに Facebook と Instagram で利用可能です。さらに、そのモデルはよりスマートになり、新しいオブジェクト、アクション、パターンを認識することを学習します。 Facebook は、約 5 年前に Alt テキストの説明を作成するシステムを作成しました。今ではより正確になりました。以前は、画像の説明には一般的なテキストが使用されていましたが、現在ではシステムが詳細な説明を生成できます。 人工知能ロゴ画像キャプション技術も他の AI 技術とともに導入されています。たとえば、DeepLogo は TensorFlow オブジェクト検出 API をベースにしたニューラル ネットワークです。ロゴを識別できます。ロゴワードの名前が画像のサブタイトルとして表示されます。生成的敵対的ニューラル ネットワーク (GAN) に基づくグリフ合成モデルの研究により、生成的敵対的ニューラル ネットワーク (GAN) の動作原理を明らかにすることができます。 画像キャプション作成のためのディープラーニングモデルの研究ここでは、考えられる使用ケースを念頭に置いて、画像の意味のあるテキスト説明を作成するためのモデルが適用されます。たとえば、画像のキャプションでは、各画像の主な対象であるアクションやオブジェクトを説明できます。モデルのトレーニングには、Microsoft COCO2014 データセットを使用できます。 COCO データセットは、大規模なオブジェクト検出、セグメンテーション、キャプション作成データセットです。 80 のカテゴリに分類された約 150 万のさまざまなアイテムが含まれています。各画像には、手動で生成された 5 つのキャプションが添付されています。 Andrej Karpathy のトレーニング、検証、テストの分割を使用すると、データセットをトレーニング、検証、テストの部分に分割できます。さらに、結果を評価するには、BLEU、ROUGE、METEOR、CIDEr、SPICE などのパラメータが必要です。 画像キャプション作成のための機械学習モデルの比較通常、画像キャプションのベースライン アーキテクチャでは、入力を固定形式にエンコードし、単語ごとにシーケンスにデコードします。 エンコーダーは、3 つのカラー チャネルを持つ入力画像を、学習チャネルを持つ小さな画像にエンコードします。この小さなエンコードされた画像は、元の画像内の有用な情報の要約です。エンコードには、任意の畳み込みニューラル ネットワーク (CNN) アーキテクチャを適用できます。さらに、エンコーダー部分には転移学習も利用できます。 デコーダーは、すでにエンコードされた画像を調べて、単語ごとに字幕を生成します。予測された各単語は次の単語の作成に使用されます。実装に進む前に、モデルを作成し、Meshed-Memory コンバーター モデルでテストすることで学んだことを見てみましょう。 人工知能ベースの画像キャプションまた、エラーにつながる例についても研究します。エラーは通常、いくつかの理由で発生しますが、最も一般的な理由は、画像の品質が低いことと、初期データセットに要素が欠落していることです。モデルは一般的な画像のデータセットでトレーニングされたため、コンテンツがわからない場合や正しく識別できない場合は間違いを犯します。これは人間の脳の働きと同じです。 ニューラル ネットワークがどのように機能するかを示す別の例を示します。たとえば、データセット モデルにはトラはいません。代わりに、AI システムは、人間の脳が未知のものを処理するのと同じように、最も近い既知のオブジェクトを選択します。 画像キャプションのためのトップダウン注意モデルトップダウン注意モデルは、比較に利用できる最初のモデルです。トップダウン アテンション メカニズムは、ボトムアップ アテンション メカニズムとトップダウン アテンション メカニズムを組み合わせたものです。 より高速な R-CNN は、オブジェクト検出と画像キャプション作成タスク間の接続を確立するために使用されます。領域提案モデルは、さまざまな業界のドメイン知識を活用して、オブジェクト検出データセットで事前トレーニングされています。さらに、他の注意メカニズムとは異なり、両方のモデルはトップダウンの注意メカニズムを使用します。 画像特徴抽出には、より高速な R-CNN (図 5A) が使用されました。 Faster R-CNN は、特定のカテゴリに属するオブジェクトを識別し、境界ボックスを使用してそれらの位置を特定するオブジェクト検出モデルです。より高速な R-CNN は 2 段階でオブジェクトを検出します。 最初の段階は、Region Proposal Network (RPN) と呼ばれ、オブジェクトの提案を予測するために使用されます。最上位フレーム方式は、交差結合 (IoU) と非最大抑制 (NMS) を使用して第 2 ステージの入力として選択されます。 第 2 段階では、関心領域 (RoI) プーリングを使用して、各ボックス提案に対して非常に小さな特徴マップ (例: 14×14) が抽出されます。これらの特徴マップはバッチ処理され、畳み込みニューラル ネットワーク (CNN) の最終層への入力として使用されます。したがって、最終的なモデル出力は、クラス ラベル上のソフトマックス分布と、各ボックス提案のクラス固有の境界ボックスの改良で構成されます。 たとえば、上の図に示されている字幕モデルでは、トップダウンの注意メカニズムを使用して、字幕生成プロセス中に各機能に重み付けを行います。これは、アップアテンションとダウンアテンションのメカニズムを備えた Long Short-Term Memory (LSTM) ネットワークです。大まかに言えば、キャプション モデルは 2 つの LSTM レイヤーで構成されます。 画像キャプション作成のためのメッシュメモリトランスフォーマーモデル画像キャプション作成タスクを解決するために使用される別のモデルは、Meshed-Memory Transformer です。複数の層に積み重ねられたエンコーダー部分とデコーダー部分で構成されています。エンコーダーにはフィードフォワード層も含まれており、デコーダーには重み付けされた学習可能なメカニズムがあります。 画像の領域はマルチレベルでエンコードされます。このモデルでは、低レベルの関係と高レベルの関係の両方を考慮します。学習した知識はメモリベクトルとしてエンコードされます。エンコーダ部とデコーダ部のレイヤーはメッシュ構造で接続されています。デコーダーは、各エンコーディング レイヤーの出力を読み取り、単語に対して自己注意を実行し、エンコーディング レイヤー全体に対して相互注意を実行し、結果を変調して合計します。 したがって、モデルは画像の視覚的な内容だけでなく、エンコーダの事前知識も活用できます。 2つの画像キャプションモデルの比較研究によると、Updown モデルと M2 Transformer モデルは同じデータでトレーニングされているため、比較することが可能です。次の 2 つのグラフは、2 つのモデルを比較したものです。 表1 評価指標 表2 推論時間とメモリ 画像キャプション:結果分析と今後の展望どちらのモデルもかなり良い結果を示しています。彼らの助けにより、データセット内のほとんどの画像に意味のあるキャプションを生成できます。さらに、巨大な Visual Genome データセットでの特徴の事前抽出と事前トレーニングに Faster-RCNN を使用しているため、モデルは人々の日常生活における多くのオブジェクトや動作を認識し、それらを正しく記述することができます。 違いは何ですか?Updown モデルは、M2 Transformer よりも高速で軽量です。その理由は、M2 Transformer では、エンコーダーとデコーダー間の追加の (「グリッド」) 接続や、過去の経験を記憶するためのメモリ ベクトルなど、より多くのテクニックが使用されるためです。さらに、これらのモデルは異なる注意メカニズムを使用します。 トップダウン アテンションは一度に実行できますが、M2 Transformer で使用されるマルチヘッド アテンションは、複数回並行して実行する必要があります。ただし、取得したメトリックによると、M2 Transformer の方が優れた結果を達成しています。これを利用すると、より正確で多様な字幕を生成できます。 M2 Transformer の予測では、データセット内の画像やその他の関連画像を説明する際の不正確さが少なくなります。したがって、主なタスクをより適切に実行できます。 この論文ではこれら 2 つのモデルを比較していますが、画像キャプション付けのタスクには他のアプローチもあります。デコーダーとエンコーダーを変更したり、さまざまな単語ベクトルを使用したり、データセットをマージしたり、転移学習を採用したりできます。 このモデルは、視力障害を持つ人々のためのアプリとして、または電子商取引プラットフォームに組み込まれた追加ツールとして、特定のビジネスにさらに適合した結果が得られるように改良することができます。この目標を達成するには、関連するデータセットでモデルをトレーニングする必要があります。たとえば、システムが衣服を正しく記述するには、衣服を含むデータセットでトレーニングするのが最適です。 原題: ビジネスアプリケーション向けディープラーニング画像キャプション技術、著者: MobiDev [51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください] |
<<: 正規化により事前トレーニングが改善され、勾配の不一致が軽減され、Facebook のモデルが GPT-3 を上回る
>>: 一般化の危機! LeCunは質問を公開しました: テストセットとトレーニングセットは決して関連していません
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
1月8日、OpenAIのCEOサム・アルトマン氏は、タイム誌編集長とのインタビューで、昨年末に同社と...
[51CTO.com クイック翻訳] 統計によると、回答者が現在選択している最も一般的に使用されてい...
世界中の人工知能の人材が徐々に量産モードに入りつつあります。今年6月、百度と浙江大学は、潜在的な人工...
[[387945]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
AIは心臓病の予測やアルツハイマー病の検出など、医療分野で幅広い応用が期待されています。新たな研究に...
人工知能 (AI) は、退屈な日常的な作業を一つずつこなして世界を席巻しています。 AI を使用して...
0x00. はじめにこれは、TCP/IP プロトコル スタック シリーズの 3 番目の記事です。前回...
最近、国内で人気の「チキン早食い」ゲームに「顔認識システム」が導入され、大きな論争を巻き起こした。多...
ジェフリー・ヒントンは、コンピューターに学習方法を教えることに生涯を費やしてきました。今、彼は人工脳...