AIが初めて人間よりも上手に写真から話すことができるようになりました!マイクロソフトの認知AIチームは、Transformerを超える視覚単語リストの事前トレーニングを提案

AIが初めて人間よりも上手に写真から話すことができるようになりました!マイクロソフトの認知AIチームは、Transformerを超える視覚単語リストの事前トレーニングを提案

写真を見て会話できるAIは人間よりも優れたパフォーマンスを発揮するのか?最近、Azure は写真の内容を正確に判断できる新しい人工知能サービスをひっそりと開始しました。その背後にあるビジュアル語彙技術は、Transformer ベースの先行技術を上回り、nocaps チャレンジ チャンピオンシップで優勝しました。

検索した画像があまり関連性がないことに気づいたことはありませんか?

現在、多くの検索エンジンは画像のテキストタグに基づいていますが、私たちの世界では毎日無数の写真が生み出され、その多くはタグなしで直接インターネットにアップロードされており、画像検索に多くの混乱をもたらしています。

システムが写真に正確な説明を自動的に追加できれば、画像検索の効率が大幅に向上します。

写真について話すAI: テンプレートベースもTransformerベースも満足のいくものではない

画像の説明文を自動生成できる「画像説明」が近年注目を集めています。しかし、学界と産業界の両方でこれまでに達成された成果は、満足できるものとは程遠いものです。

画像記述システムでは、一方では画像を認識するためのコンピューター ビジョンが必要であり、他方では認識されたオブジェクトを記述するための自然言語が必要です。ラベル付けされた画像は対象を絞ったトレーニングに使用できますが、ラベル付けされていない新しいオブジェクトが表示された場合、システムは失敗するでしょうか?

新しいものを明確に説明するというこの問題は、長い間人々を悩ませてきました。

人工知能の分野では、モデルの品質を検証するためにベンチマークが通常使用されます。例えば、NLP分野ではGLUE、SuperGLUEなどが、画像認識分野ではImageNetなどが利用されるでしょう。

[[346957]]

モデルがトレーニングデータなしで画像の説明を完了できるかどうかをテストするために、nocaps が誕生しました。 Nocaps は、モデルがまだ登場していないオブジェクトを正確に記述できるかどうかを測定できます。

画像を見て説明する従来の主な方法は 2 つあります。1 つはテンプレート生成、もう 1 つは Transformer ベースの画像とテキストの相互作用の事前トレーニングです。

テンプレート生成方法は単純なシナリオでは使用できますが、画像とテキストの深い関係を捉えることはできません。Transformer ベースのモデルでは大量のラベル付きデータが必要なので、nocaps には適していません。

これらの問題を解決するために、Microsoft の Cognitive Services チームの研究者は、Visual Vocabulary Pre-training (VIVO) と呼ばれるソリューションを提案しました。

テキストと画像を組み合わせる必要がなく、VIVOが画像認識のノーキャップで初めて人間を上回るチャンピオンに

VIVO は、テキスト ラベルのないデータに対してテキストと画像のマルチモーダル事前トレーニングを実行できるため、ペアの画像とテキスト データへの依存がなくなり、ImageNet などのデータセットのカテゴリ ラベルを直接使用できます。 VIVO を使用すると、モデルはオブジェクトの視覚的な外観と意味の関係を学習し、視覚的な語彙を構築できます。

この視覚的語彙とは何でしょうか?実際、これは画像とテキストの結合特徴空間です。この特徴空間では、ゴールデンレトリバーと牧羊犬、アコーディオンと楽器など、意味が似ている単語が一緒にクラスタ化されます。

事前トレーニングと語彙リストの構築が終わったら、モデルは少数の共通オブジェクトを含む画像とテキストのペアのデータで微調整するだけで済みます。その後、モデルは共通のテンプレート文を自動的に生成できます。使用時には、これまで見たことのない単語に遭遇しても落ち着いて対応でき、これは画像と説明の各部分を切り離すことに相当します。

したがって、VIVO は、強力な事前トレーニング済みのオブジェクト認識機能を活用できるだけでなく、テンプレートの汎用性を活用して、新しく出現するオブジェクトにも対応できます。

Azure AI 認知サービス担当最高技術責任者の Xuedong Huang 氏は、ビジュアル ワード リストの事前トレーニングは、リンゴの絵の下に「リンゴ」という単語、猫の絵の下に「猫」という単語など、個々の単語と画像を関連付ける絵本を最初に子供たちに読ませることに似ていると説明しました。

視覚語彙の事前トレーニングは、本質的には、この種の運動記憶を実行するようにシステムをトレーニングすることです。

現在、VIVOはnocapsチャレンジでSOTAの結果を達成し、初めて人間のパフォーマンスを上回りました。

VIVO の成功は、チャレンジにおける SOTA だけではありません。すでに実用化されています。

SOTA画像ベース音声認識が利用可能になりました。AIは反復のグレーゾーンに留まることはできません。

世界保健機関によれば、視覚障害者はあらゆる年齢層で推定2億8500万人おり、そのうち3900万人が失明している。

障害のあるユーザーが画像や動画から情報を得たい場合、自動的に生成された画像の説明や字幕(またはさらに音声に変換されたもの)に頼らざるを得ず、字幕が意味をなすかどうかに関わらず、自動的に生成された説明を非常に信頼しています。

「理想的には、誰もが文書、ウェブ、ソーシャルメディア上の画像に説明を追加するでしょう。そうすれば、視覚障碍者もコンテンツにアクセスし、会話に参加できるようになります。」しかし、これは現実的ではなく、多くの画像には対応するテキストがありません。

「画像の説明はコンピューター ビジョンの中核機能の 1 つであり、幅広いサービスを提供できます」と、Azure AI Cognitive Services の最高技術責任者である Xuedong Huang 氏は述べています。

現在、VIVO の画像を通じて話す機能は Azure AI に統合されており、誰でも独自のビジュアル AI アプリケーションに統合できます。

[[346958]]

Huang Xuedong 氏は、VIVO の画期的な技術を Azure に導入してより幅広い顧客ベースにサービスを提供することは、研究上の画期的な技術だけではなく、この画期的な技術を Azure 上の製品に変換するのにかかる時間の方が重要であると考えています。

VIVO ベースのミニプログラム「Seeing AI」はすでに Apple App Store で入手可能で、Azure では視覚障害者が無料で使用できる無料 API もリリースされています。 Azure の翻訳サービスを追加すると、Picture Speaking は 80 以上の言語をサポートできます。

実際、あまりにも多くの研究室の SOTA テクノロジーが継続的な反復のグレー状態に陥り、当初のミッションを完了できていません。

絵で話すことは認知知能へのほんの一歩です。グーテンベルクの印刷機にヒントを得て、私たちは新しい魔法を生み出すことができます

近年、マイクロソフトは既存の技術を超えて人工知能を進歩させることを目指しています。

Azure Cognitive Services の最高技術責任者である Huang Xuedong のチームは、より包括的かつ人間的な方法で世界を学び、理解する方法を模索してきました。

彼は、認知能力を向上させるには、単一言語のテキスト (X)、音声や視覚などの感覚信号 (Y)、多言語 (Z) という 3 つの要素が重要だと考えています。

これら 3 つの交差点には、人間の声をより良く聞き、話し、見て、理解できる、より強力な AI を作成できる新しい種類の魔法、XYZ コードが存在します。

「XYZ-Code は、クロスドメイン、クロスモーダル、クロスリンガル学習という当社の長期ビジョンを実現していると信じています。当社の目標は、今日の人間と同じように、幅広い下流の AI タスクの表現を学習できる事前トレーニング済みモデルを構築することです。」

黄氏のチームは、1440年に印刷機を発明し、人類が知識を迅速かつ大量に共有できるようにしたドイツの発明家ヨハネス・グーテンベルクからインスピレーションを得た。歴史上最も重要な発明の一つであるグーテンベルクの印刷機は、社会の発展に革命をもたらしました。

グーテンベルクと彼の印刷機

今日のデジタル時代において、認知知能のビジョンは、人間のように学習し推論し、さまざまな状況や意図について正確な推論を行い、合理的な決定を下すことができる技術を開発することです。

過去 5 年間で、音声認識対話、機械翻訳、質疑応答対話、機械読解、画像説明など、AI の多くの分野で人間と同等の成果を達成しました。

これら 5 つのブレークスルーにより、人工知能への飛躍が可能であるという自信がさらに高まりました。XYZ コードは、多感覚および多言語学習の重要な部分となり、最終的には人工知能をより人間らしくします。

グーテンベルクの印刷機がコミュニケーションのプロセスに革命をもたらしたのと同じように、認知知能は人工知能の偉大なルネッサンスの実現に貢献するでしょう。

絵物語を体験するためのリンク:

https://apps.apple.com/us/app/seeing-ai/id999062298

<<:  ニューラル ネットワーク: 神秘的で驚異的なニューラル ネットワークの完全な歴史

>>:  ヨーロッパは最も強力なAIスーパーコンピュータ「レオナルド」をリリースし、スーパーコンピューティングシステムの状況は変化する

ブログ    
ブログ    

推薦する

スマートビルディングのためのビルディングオートメーションと IoT

[[350210]]今日、私たちが建物について語るとき、それは単なる外殻を意味するのではなく、さま...

ツールの選択からチームのコミュニケーションまで、ML エンジニアが実稼働レベルの機械学習を段階的に構築する様子をご覧ください。

機械学習がユーザーに真の価値をもたらすためには、それを本番システムに導入する必要があります。 AI ...

...

...

ロボット自動化を実装する5つの方法

今日、チャットボットは、顧客サービスの向上、業務の効率化、そしてより効果的な顧客との関わりを求める企...

人工知能技術は若者の雇用にどのような影響を与えるでしょうか?

人工知能の発展の過程で、常に次のような声が聞かれます。「人工知能によって、特に若者を中心に、失業者が...

人工知能の分野でデータの機密性をどのように保護するか?

進化するインテリジェントな世界では、データの機密性と AI 倫理の融合が企業と社会にとって大きな懸念...

...

ドローン空気検知器は環境保護にどのように役立つのでしょうか?

大気汚染は常に国家経済と国民の健康を悩ませる重要な要因となっている。大気中の汚染物質をタイムリーかつ...

...

AIのダークサイド: AIを信頼できるものにする方法

セキュリティとプライバシーに関する懸念は、AI 導入に対する最大の障壁であり、それには十分な理由があ...

...

チャットボット vs モバイルアプリ: 未来はどちらの手に?

[[272171]]チャットボットとモバイルアプリの戦いは、常に業界で最も議論されているトピックの...

...

機械翻訳:人工知能分野の重要な中核技術

近年、機械翻訳 (MT) は大きな進歩を遂げ、満足のいく成果を達成しました。 MT は人工知能分野の...